基于词汇语义的统计机器翻译研究

基本信息
批准号:61403269
项目类别:青年科学基金项目
资助金额:25.00
负责人:熊德意
学科分类:
依托单位:苏州大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:朱晓旭,王星,王超超,朱苏阳,汪蓉
关键词:
词义消歧统计机器翻译机器翻译语义知识词汇语义
结项摘要

Statistical machine translation (SMT) has witnessed three different research stages ranging from word-based to phrase-based and syntax-based SMT. Current SMT is still confronted with semantics-related issues, such as inappropriately conveying word meanings from the source to the target language and incorrectly translating long-distance semantic dependencies. This project proposal will mainly focus on lexical semantics. We want to attempt to address semantics-related issues of incorrect translations and to improve semantic accuracy in translations via systematical investigation of lexical semantics-based SMT. Our key research includes: 1) bilingual representation of lexical semantics tailored for SMT, 2) construction of large-scale bilingual corpus that is annotated with lexical semantics based on the proposed bilingual lexical semantics representation, and 3) models and algorithms of lexical semantics-based SMT built on the constructed bilingual corpus. With regard to the study of models and algorithms, we will build lexical semantics-based statistical language model, reordering model as well as translation model based on semantic compositionality and selectional preference. Additionally, we also probe into various mechanisms that integrate lexical semantics into SMT. The deployment of this project will make a contribution to semantics-based SMT and serve as reference for future research.

统计机器翻译经历了从基于单词到基于短语和句法的三个不同阶段,目前译文中仍存在词不达意,长距离语义约束错误翻译等与语义相关的问题。本项目专注于词汇语义知识,希望通过系统化地研究基于词汇语义的统计机器翻译,试图解决与语义相关的错误翻译问题,提高译文语义准确性。重点研究1)适合统计机器翻译的词汇语义双语表示体系;2)基于该表示体系标注词汇语义的大规模平行语料库建设;以及3)基于该语料库的词汇语义统计机器翻译模型和方法。在模型和方法研究中,我们将构建基于词汇语义的统计语言模型和调序模型、以及基于语义合成性和语义选择优先性的统计翻译模型,并探讨将词汇语义集成到统计机器翻译中的不同机制。本项目开展的基于词汇语义统计机器翻译研究将为基于语义的统计机器翻译发展做出贡献,并为未来的研究提供借鉴。

项目摘要

机器翻译本质上是从语义层面将源语言句子正确转换到目标语言,因此语义对机器翻译具有很重要的作用。本项目专注于词汇层语义,对基于词汇语义的机器翻译展开了深入系统的研究。开展的研究工作包括:1)词汇语义的双语表示模型,2)词汇语义标注的语料库及构建在该语料库上的模型,3)基于词汇语义的统计翻译模型和方法。在词汇语义表示模型方面,我们提出了面向统计机器翻译的上下文感知主题模型、基于双语对应自动递归编码器的双语短语语义表示模型、基于卷积加强的双语递归神经网络的双语语义表示模型、以及基于注意力机制的二维递归自动编码器短语语义表示模型。在词汇语义语料库标注方面,我们利用WordNet的超词义自动标注了大规模的平行语料库并在上面构建了基于超词义的统计翻译模型。在基于词汇语义的统计翻译模型方面,我们提出了基于词汇语义的非终结符表示模型、基于图的协同词汇选择模型、基于选择偏向性的统计译文选择模型、以及基于语义合成的统计翻译模型等。以上模型将词汇语义知识成功集成到机器翻译中,显著提升了译文质量,减少了译文在语义方面的错误,相关的研究结果进一步加深了对词汇语义的双语表现机理的认识,为未来基于更高层次语义(如句子级语义、篇章级语义)的机器翻译研究打下了基础。本项目发表学术论文共计21篇,其中SCI检索论文4篇(含大类分区2区论文2篇,CCF A类期刊论文1篇),CCF A类会议论文4篇,CCF B类会议论文12篇。出版英文专著1部,编著会议论文集4部。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
3

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020
4

知识产权保护执法力度、技术创新与企业绩效 — 来自中国上市公司的证据

知识产权保护执法力度、技术创新与企业绩效 — 来自中国上市公司的证据

DOI:
发表时间:2016
5

基于关系对齐的汉语虚词抽象语义表示与分析

基于关系对齐的汉语虚词抽象语义表示与分析

DOI:
发表时间:2020

熊德意的其他基金

相似国自然基金

1

基于句子语义结构的统计机器翻译研究

批准号:61401295
批准年份:2014
负责人:李军辉
学科分类:F0113
资助金额:25.00
项目类别:青年科学基金项目
2

基于篇章语义的文档级统计机器翻译研究

批准号:61305088
批准年份:2013
负责人:贡正仙
学科分类:F0606
资助金额:25.00
项目类别:青年科学基金项目
3

基于词汇语义网络的中文深层语义分析

批准号:61872402
批准年份:2018
负责人:邵艳秋
学科分类:F0211
资助金额:64.00
项目类别:面上项目
4

语境调节词汇语义和后词汇语义加工的大脑动态机制

批准号:31500880
批准年份:2015
负责人:黄健
学科分类:C0907
资助金额:21.00
项目类别:青年科学基金项目