Recent studies mainly focus on multilingual neural machine translation and transfer learning across low-resource, related Languages. The knowledge transfer problem in neural machine translation is under-study. Existing methods are difficult to satisfy the needs of low-resource language neural machine translation in terms of model optimization and its practicability.. There are three main contributions in this project. 1) We detailed analysis the impact of language relatedness on knowledge transfer among different languages in low-resource languages neural machine translation. 2) We propose a lexical-level and sentence-level knowledge transfer model for low-resource languages neural machine translation; our proposed approach utilizes a transfer-learning approach to share lexical and sentence level representations across multiple source languages into one target language. 3) In order to adapt the characteristics of low-resource languages, we propose a dynamic vocabulary based model to optimize and update the existing neural machine translation model.. The development of this project can clarify the influence mechanism of language relatedness on the knowledge transfer for low-resource language neural machine translation; The fusion and deployment of knowledge transfer in the low-resource language neural machine translation model can also be deeply understand; This project can also provide theoretical and methodological support to machine translation and related fields.
现有的面向机器翻译的迁移学习方法并未对低资源语言与相应的资源丰富语言相关性及其对低资源语言神经网络机器翻译的影响进行细致的分析,且未对翻译知识迁移的细节进行深入地研究。因此,已有的知识迁移策略在模型优化及其实用性方面都难以满足社会对低资源语言神经网络机器翻译的需求。. 本项目拟提出一种面向低资源语言神经网络机器翻译的知识迁移方法。首先,对语言相关性对知识迁移的影响进行分析,并提出量化的相关性评价方法;其次,基于所有与低资源语言相关的源语言数据上的词、句子级分布式表示共享向低资源语言端迁移词和句子级知识;最后,为了适应低资源语言的特点,基于动态词汇表对已有的神经网络机器翻译模型进行更新和优化。. 本项目的开展可以明确语言相关性对低资源语言神经网络机器翻译知识迁移的影响、更深入地理解知识迁移在模型中的融合与部署,为低资源语言神经网络机器翻译提供理论和方法支撑。
近年来,神经网络机器翻译研究取得了长足的发展。由于缺乏大规模双语数据,已有的方法在低资源语言上不能达到理想的翻译效果。本项目重点探索低资源语言神经网络机器翻译中的知识迁移问题。通过双语句子级数据增广缓解低资源语言对句子级对齐数据匮乏的问题;开展语言相关度评价研究,促使模型的翻译知识从资源丰富语言至低资源语言的有效迁移;为进一步提升知识迁移效果,研究多种粒度的翻译知识共享策略;开展词汇表扩展及切分优化研究,对双语词汇表进行优化,最大限度克服翻译模型训练中的数据稀疏现象。具体研究内容如下:1)双语数据增广:提出了一种基于复述生成及多特征融合的双语句子数据扩充策略;2)语言相关度评价:提出基于语言类型学特征的语言相关度评价方法,为低资源语言对选择最相关的语言资源参与模型训练,优化低资源语言对翻译质量;3)多粒度知识迁移:提出了一种基于词、短语、句子等多种粒度的翻译知识迁移策略;4)词汇表优化:提出从词汇表扩展及切分优化两个角度对低资源语言词汇表进行改善。实验结果表明,本项目提出的各个方法与现有的方法相比均取得了明显的性能提升。本项目取得的研究成果一定程度上推动低资源语言机器翻译领域的发展,并且对低资源自然语言处理及多模态信息处理有着重要的借鉴意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
黄河流域水资源利用时空演变特征及驱动要素
低轨卫星通信信道分配策略
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向低资源语言机器翻译的跨语言语境化向量表示与迁移研究
面向资源稀缺型语言的机器翻译理论方法及关键技术研究
融合语言知识与统计模型的机器翻译方法研究
融入语言学知识的汉蒙统计机器翻译研究