面向低资源语言神经网络机器翻译的知识迁移方法研究

基本信息
批准号:61906158
项目类别:青年科学基金项目
资助金额:24.00
负责人:米成刚
学科分类:
依托单位:西安外国语大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
神经机器翻译迁移学习低资源语言动态词汇表语言相关性
结项摘要

Recent studies mainly focus on multilingual neural machine translation and transfer learning across low-resource, related Languages. The knowledge transfer problem in neural machine translation is under-study. Existing methods are difficult to satisfy the needs of low-resource language neural machine translation in terms of model optimization and its practicability.. There are three main contributions in this project. 1) We detailed analysis the impact of language relatedness on knowledge transfer among different languages in low-resource languages neural machine translation. 2) We propose a lexical-level and sentence-level knowledge transfer model for low-resource languages neural machine translation; our proposed approach utilizes a transfer-learning approach to share lexical and sentence level representations across multiple source languages into one target language. 3) In order to adapt the characteristics of low-resource languages, we propose a dynamic vocabulary based model to optimize and update the existing neural machine translation model.. The development of this project can clarify the influence mechanism of language relatedness on the knowledge transfer for low-resource language neural machine translation; The fusion and deployment of knowledge transfer in the low-resource language neural machine translation model can also be deeply understand; This project can also provide theoretical and methodological support to machine translation and related fields.

现有的面向机器翻译的迁移学习方法并未对低资源语言与相应的资源丰富语言相关性及其对低资源语言神经网络机器翻译的影响进行细致的分析,且未对翻译知识迁移的细节进行深入地研究。因此,已有的知识迁移策略在模型优化及其实用性方面都难以满足社会对低资源语言神经网络机器翻译的需求。. 本项目拟提出一种面向低资源语言神经网络机器翻译的知识迁移方法。首先,对语言相关性对知识迁移的影响进行分析,并提出量化的相关性评价方法;其次,基于所有与低资源语言相关的源语言数据上的词、句子级分布式表示共享向低资源语言端迁移词和句子级知识;最后,为了适应低资源语言的特点,基于动态词汇表对已有的神经网络机器翻译模型进行更新和优化。. 本项目的开展可以明确语言相关性对低资源语言神经网络机器翻译知识迁移的影响、更深入地理解知识迁移在模型中的融合与部署,为低资源语言神经网络机器翻译提供理论和方法支撑。

项目摘要

近年来,神经网络机器翻译研究取得了长足的发展。由于缺乏大规模双语数据,已有的方法在低资源语言上不能达到理想的翻译效果。本项目重点探索低资源语言神经网络机器翻译中的知识迁移问题。通过双语句子级数据增广缓解低资源语言对句子级对齐数据匮乏的问题;开展语言相关度评价研究,促使模型的翻译知识从资源丰富语言至低资源语言的有效迁移;为进一步提升知识迁移效果,研究多种粒度的翻译知识共享策略;开展词汇表扩展及切分优化研究,对双语词汇表进行优化,最大限度克服翻译模型训练中的数据稀疏现象。具体研究内容如下:1)双语数据增广:提出了一种基于复述生成及多特征融合的双语句子数据扩充策略;2)语言相关度评价:提出基于语言类型学特征的语言相关度评价方法,为低资源语言对选择最相关的语言资源参与模型训练,优化低资源语言对翻译质量;3)多粒度知识迁移:提出了一种基于词、短语、句子等多种粒度的翻译知识迁移策略;4)词汇表优化:提出从词汇表扩展及切分优化两个角度对低资源语言词汇表进行改善。实验结果表明,本项目提出的各个方法与现有的方法相比均取得了明显的性能提升。本项目取得的研究成果一定程度上推动低资源语言机器翻译领域的发展,并且对低资源自然语言处理及多模态信息处理有着重要的借鉴意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
3

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
4

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

米成刚的其他基金

相似国自然基金

1

面向低资源语言机器翻译的跨语言语境化向量表示与迁移研究

批准号:61902024
批准年份:2019
负责人:李洪政
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目
2

面向资源稀缺型语言的机器翻译理论方法及关键技术研究

批准号:61732005
批准年份:2017
负责人:余正涛
学科分类:F0211
资助金额:295.00
项目类别:重点项目
3

融合语言知识与统计模型的机器翻译方法研究

批准号:60736014
批准年份:2007
负责人:刘群
学科分类:F0211
资助金额:180.00
项目类别:重点项目
4

融入语言学知识的汉蒙统计机器翻译研究

批准号:61063014
批准年份:2010
负责人:王斯日古楞
学科分类:F0211
资助金额:28.00
项目类别:地区科学基金项目