基于深度语义的汉维机器翻译研究

基本信息
批准号:61662077
项目类别:地区科学基金项目
资助金额:41.00
负责人:艾山·吾买尔
学科分类:
依托单位:新疆大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:赵秋野,郑炅,早克热·卡德尔,热娜古丽·阿布里米提,张金超,王明轩,阿西穆·托合提,阿依图尔荪·喀迪尔,解倩倩
关键词:
词语表示神经网络的机器翻译命名实体翻译语言模型
结项摘要

China is a unified multi-ethnic country. National language machine translation research to maintain social stability in ethnic minority area of our country and against the secessionist activities, strengthen the communication between different nations, inheritance and development of national culture, minority language information technology development, has very important significance. Uyghur language is one of the most used languages in China. In this project, we focuses on building high performance Chinese Uyghur machine translation system, and carry research on distributed Uyghur word representation, building rich morphological agglutinative language model, neural network based Chinese Uyghur machine translation model, neural network based transliteration model and organization name translation model, study the CFG based Chinese Uyghur organization name translation method and integrating named entity translation method into neural network based machine translation model. we also research on unknown word translation method for neural network based machine translation. The research results and conclusions of this project provide technical reference for the study of Chinese and other rich morphological agglutinative language machine translation system.

我国是一个统一的多民族国家。民族语言机器翻译的研究对维护我国民族地区的社会稳定和反对分裂活动、加强各民族交流、传承并发展民族文化、民族语言信息化技术的发展等都具有极为重要的意义。维吾尔语是我国使用人口最多的几个少数民族语言之一。维吾尔语属阿勒泰语系突厥语族,是一种形态丰富的粘着语言。粘着语言机器翻译建模是机器翻译研究面临的重要科学问题。本课题围绕构建高性能的汉维机器翻译系统技术,对维吾尔语分布式词语表示、形态丰富粘着语言语言模型建模、基于神经网络的汉维机器翻译模型、基于神经网络的汉维音译、机构名翻译模型、基于CFG文法的汉维机构名、名实体翻译与神经网络翻译的融合、神经网络翻译中的未登录词翻译问题等开展研究。本项目的研究成果及结论,对研究汉语与其它形态丰富粘着语言机器翻译系统提供技术参考。

项目摘要

本项目中,针对汉语-维吾尔语机器翻译双语语料库不足、维吾尔语形态丰富、命名实体翻译不理想等问题,申请开展面向形态丰富黏着语言的词语表示建模方法、基于神经网络的维吾尔语语言模型方法研究、基于深度语义表示的汉维机器翻译建模、汉维命名实体翻译方法等研究,拟计划新构建5万条汉语-维吾尔语句对和5000条汉维评测测试集,构建汉维人名、地名、机构名称及行政区划、机构业务等词典资源,试图缓解维吾尔语形态丰富所带来的问题和数据资源不足等问题,力图研发能够使用的维汉、汉维机器翻译系统。. 通过本项目,针对机器翻译中如何切分维吾尔语和其他形态丰富语言开展研究,提出了带标记的音节切分输入方法,在维汉翻译任务上提高2.01个BLEU值,在汉维翻译任务上提高2.82个BLEU值,提出了多种BPE切分标记化混合训练方法,在维汉翻译任务上提高1.77个BLEU值、在汉维翻译任务上提高了0.69个BLEU值。针对神经网络改进与优化,提出了一种新的Linear Associative Units (LAU)来减少递归神经元内部梯度传播路径的发,对汉英翻译的实验表明,适当配置的模型对汉英的翻译效果可以提高11.7 BLEU,在维汉上提升了大约13个BLEU值。针对Teacher-Forcing训练问题的不足,提出了在训练时不仅仅使用true ground label,还会结合oracle word作为上下文的模型,显著提升模型性能,并获得2019年度ACL 最佳论文奖。针对非自回归解码不能利用序列依赖信息的问题,提出了能获取序列信息的网络结构,加速了解码速度。提出了通过查询胶囊网络增强上下文建模能力的模型,显著提升翻译性能。针对低资源翻译模型可能学习语法知识不足问题,提出了融合词性预测任务的Transformer训练模型,显著提高低资源语言的翻译性能。研究与实现了汉语-维吾尔语人名、机构名翻译的神经网络模型、基于神经网络的维吾尔语词干提取、词性标注、命名实体识别模型。本项目实现的英汉维机器翻译引擎投入使用。本项目针对形态丰富语言、低资源语言、翻译模型训练优化、加速解码等方面形成了技术体系,超额完成了资源构建任务。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

艾山·吾买尔的其他基金

批准号:61262060
批准年份:2012
资助金额:45.00
项目类别:地区科学基金项目
批准号:60963018
批准年份:2009
资助金额:21.00
项目类别:地区科学基金项目

相似国自然基金

1

基于短语的维汉统计机器翻译关键技术的研究

批准号:61063026
批准年份:2010
负责人:吐尔根·依布拉音
学科分类:F0211
资助金额:25.00
项目类别:地区科学基金项目
2

基于机器翻译的汉-维哈蒙多语种电子病历的研究

批准号:61163030
批准年份:2011
负责人:达瓦·伊德木草
学科分类:F0211
资助金额:51.00
项目类别:地区科学基金项目
3

基于融合策略的汉藏(藏汉)机器翻译关键技术研究

批准号:61662061
批准年份:2016
负责人:才让加
学科分类:F0211
资助金额:41.00
项目类别:地区科学基金项目
4

面向汉维机器翻译性能优化的关键技术研究

批准号:61562081
批准年份:2015
负责人:帕力旦·吐尔逊
学科分类:F0211
资助金额:40.00
项目类别:地区科学基金项目