面向统计机器翻译的适应性学习与应用关键技术研究

基本信息
批准号:61672367
项目类别:面上项目
资助金额:62.00
负责人:姚建民
学科分类:
依托单位:苏州大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:朱晓旭,赵京胜,王潇斌,姚亮,王凯,丁思远,刘梦眙,徐增壮
关键词:
统计机器翻译深度学习翻译知识发现适应性分析与应用以图搜图
结项摘要

There are different characteristics and challenges of the translation tasks in different domains, scenarios, media, and rhetoric and language systems. Machine-translation oriented adaptation learning and application is defined as a process to drive a post-processing system to find and be aware of those new characteristics, mine related knowledge and improve the translation system for new tasks. If a translation system is equipped with the adaptation analysis and modeling as attachment, it will achieve better portability, reusability and robustness. Such a system enables the reduction of time-consuming for learning in new translation tasks. Until now, there has been few sophisticated models proposed towards the adaptation of the statistical machine translation. The existing methods generally follow the traditional directions. In this object, we aim to improve the translation systems in diverse environments. We prefer to proposing and evaluating brand new ideas and methods. We focus on studying and addressing the following issues: 1) efficient bilingual resource mining towards multiple tasks and diverse environments; 2) deep learning and application of translation knowledge in diverse environments, especially the methods based on semantics and concepts; 3) translation knowledge mining and modeling in low-resource settings. In particular, we will open a study on cross-scenario and cross-language-systems translation models, as well as multimedia based knowledge mining. It is still the first time to propose the two research tasks.

不同领域、不同情景、不同媒体、不同语体和不同语系下的翻译任务往往有着截然不同的特点与难点。驱动一套后验系统,尝试发现与理解新特点,挖掘新知识,并调整翻译系统以解决新问题的过程,称为面向机器翻译的适应性学习与应用过程。配以适应性分析与建模附件的翻译系统,具有较高的可移植性、复用性和鲁棒性,往往能够付出较小的学习代价执行全新的翻译任务。目前,针对统计机器翻译的适应性研究尚未成熟,现有方法学在突破传统思路方面也略显不足。本课题以优化各类环境下翻译系统的适应性为研究目标,尝试探索新的研究思路与突破口,并重点分析和解决如下关键问题:1)面向多任务多环境的双语资源高效挖掘;2)以语义和概念为核心,对翻译知识进行深度学习和多环境应用;3)知识匮乏条件下的翻译知识获取与建模。尤其,本课题将开展跨场景和跨语系的翻译知识分析,以及借助多媒体(如图像)的双语知识挖掘,这类研究在国内外尚属首例。

项目摘要

本课题旨在提升机器翻译系统的实用性,集中在跨领域和跨场景的适应性问题上,重点研究双语平行资源获取、语义深度理解、迁移瓶颈处理和多模态建模的关键技术。课题组针对平行资源建设,研究完成了基于网络结构图的刚性获取方法,以及利用复述识别的软扩展方法,形成了包含高质量平行互译数据和高多样性的辅助互译数据。在机器翻译核心模型的研发过程中,课题组一方面将神经网络模型引入语言的深度理解过程中,一方面基于自动机原理提升翻译模型适应多领域的能力,提出并实现了重调序、自修正和学习强化的有效方法。针对翻译模型跨领域迁移应用的研究过程中,课题组着力解决了领域术语翻译不准和否定覆盖域错乱的卡脖子问题,尤其借助篇章语义理解和对抗特征识别,提升了翻译模型的鲁棒性。特别地,课题组分析研究了机器翻译在应急任务中的应用痛点,设定了特定源语言和目标语言互译标注数据稀缺条件下的“速成”翻译任务,研究开发了借助多模态信息处理技术的机器翻译方法,在图像文字注释的自动生成、图像注释的自动翻译和优化方法方面,提出并实现了多项关键技术,其能够以图像为桥梁,提高关键信息的互译样本获取和翻译模型训练的性能。课题组研究实现的相关技术,皆在国际权威数据集上进行测试,各项性能均达到国际前沿水平,由此形成科技文献、专利和人才培养成果,达到课题计划要求。此外,课题组将成型稳定的关键技术逐步引入实用阶段,部分技术已在“开放域知识卡片生成”系统中投入使用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

姚建民的其他基金

相似国自然基金

1

统计机器翻译领域自适应关键技术研究

批准号:61572154
批准年份:2015
负责人:曹海龙
学科分类:F0211
资助金额:62.00
项目类别:面上项目
2

面向地铁客流大数据的统计机器学习关键技术研究

批准号:71901188
批准年份:2019
负责人:赵杨
学科分类:G0112
资助金额:18.00
项目类别:青年科学基金项目
3

串到树统计机器翻译的若干关键技术研究

批准号:61073140
批准年份:2010
负责人:朱靖波
学科分类:F0211
资助金额:31.00
项目类别:面上项目
4

面向科技文献的机器翻译关键技术研究

批准号:60873167
批准年份:2008
负责人:吕雅娟
学科分类:F0211
资助金额:30.00
项目类别:面上项目