Statistical Machine Translation (SMT) systems train translation models on static training corpus. The translation models contain various kinds of translation knowledge (statistics of structures) after training is finished. These translation knowledge remain invariant since then, and result in performance bottleneck caused by the limitation of training corpus’ quality, scale etc. On the other hand, newly emerged parallel corpus and translation online help systems provide continuous resources for SMT systems. This project proposes a mechanism for automatically growing Machine Translation knowledge, aiming at a never-end learning SMT system using continuously emerging resources...The proposed mechanism contains three modules: 1) Detection of out-of-structures (not shown in old data), which includes out-of-vocabulary, out-of-phrases, out-of-syntaxes, out-of-semantics; 2) Translation retrieval for the out-of-structures, targeting at finding out-of-structures’ translations in the continuously emerging resources; 3) Unifying new translation knowledge obtained from out-of-structures and old translation knowledge by organizing them in a compact and efficient hierarchy consisting of levels of words, phrases, syntaxes, and semantics...This project will create the automatic learning ability for machine translation, and build the foundation for sustained development of SMT systems.
当前机器翻译系统大多基于某一语料训练翻译模型。训练完成后,翻译模型中包含各种翻译知识(统计信息等),但这些翻译知识不会再变化,从而使翻译知识受限于训练语料的质量、规模等因素,遇到翻译性能瓶颈。另一方面,时时刻刻在增加的新的平行语料以及线上助译系统等为机器翻译系统提供了不断增长的资源。本项目提出机器翻译知识的自动增长机制研究,旨在利用这些不断增长的资源,实现一个不停止学习新知识的机器翻译系统。本项目从三个方面开展自动增长机制的研究:1)未登录结构的识别,包括对未登录词、未登录短语、未登录句法结构、未登录语义结构的识别;2)未登录结构的翻译的检索,在不断增长的资源中查找未登录结构的翻译;3)新翻译知识与旧翻译知识的统一机制,新旧知识按照词、短语、句法、语义的层级关系组织起来以紧凑高效地实现知识的更新与统一。本项目将构建机器翻译系统的自动学习能力,为机器翻译系统的持续发展奠定基础。
机器翻译系统通常基于某一语料训练翻译模型后,模型不再更新,然而时刻增加的数据为机器翻译系统提供了不断增长的资源,如何将这些资源整合到翻译系统中,让翻译知识在特定条件下实现继续获取和增长存在着很大的挑战,比如在零资源条件下,如何实现翻译知识从无到有的增长;在低资源条件下,如何实现翻译知识的持续增长;在高资源条件下,如何引入外部资源实现继续增长。本项目提出了多种方法解决上述问题:在零资源条件下,首先提出了利用跨语言预训练模型,使得多语空间相似,从而利于高资源翻译知识迁移到零资源任务之上,并提出了新的跨语言预训练模型,以硬性地或软性地将多语言词对齐嵌入到模型之中。其次提出了数据增强方法构造训练语料,并引入注意力的接力机制,以解决零资源下跨语言的摘要问题。在低资源条件下,首先提出了基于双语词典的弱监督学习,解决平行数据缺乏的方法,将双语词对作为锚点,拉近双语空间的距离,从而使得双语间的翻译更加容易,同时,更好的翻译性能促进发现更多的双语词对,实现翻译知识的持续增长。其次提出了对领域特征建模的方式对低资源领域进行领域适应研究,使用领域不敏感网络发现领域共有特征,使用领域敏感网络发现领域特有特征,从而利于翻译知识迁移到该领域。在高资源条件下,提出更有效的利用外部翻译知识提升翻译质量的方法,通过跨语言训练和正则化的训练目标,提升注意力机制使得注意力更集中在对翻译更有帮助的源端词汇之上,从而可以更准确地引入外部翻译知识。以上方法在各种语言对以及不同的数据条件和实验环境下,均取得了翻译性能的提升,验证了零资源条件下翻译知识迁移的有效性,低资源条件下弱监督学习提升翻译知识的有效性,以及高资源条件下外部知识的有效引入机制。本项目的研究将为机器翻译系统的持续发展奠定基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
农超对接模式中利益分配问题研究
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于知识的智能机器翻译方法研究
融合语言知识与统计模型的机器翻译方法研究
基于语言理解的机器翻译译文自动评价方法研究
基于统计机器翻译和自动文摘的查询扩展研究