Currently, the performance of Statistical Machine Translation (SMT) is far from satisfactory for the real application requirements. Computer Aided Translation (CAT) software, which is based on Translation Memory (TM) rather than the SMT, still dominates the professional translation market. However, lots of human post-editing effort is still required for applications. Since the TM, the Example-Based Machine Translation (EBMT) and the SMT complement each other in those matched and unmatched sub-segments, the translation efficiency would be greatly boosted if the Machine Translation (MT) system could be incorporated into the CAT software to relieve human post-editing effort. Therefore, to meet the application requirements, this project aims at integrating TM and EBMT into the SMT system: (1) propose an integrated model which coordinates TM, EBMT and SMT during decoding to take advantage of each approach; (2) propose a domain adaptation method for the proposed integrated model; (3) propose a confidence estimation method for the proposed integrated model. Once the key technology of the project is realized, the translation efficiency will be greatly boosted because much better translation results can be provided by the integrated model. This research is not only important on theory, but it will also greatly promote the application of MT in the professional translation field and has a broad application prospect.
目前统计机器翻译系统的翻译质量还无法真正满足实际翻译要求,基于翻译记忆的计算机辅助翻译软件仍然是专业翻译领域的主流工具,但是它的结果仍然需要大量的人工后编辑才能满足实际应用需求。由于翻译记忆、基于实例的机器翻译方法以及统计机器翻译在不同方面优势互补,如果能够在辅助翻译系统中引入自动机器翻译,替代一部分人工后编辑的工作,将会极大地提高翻译效率。因此,本项目面向辅助翻译应用需求,研究融合翻译记忆、基于实例的机器翻译方法和统计机器翻译模型的多模型融合新方法,主要开展以下研究:1、针对各模型的优缺点,提出在解码过程中协同考虑三种模型的融合辅助翻译方法;2、针对提出的融合模型,研究并验证其领域适应性问题;3、研究适用于该融合模型的译文置信度评估方法。该项目中的关键技术一旦得到攻克,将为翻译人员提供更好的参考译文,从而极大地提高人工翻译效率。该研究不仅具有重要的理论研究意义,而且具有广阔的应用前景。
在项目实施的三年时间内,我们针对统计翻译和翻译记忆的融合问题进行了深入研究。在多模型融合研究方面:(1)我们提出了统计机器翻译和翻译记忆的动态融合方法,在解码过程中进一步地动态加入翻译记忆中新发现的短语对。它在机器翻译解码过程中动态地加入翻译记忆片段作为候选,并利用翻译记忆的相关信息指导基于短语的翻译模型进行解码。(2)针对专业领域翻译的特殊现状,我们提出了使用通用领域的统计机器翻译模型与专业领域的翻译记忆结合方法,在解码过程中利用专业领域的翻译记忆来补充短语翻译候选,同时还使用翻译记忆中挖掘的信息来指导统计机器翻译模型解码。在系统构建方面,我们构建了融合翻译记忆、基于实力的机器翻译模型和基于统计的机器翻译模型的多模型融合辅助翻译系统,圆满完成了项目任务。在论文和专利方面,项目发表了8篇国际和国内重要期刊和会议的学术文章,并申请2项国家发明专利。在研究生培养方面,项目执行三年里,2名同学获得博士学位。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
变可信度近似模型及其在复杂装备优化设计中的应用研究进展
基于LBS的移动定向优惠券策略
肝癌多学科协作组在本科生临床见习阶段的教学作用及问题
固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响
面向辅助翻译的统计机器翻译自诊断和自纠错方法研究
基于用户反馈的多策略翻译在线融合方法研究
融合语言知识与统计模型的机器翻译方法研究
面向动态数据的翻译模型更新方法研究