由于受到翻译腔的影响,中英平行语料库存在固有的扭斜的语言模型。显然,用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型,严重影响到系统的性能。本项目的目标是,采用可比语料库和语言自动剖析技术,使用统计、规则和语义相结合的方法,对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库进行统计分析研究;在此基础上,利用n-元词串、关键词簇和语义多词表达等自动抽取技术挖掘本族语言模型,实现改进和发展机器翻译等自然语言处理应用。利用带有本族英语专家修订标记的大规模翻译文本库,通过比较分析工具构建满足可比语料库取样框架要求的三元组可比语料库是本项目的特色。利用本项目算法提取的本族语言模型,将通过我院现有机器翻译系统的运行,测试和评估项目成果的有效性和实用性。项目前期,我院与英国Lancaster大学关于三元组可比语料库自动剖析的示范研究成果为本项目实施奠定了基础。
本项目试图通过构建包括本族英语在内的三元组可比语料库,挖掘本族语言模型,克服中英平行语料库固有的扭斜的语言模型,实现改进机器翻译等自然语言处理应用系统的目的。本项目的研究内容包括三元组可比语料库建设、关键词簇自动剖析、翻译模板和语义多词表达(SMWEs)自动提取4个部分。本项目取得的重要结果是通过实验研究和理论分析,证实了建造三元组可比语料库,挖掘本族语言模型,改进和发展机器翻译等自然语言处理应用的研究方法的可行性。特别是,本项目采用的关键词簇方法,从三元组可比语料库中挖掘的基于本族语言模型的多词表达和翻译模版显著改进了机器翻译译文质量。本项目取得的另一个重要结果是证实了由于语义和统计方法的互补性,通过组合这两种方法可以显著提高提取的多词表达的覆盖面。与单独的统计和语义方法相比,覆盖率分别提高了113.77%和57.18%。在机器翻译系统中加入从三元组可比语料库中挖掘的基于本族语言模型的双语资源后,汉英、英汉翻译系统的BLEU值分别提高了9% 和13%。本项目的科学意义在于率先在国内提出建造三元组可比语料库,挖掘本族语言模型,改进和发展机器翻译等自然语言处理应用的研究方法,以及采用语义和统计相结合的方法发展多词表达提取技术。
{{i.achievement_title}}
数据更新时间:2023-05-31
资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
氯盐环境下钢筋混凝土梁的黏结试验研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
中英可比语料库与体育术语自动抽取的探索性研究
可比语料库质量量化与提升方法研究
基于可比语料的多语言文本聚类研究
基于跨语言主题向量的双语篇章可比度量化研究