基于生成树库分析与生成一体化机器翻译模型研究

基本信息
批准号:60973062
项目类别:面上项目
资助金额:28.00
负责人:荀恩东
学科分类:
依托单位:北京语言大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:牟小峰,蔡志超,黄志娥,吴礼文
关键词:
生成树库搜索算法译文调序统计机器翻译
结项摘要

面向英汉机器翻译的生成树库是北京语言大学研发的语料库,树库中的生成树中包含了机器翻译所需要的深层次、细粒度的翻译知识:英语的句法结构、汉语译文生成模式和词汇短语的习惯翻译等,本研究以该树库作为主要训练语料,结合现有的大规模双语和单语语料,研究建立面向英汉机器翻译分析和生成一体化统计模型:将规则化知识和统计方法有机结合在一起,避免规则方法层次化翻译过程所造成的错误累计,和规则不易把控的问题;同时,该模型统计对象为带有句法信息的英文短语和对应译文生成模式,解决了现有机器统计翻译以词或者短语为统计对象所造成的模型泛化能力差的问题。另外,现有的短语翻译模型短语限定为连续词串,译文生成时,全局调序能力差,生成树库具有大量短语调序知识,依托本树库,译文生成时短语预调序也是本研究另外主要内容。

项目摘要

课题采用生成树库,针对英汉翻译,通过专家规则与实例规则相结合的办法进行短语预调序。通过对英汉翻译中的短语结构进行分类,选择其中出现频度最高的名词短语进行预调序处理。实验结果显示,基于专家规则的预调序方法能够在一定程度上提高最终的翻译结果。.课题成果体现在:.1. 从英汉翻译的实际需求出发构造翻译所需要的语言资源。打破了Penn Treebank的复杂标注体系,将面向句法分析的句法标注改造为面向英汉机器翻译的句法标注,这有助于减少机器翻译过程中结构转换的复杂性。.2. 首次将短语预调序的方法应用在英汉机器翻译中,并将规则方法与统计方法结合起来,增强短语调序的效果。通过融合这两种不同的调序思路,提高了翻译结果。实验显示,融合的方法要优于单一的调序方法。.4. 基于大规模语料库的英汉短语预调序。实验结果显示,基于实例在保持较高调序准确率的情况下,克服了最大熵调序模型的缺陷。课题仍然有大量问题需要解决,主要包括:.1. 对短语结构转换的规则挖掘不彻底,停留在常用短语结构上,缺乏对短语结构转换更宏观的把握。.2. 与现有的短语翻译模型的融合不够,以致对翻译结果的提高幅度还可以增加。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
2

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
3

生物炭用量对东北黑土理化性质和溶解有机质特性的影响

生物炭用量对东北黑土理化性质和溶解有机质特性的影响

DOI:10.19336/j.cnki.trtb.2020112601
发表时间:2021
4

变可信度近似模型及其在复杂装备优化设计中的应用研究进展

变可信度近似模型及其在复杂装备优化设计中的应用研究进展

DOI:10.3901/jme.2020.24.219
发表时间:2020
5

平行图像:图像生成的一个新型理论框架

平行图像:图像生成的一个新型理论框架

DOI:10.16451/j.cnki.issn1003-6059.201707001
发表时间:2017

荀恩东的其他基金

批准号:60573184
批准年份:2005
资助金额:5.00
项目类别:面上项目
批准号:61170162
批准年份:2011
资助金额:57.00
项目类别:面上项目

相似国自然基金

1

模型库的动态生成

批准号:68774044
批准年份:1987
负责人:赵仲宣
学科分类:F0304
资助金额:3.00
项目类别:面上项目
2

基于汉英双向树串模型的统计机器翻译研究

批准号:60872118
批准年份:2008
负责人:孙广范
学科分类:F0113
资助金额:29.00
项目类别:面上项目
3

基于格依存树到串模型的日汉机器翻译研究

批准号:61370130
批准年份:2013
负责人:徐金安
学科分类:F0211
资助金额:73.00
项目类别:面上项目
4

情景树生成与约简的实用有效算法

批准号:11571270
批准年份:2015
负责人:陈志平
学科分类:A0405
资助金额:50.00
项目类别:面上项目