引入多源知识空间及协同语义分析的统计机器翻译方法研究

基本信息
批准号:61005052
项目类别:青年科学基金项目
资助金额:20.00
负责人:陈毅东
学科分类:
依托单位:厦门大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:史晓东,施明辉,郑旭玲,曾华琳,练睿婷,黄哲煌
关键词:
语义增强翻译模型协同学原理统计机器翻译语义空间语义分析
结项摘要

本项目的研究目标是针对机器翻译的需要建立粒度更为精细且包含信息更为丰富的向量语义空间,并结合语义协同互动的特点提出一体化语义标注方法,进而构建语义增强的统计机器翻译模型。其中主要研究内容包括有:多知识源向量语义空间构建、一体化语义标注方法研究、融合语义知识的双语词对齐方法研究以及语义增强的统计机器翻译模型研究等。在统计机器翻译中引入语义是统计机器翻译进一步发展的一种可能途径,但目前的研究还较少,基本上属于空白,本项目研究正是要开展这方面工作。为了更好地表示语义,本项目将研究在目前已得广泛应用的空间表示方法基础上通过引进多源知识加以丰富;为了进一步提高语义分析的准确性,本项目将研究利用语义协同互动的特点借用协同学手段实现一体化语义标注。很明显,这项研究无论是对于统计机器翻译研究或是对于语义研究,都是有着重要理论意义与实际意义的。

项目摘要

本项目的研究目标是针对机器翻译的需要建立粒度更为精细且包含信息更为丰富的向量语义空间,并结合语义协同互动的特点提出一体化语义标注方法,进而构建语义增强的统计机器翻译模型。项目执行三年来,项目组成员围绕多源语义空间构建、协同语义标注方法以及语义增强统计机器翻译模型等三个方面开展了深入的研究。(1)在语义空间研究方面,项目组成员在基于依存的语义空间一般框架基础上进行扩充,融入了HowNet义类信息、韵律信息等多种知识来源的信息,最终建立了蕴含信息更丰富的多知识源的向量语义空间。为验证所建立向量语义空间的有效性,项目组成员还将其应用于中文商品评论情感分析、图书元信息的Web挖掘等研究中,获得了良好的效果。(2)在协同语义标注方面,项目组成员基于协同学理论,把语义标注过程看成是语境整体语义的形成过程,提出了一种基于协同神经网络的一体化标注模型,能同时处理词义消解和角色标注问题,在OntoNotes数据集的实验显示,此模型在词义消歧和角色标注上均能获得更好的标注结果。(3)在语义增强的统计机器翻译研究方面,项目组成员完成了五个主要的研究:基于多目标进化算法的词语对齐模型进行改进研究,通过引入语义信息降低了错误率,并提高了效率;提出了一种在短语统计机器翻译模型中融入链语法语言模型的方法,在汉英翻译测试集上获得良好的实验效果;提出了一种基于向量语义空间模型的短语相似性新特征,并具体用于简繁汉字转换问题中,取得了显著改善的简繁转换效果;深入研究了主题模型在统计机器翻译模型自适应问题中的应用,提出了一种基于单语语料主题信息的翻译模型自适应方法和一种基于主题相似度的统计机器翻译枢轴概率推导方法,均有较好的实验效果。总体而言,三年来项目组成员依据项目计划进度稳步推进项目研究的开展,进展顺利,预期的目标基本完成,也取得了较好的成果。三年来,项目组成员累计在本领域重要的学术期刊和学术会议上发表了相关学术论文16篇,其中SCI检索论文1篇,EI检索论文9篇,另外有一篇SCI源期刊论文已录用;获得福建省自然科学优秀论文奖二等奖1项;申请发明专利1项;获得软件著作权2项;培养毕业硕士生5人。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

陈毅东的其他基金

相似国自然基金

1

引入功能语篇分析的汉英语篇统计机器翻译方法研究

批准号:61573294
批准年份:2015
负责人:陈毅东
学科分类:F0606
资助金额:66.00
项目类别:面上项目
2

融合语言知识与统计模型的机器翻译方法研究

批准号:60736014
批准年份:2007
负责人:刘群
学科分类:F0211
资助金额:180.00
项目类别:重点项目
3

基于词汇语义的统计机器翻译研究

批准号:61403269
批准年份:2014
负责人:熊德意
学科分类:F0606
资助金额:25.00
项目类别:青年科学基金项目
4

多源知识图谱下大规模语义数据的融合及检索方法

批准号:61802352
批准年份:2018
负责人:李璞
学科分类:F0201
资助金额:26.00
项目类别:青年科学基金项目