基于三元组可比语料库的语言自动剖析技术应用研究

基本信息
批准号:61172102
项目类别:面上项目
资助金额:63.00
负责人:肖健
学科分类:
依托单位:中国电子信息产业发展研究院
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:PaulRayson,宋金平,袁琦,万缨,朱姝,张雯雯,覃和平
关键词:
语义多词表达三元组可比语料库语言自动剖析
结项摘要

由于受到翻译腔的影响,中英平行语料库存在固有的扭斜的语言模型。显然,用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型,严重影响到系统的性能。本项目的目标是,采用可比语料库和语言自动剖析技术,使用统计、规则和语义相结合的方法,对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库进行统计分析研究;在此基础上,利用n-元词串、关键词簇和语义多词表达等自动抽取技术挖掘本族语言模型,实现改进和发展机器翻译等自然语言处理应用。利用带有本族英语专家修订标记的大规模翻译文本库,通过比较分析工具构建满足可比语料库取样框架要求的三元组可比语料库是本项目的特色。利用本项目算法提取的本族语言模型,将通过我院现有机器翻译系统的运行,测试和评估项目成果的有效性和实用性。项目前期,我院与英国Lancaster大学关于三元组可比语料库自动剖析的示范研究成果为本项目实施奠定了基础。

项目摘要

本项目试图通过构建包括本族英语在内的三元组可比语料库,挖掘本族语言模型,克服中英平行语料库固有的扭斜的语言模型,实现改进机器翻译等自然语言处理应用系统的目的。本项目的研究内容包括三元组可比语料库建设、关键词簇自动剖析、翻译模板和语义多词表达(SMWEs)自动提取4个部分。本项目取得的重要结果是通过实验研究和理论分析,证实了建造三元组可比语料库,挖掘本族语言模型,改进和发展机器翻译等自然语言处理应用的研究方法的可行性。特别是,本项目采用的关键词簇方法,从三元组可比语料库中挖掘的基于本族语言模型的多词表达和翻译模版显著改进了机器翻译译文质量。本项目取得的另一个重要结果是证实了由于语义和统计方法的互补性,通过组合这两种方法可以显著提高提取的多词表达的覆盖面。与单独的统计和语义方法相比,覆盖率分别提高了113.77%和57.18%。在机器翻译系统中加入从三元组可比语料库中挖掘的基于本族语言模型的双语资源后,汉英、英汉翻译系统的BLEU值分别提高了9% 和13%。本项目的科学意义在于率先在国内提出建造三元组可比语料库,挖掘本族语言模型,改进和发展机器翻译等自然语言处理应用的研究方法,以及采用语义和统计相结合的方法发展多词表达提取技术。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验

资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验

DOI:10.14116/j.nkes.2021.03.003
发表时间:2021
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

氯盐环境下钢筋混凝土梁的黏结试验研究

氯盐环境下钢筋混凝土梁的黏结试验研究

DOI:10.3969/j.issn.1001-8360.2019.08.011
发表时间:2019
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

肖健的其他基金

批准号:81260463
批准年份:2012
资助金额:48.00
项目类别:地区科学基金项目
批准号:81372112
批准年份:2013
资助金额:70.00
项目类别:面上项目
批准号:81860780
批准年份:2018
资助金额:37.00
项目类别:地区科学基金项目
批准号:11801571
批准年份:2018
资助金额:22.00
项目类别:青年科学基金项目
批准号:81200181
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:81572237
批准年份:2015
资助金额:51.00
项目类别:面上项目
批准号:U1731125
批准年份:2017
资助金额:46.00
项目类别:联合基金项目
批准号:30901819
批准年份:2009
资助金额:18.00
项目类别:青年科学基金项目
批准号:31600268
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

中英可比语料库与体育术语自动抽取的探索性研究

批准号:60572132
批准年份:2005
负责人:孙广范
学科分类:F0113
资助金额:22.00
项目类别:面上项目
2

可比语料库质量量化与提升方法研究

批准号:61300144
批准年份:2013
负责人:李波
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目
3

基于可比语料的多语言文本聚类研究

批准号:70903032
批准年份:2009
负责人:章成志
学科分类:G0414
资助金额:19.00
项目类别:青年科学基金项目
4

基于跨语言主题向量的双语篇章可比度量化研究

批准号:61806187
批准年份:2018
负责人:朱泽德
学科分类:F0606
资助金额:23.00
项目类别:青年科学基金项目