基于主干成分的句法统计机器翻译模型研究

基本信息
批准号:61300097
项目类别:青年科学基金项目
资助金额:28.00
负责人:肖桐
学科分类:
依托单位:东北大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:张春良,胡明涵,马骥,张浩,李强,杜权,姜雪,崔建青
关键词:
基于句法的模型统计机器翻译主干成分翻译解码模型训练
结项摘要

Statistical Machine Translaiton (SMT) is one of the most important sub-fields in Natural Langauge Processing (NLP). While several methods have been succesfully developed in recent years, it is worth investigating new models that make better use of structures in (source-language) sentences as well as the skeleton information encoded in translation. In this proposal we study the skeleton-based model for syntactic statistical machine translation. The problems we address include automatic identification of chinese skeleton, the skeleton-based syntactic statistical translation model, training and decoding for skeleton-based statistical machine translation. The proposed methods/models make benefits from data-driven methods and the prior knowledge in real-world translation. This work is inspired and supported by the previous work of our group (Natural Language Processing Lab, Northeastern University). All the techniques developed in the project will be integrated into the NiuTrans open-source statistical machine translation system, which will be released to public under the support of this project.

统计机器翻译是当今自然语言处理领域的重要研究课题之一。虽然近些年来已经有一些成功的统计机器翻译模型被提出,如何更加充分的利用(源语言)句子的结构信息及句子主干信息来进一步提高翻译性能仍是十分重要且有待研究的科学问题。本课题研究基于主干成分的句法统计机器翻译及相关科学问题,内容涉及中文句子主干成分自动识别、基于主干成分的句法统计机器翻译建模、基于主干成分的句法统计机器翻译模型训练和解码等内容。本课题将以数据驱动的方法为指导,结合人们在翻译过程中形成的先验知识构建整个机器翻译框架。课题的选题及实施依托于申请人所在团队(东北大学自然语言处理实验室)在机器翻译方面研究的多年积累,课题的研究成果将全部集成到开源统计机器翻译系统NiuTrans中,无偿为学术界共享使用。

项目摘要

机器翻译是人工智能及自然语言处理领域的重要基础研究方向之一。现在机器翻译方法大多不考虑源语言结构信息,特别是源语言的句子主干信息在机器翻译建模中没有得到考虑。因此如何利用(源语言)句子的结构信息及句子主干信息来提高机器翻译的翻译品质仍是十分重要且有待研究的科学问题。本项目从基于句子主干的翻译建模、解码及模型训练方面开展了深入研究,研究内容包括:1)在翻译建模方面,研究了基于句子主干(或骨架)的的机器翻译模型,以及将该模型在基于短语和基于句法的模型中的集成方法;2)在解码方面,研究了树到串句法翻译规则在层次短语中的有效集成方法;3)在模型训练方面,研究了基于损失函数强化的句法机器翻译模型训练框架;4)在机器翻译和语言分析支撑平台构建方面,研发了NiuParser系统并升级了NiuTrans开源统计机器翻译系统。本项目的研究成果包括8篇高水平论文(其中5篇领域顶级会议及期刊论文,如AAAI、TASLP等),培养了1名博士研究生及5名硕士研究生,并标注了中文主干成分语料库。本项目的研究成果集成在NiuTrans开源系统中。NiuTrans系统于2016获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

肖桐的其他基金

批准号:41501117
批准年份:2015
资助金额:24.00
项目类别:青年科学基金项目
批准号:61672138
批准年份:2016
资助金额:16.00
项目类别:面上项目
批准号:61876035
批准年份:2018
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

基于深度句法的统计机器翻译方法研究

批准号:61672138
批准年份:2016
负责人:肖桐
学科分类:F0211
资助金额:16.00
项目类别:面上项目
2

基于句法结构和篇章结构的统计机器翻译关键技术研究

批准号:61373095
批准年份:2013
负责人:张民
学科分类:F0211
资助金额:79.00
项目类别:面上项目
3

基于主题模型的枢轴语言统计机器翻译研究

批准号:61303082
批准年份:2013
负责人:苏劲松
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目
4

基于汉英双向树串模型的统计机器翻译研究

批准号:60872118
批准年份:2008
负责人:孙广范
学科分类:F0113
资助金额:29.00
项目类别:面上项目