面向机器翻译的多词表达语义分析及应用研究

基本信息
批准号:61473294
项目类别:面上项目
资助金额:83.00
负责人:陈钰枫
学科分类:
依托单位:北京交通大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:程南昌,黄国平,李小青,向露,李俊杰,刘洋,李浩然,董传海
关键词:
中文信息处理多词表达机器翻译自然语言处理语义分析
结项摘要

Multiword expressions (MWEs) are idiomatic expressions with fixed or semifixed collocation in natural language, of which the semantic interpretation, effective extraction, and precise translation are difficulties in natural language processing. Especially the research about the extraction of Chinese MWE and the diversity between Chinese and English MWEs has been a major concern in information extraction and machine translation areas. Therefore, the proposed project would conduct the following research. First, based on available language resource, we plan to interpret latent semantic information of MWEs by word embeddings. Second, we propose a semantic-based Chinese and English bilingual MWE extraction method, which could give feedback to word segment,parsing and word alignment and improve overall performance. Third, we present a Web data mining framework for MWEs, which could discover new MWEs and select reliable MWE translations from the Web. And finally, we construct a MWEs-based translation system, which integrates the semantic information of MWEs to improve the translation performance. In summary, the research work carried out has important theoretical significance and application value.

多词表达是自然语言中一类固定或半固定搭配的语言单元。其语义表示、有效抽取及正确翻译是自然语言处理中的难点。尤其针对汉语多词表达的抽取和汉英多词表达的语义结构差异分析的研究,近年来未有明显进展,已成为信息抽取和机器翻译等领域的瓶颈问题之一。因此,本项目将在以下方面进行深入研究和探索:(1)充分借鉴和利用已有的语言学资源,提出基于词向量表示的多词表达语义理解方法;(2)在此基础上,提出基于语义理解的汉语/汉英双语多词表达抽取模型,在联合推断框架下,使得多词表达抽取与分词、句法分析以及词对齐过程相辅相成;(3)构建基于语义计算的多词表达挖掘框架,从海量网络资源中挖掘新词,并抽取和过滤出可靠的多词表达翻译对;(4)最终面向机器翻译的应用,提出融合多词表达语义知识的机器翻译框架,从两个层次引入多词表达的语义知识来辅助翻译系统性能的提高。本项目开展的研究工作具有重要的理论意义和应用价值。

项目摘要

多词表达作为一类由若干词汇组成的惯用搭配语言单元,对其语义分析及深入研究,是实现语言理解的重要工作,也将推动机器翻译等应用研究领域的发展。. 在本项目中,我们着重对多词表达的几种类型进行了研究,包括命名实体,复述短语,网络新词,和机器翻译中的集外词等。主要研究内容包括以下几个方面:1)多词表达内部语义结构的分析和词向量特征的建立;2)突破双语平行语料的限制,利用大规模的单语资源来抽取双语命名实体翻译对;3)网络开放域的新词识别;4)通过语义概念和句法信息来解决翻译中的集外词问题。 . 创新性成果主要体现在:1)利用上下文和词向量特征,提出一种双层抽取策略来抽取多词表达,经实验验证,取得了比较好的效果,并能改善分词结果;2)基于单语语料,提出了基于归纳学习的双语命名实体抽取模型;3)在网络开放域上,提出基于改进的C/NC-value算法的新词抽取模型;4)在具体应用上,将构建的双语多词表达/实体抽取和翻译模型应用于机器翻译系统,并提出结合语义计算的集外词处理方法,实现了较高质量的机器翻译质量。 . 本项目重点在于各种类型的多词表达(包括命名实体,复述短语和网络新词)的理论分析与应用研究,发表论文30篇,申报并获授权国家级发明专利3项。培养硕士生15人,博士生2人。同时,在培养研究生过程中,也注重系统研发,积累了大量的研究数据。累计构建了200万条中英命名实体翻译对语料;100万条日汉命名实体翻译对;日汉词典150万词;日语动词词典4万词;标注的网络多词表达语料(复合词和固定搭配)包含4万左右的中文词条和3万左右的英文词条。. 本研究采用统计为主规则为辅的研究策略,在单语方向、双语方向以及网络开放域上对多词表达的多种形式展开了研究,特别搭建了以日英汉三种不同语言的命名实体翻译框架,用于加入到统计机器翻译系统中,在本项目组参加全国机器翻译评测(CWMT2015)和亚洲语言翻译评测(WAT2016)中发挥了重要作用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

陈钰枫的其他基金

批准号:61003160
批准年份:2010
资助金额:21.00
项目类别:青年科学基金项目

相似国自然基金

1

引入多源知识空间及协同语义分析的统计机器翻译方法研究

批准号:61005052
批准年份:2010
负责人:陈毅东
学科分类:F0606
资助金额:20.00
项目类别:青年科学基金项目
2

语义指导的汉语理解及词分割

批准号:68775022
批准年份:1987
负责人:庞真
学科分类:F03
资助金额:3.00
项目类别:面上项目
3

面向多层次篇章语义的机器翻译理论、方法与实现

批准号:61432013
批准年份:2014
负责人:张民
学科分类:F0211
资助金额:350.00
项目类别:重点项目
4

面向特征语义单元的地理空间表达机制及特征语义GIS研究

批准号:41361077
批准年份:2013
负责人:刘德儿
学科分类:D0114
资助金额:52.00
项目类别:地区科学基金项目