汉越双语语料库建设及词对齐方法研究

基本信息
批准号:61262041
项目类别:地区科学基金项目
资助金额:43.00
负责人:郭剑毅
学科分类:
依托单位:昆明理工大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:毛存礼,周枫,周兰江,刘辉,阮华刚,阮氏美幸,潘清清,王炎冰,宋海霞
关键词:
依存句法分析双语词对齐语料库越南语汉语双语词对齐方法依存树库
结项摘要

The understanding of Chinese-Vietnamese bilingual language is the basis for strengthening culture exchange between China and Vietnam, and the construction of Chinese-Vietnamese bilingual corpus is the essential resources to the understanding of Chinese-Vietnamese bilingual language. Firstly, for the Vietnamese language characteristics in this project, study on the Vietnamese treebank tagging methods to build the Vietnamese dependency treebank; Secondly, research on the Vietnamese dependency relationship identification methods based on Vietnamese syntactic features to achieve Vietnamese dependency parser; Furthermore, according to the syntactic features of Chinese-Vietnamese bilingual language, study the methods of Chinese-Vietnamese bilingual word alignment; Finally, reseasrch on the Chinese-Vietnamese bilingual materials selection and mark specification to construct the Chinese-Vietnamese bilingual word-level alignment corpus. On the basis of marking the 150000 Chinese and Vietnamese sentences and word alignment corpus, develop and implement the prototype system of Vietnamese-Chinese bilingual sentence retrieval to solve the difficulties occurred in the resource construction of Chinese-Vietnamese bilingual word alignment corpus, dependency parsing and the word alignment process. The research achievement of the project will supply corpus resources and technical support to Chinese-Vietnamese bilingual retrieval and machine translation.

中越双语语言理解是加强中越两国文化交流的基础,汉语-越南语双语语料资源构建是汉语-越南语双语理解的必备资源。本课题针对越南语言特点,首先将研究越南语树库标记方法,构建越南语依存树库;其次,针对越南语句法特点,研究越南语依存关系识别方法,实现越南语依存句法分析器;然后,针对汉语-越南语双语语言句法特点,研究汉语-越南语双语词对齐方法;最后,研究汉语-越南语双语料选取、标注规范,构建汉语-越南语双语词语级对齐语料库,标注15万汉越句子词对齐语料库,并在此基础上开发实现越南语-汉语双语句子检索原型系统,解决汉语-越南语双语词语对齐语料库资源建设、依存句法分析、词对齐过程中的难点问题。项目研究成果将为汉语-越南语双语检索、双语机器翻译提供语料资源和技术支撑。

项目摘要

本课题围绕汉语-越南语双语语料库构建、面向越南语的词法及句法分析方法、面向越南语依存树库构建方法、汉-越双语对齐语料构建方法、汉-越新闻事件元素抽取开展研究工作,取得了多项创新性研究成果:在国内外期刊发表论文24篇(含录用),其中SCI/EI收录11篇,已受理发明专利13项,获得软件著作权8项。在汉-越双语语料库构建及词法句法分析方面,构建了83536个词的汉-越双语电子词典、54839个句对的汉-越双语句对齐语料库,183785的汉-越双语词对齐语料库;利用对数线性模型,融合越南语的顺行结构、词性偏序等特点,提出了基于特征约束的汉-越双语词对齐方法;将汉-越双语词语转化成词向量,采用深层信念神经网络自动学习特征,利用改进的深层神经网络模型计算词汇翻译概率,提出了基于深层神经网络的汉-越双语词对齐方法;在对汉语句子做依存关系分析的基础上,将汉语的依存关系通过汉—越双语词对齐关系映射到越南语句子中,构建了158000个句子规模(约600万词)的越南语依存树库;根据越南语构词特征和语言特点,在条件随机场模型中融入N-Gram模型、字符类型特征、字符重复特征、词素位置概率特征,并加入交叉歧义模型,提出了基于CRFs和歧义模型的越南语分词方法,开发了越南语自动分词平台;在汉-越双语命名实体和事件要素抽取方面,根据越南语的语言和实体特点,应用最大熵模型和本文制定的命名实体的规则的混合方法进行越南语命名实体识别,提出了融合实体特性的越南语复杂命名实体识别的混合方法;针对越南语句子结构和词汇语义的特点,选取上下文、邻近触发词以及邻近实体作为特征,提出了基于最大熵的越南语新闻事件元素抽取方法。上述方法的提出和汉越双语语料库的建设是双语检索、双语机器翻译、双语学习等双语理解的重要知识资源,可以有效的帮助汉越/越汉双语学习理解,为双语检索、机器翻译奠定基础,研究有非常重要的理论及应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
3

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020
4

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
5

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019

郭剑毅的其他基金

批准号:61562052
批准年份:2015
资助金额:39.00
项目类别:地区科学基金项目

相似国自然基金

1

汉越双语事件语料库构建及舆情观点挖掘方法研究

批准号:61472168
批准年份:2014
负责人:余正涛
学科分类:F0211
资助金额:84.00
项目类别:面上项目
2

越汉双语组块分析方法研究

批准号:61866019
批准年份:2018
负责人:毛存礼
学科分类:F0606
资助金额:40.00
项目类别:地区科学基金项目
3

汉越双语新闻事件关联分析及摘要方法研究

批准号:61762056
批准年份:2017
负责人:张亚飞
学科分类:F0211
资助金额:38.00
项目类别:地区科学基金项目
4

面向汉维机器翻译的双语对齐语料库和短语库构建技术的研究

批准号:60663006
批准年份:2006
负责人:吐尔根·依布拉音
学科分类:F0211
资助金额:25.00
项目类别:地区科学基金项目