基于互联网的汉维科技术语提取技术研究

基本信息
批准号:61463048
项目类别:地区科学基金项目
资助金额:45.00
负责人:米尔夏提·力提甫
学科分类:
依托单位:新疆大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:艾合买提·艾赛都拉,艾比拜·买买提,买买提玉苏甫·塔依尔,努尔曙阿克·阿斯哈尔,加日拉·买买提热依木,如克燕木·吾斯曼江,帕提古力·依马木
关键词:
术语双语对齐汉语维吾尔语可比语料库
结项摘要

The concentration of terms carries the core knowledge of a particular field. Automatically extraction of terms can help people to access and understand the field of knowledge in a convenient and fast way. More over, bilingual terminology fully reflects the mapping and corresponding relations between the languages, and it plays an important role in the natural language processing. In this project, on the basis of pre-research, we will build science and technology-oriented Chinese-Uyghur comparable corpus to study practical method of comparable corpus based Chinese-Uyghur bilingual term extraction, method of Chinese-Uyghur Automatic corpus extraction, method of Chinese-Uyghur article level automatic alignment and hybrid approach of rule based Uyghur term detection and extraction. Develop Internet based Chinese-Uyghur extraction prototype system, build new term repository, extract and compile science and technology oriented Chinese-Uyghur bilingual new term dictionary to support Chinese-Uyghur machine translation, cross language information retrieval and advance the development of science , technology and information construction of Xinjiang.

术语(terms)集中承载特定领域的核心知识,术语自动抽取能够帮助人们便捷地获得和认识领域知识,而双语术语则充分体现了语言间的映射和对应关系,在自然语言处理中具有重要地位。本项在目前期预研的基础上,构建面向科技领域的汉维可比语料库,研究实用的基于可比语料的汉维双语术语抽取方法、汉维双语语料自动获取方法、维汉语料篇章级自动对齐方法,基于规则的维吾尔语术语识别以及抽取混合方法,研制基于互联网语料的汉维双语术语抽取原型系统,构建面向科技领域的汉语-维吾尔语双语新术语资源库,抽取和编纂科技领域的汉语-维吾尔语双语对齐新术语词典为汉维机器翻译、跨语言信息检索提供支持,促进新疆科技事业的发展和信息化建设进程。

项目摘要

本课题在分析维吾尔语汉语(维汉)的基础上,提出了汉维可比语料库构建方法,汉维术语抽取方法以及汉维术语对齐方法,从而构建了汉维可比语料库以及汉维科技术语库,为将来的机器翻译、知识图谱构建等研究打下了扎实的基础。..四年来,课题总体进展顺利,研究计划已按要求全部完成,达到了预期目标。特别是:1)在可比语料库方面,提出汉维可比语料库构建方法,开发了相应的平台并专利,可比语料库规模达到4万多篇文章。2)在汉维术语抽取方面,提出了维吾尔文词性标注等特征提取方法,为术语的对齐提供了技术支撑和理论支持。3)在汉维术语对齐方面,提出了基于文本分类、机器翻译等多种策略的方法,构建了包含16种领域的高质量的6134文档规模的汉维科技双语可比语料库以及5万多词条的汉维科技词典。..四年期间,编慕了8部汉维短语、术语、句子的专著,发表了13篇期刊论文,2篇会议论文,2项软件著作权申请了2项专利。.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

A Fast Algorithm for Computing Dominance Classes

A Fast Algorithm for Computing Dominance Classes

DOI:
发表时间:2016
2

基于无监督学习的三维肺部CT图像配准方法研究

基于无监督学习的三维肺部CT图像配准方法研究

DOI:10.11784/tdxbz202010040
发表时间:2022
3

融合情感分析和概率语言的影视推荐算法研究

融合情感分析和概率语言的影视推荐算法研究

DOI:
发表时间:2020
4

基于关系对齐的汉语虚词抽象语义表示与分析

基于关系对齐的汉语虚词抽象语义表示与分析

DOI:
发表时间:2020
5

Ordinal space projection learning via neighbor classes representation

Ordinal space projection learning via neighbor classes representation

DOI:https://doi.org/10.1016/j.cviu.2018.06.003
发表时间:2018

米尔夏提·力提甫的其他基金

相似国自然基金

1

面向农业领域的维汉双语术语抽取的关键技术研究

批准号:61163045
批准年份:2011
负责人:张海军
学科分类:F06
资助金额:49.00
项目类别:地区科学基金项目
2

汉英平行语料库翻译知识提取系统研究-自动提取术语、术语搭配及词组块

批准号:60372106
批准年份:2003
负责人:袁琦
学科分类:F0113
资助金额:26.00
项目类别:面上项目
3

基于融合策略的汉藏(藏汉)机器翻译关键技术研究

批准号:61662061
批准年份:2016
负责人:才让加
学科分类:F0211
资助金额:41.00
项目类别:地区科学基金项目
4

基于有序语言术语集的决策方法研究

批准号:71261001
批准年份:2012
负责人:兰继斌
学科分类:G0103
资助金额:37.00
项目类别:地区科学基金项目