现代哈萨克语句法分析与树库构建关键技术研究

基本信息
批准号:61363062
项目类别:地区科学基金项目
资助金额:46.00
负责人:古丽拉·阿东别克
学科分类:
依托单位:新疆大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:买拉提·阿布扎力汗,沙吾亚·阿东别克,木合亚提·尼亚孜别克,刘晓洁,李秀红,尚文清,牛娜,于智娟
关键词:
树库短语结构语法统计方法句法分析现代哈萨克语
结项摘要

Syntatic parsing is the process of assingning a syntactic structure to a sentence. It is a key technology in Natural Language Processing. A pre-requisite for modern statistical syntactic parsing is the existence of syntacticaly annotated treebanks that can be used as training and evaluation material. The size and quality of a treebank have a direct impact on syntactic parsing results. Recent years have seen many breakthroughs in syntactic parsing for Chinese and other languaage, but there has been very little research reported on syntactic parsing and treebank construction for Kazakh. Syntactic parsing has become a bottleneck to Kazakh Information Processing. The goal of the proposed project is to determine the most appropriate parsing algorithms suited for the dominant SOV constructions in Kazakh, investigate the use of supervised machine learning techniques such as the Maximum Entropy models in Kazakh syntactic parsing, and explore hybrid approaches to improve parsing performance. A secondary goal is to establish a phrase structure based grammatical system for Kazakh and create the annotation specifications and guidelines for a Kazakh treebank. The proposed project will lay a solid foundation for advancing the state of the art of Kazakh Information Processing and large-scale treebank construction. The specific aim of the proposed project is to build of a Kazakh treebank of 20 thousand sentences that can be used to enable Kazakh syntactic analysis.

句法分析是识别一个句子并给句子指派一个结构的过程,其任务是确定句子的句法结构,它是自然语言信息处理中的关键技术。统计句法分析需利用树库资源,树库建设的标注质量和规模直接影响句法分析的效果。专家们已对句法分析和树库技术展开了研究,取得了突破性进展。但针对现代哈萨克语句法分析技术和树库构建无报道,句法分析已成为制约哈语信息处理的瓶颈问题。本项目据哈语SOV型句法结构,针对哈语独特的语言特点和存在的句法问题,对其句法结构进行分析,揭示哈语独特的句法构成规律,确定哈语句子的短语句法结构体系,制定哈语句法和树库标记集和规范,研究基于统计和规则相结合的哈语句法分析和树库构建的关键技术,用最大熵模型来研究句法分析,用监督的归纳学习方法MBL消解歧义,探索适合哈语句法分析的搜索算法,提出适合哈语特征的短语结构句法的分析方法,为哈语进一步语义等信息处理和大规模语料库建设打下基础,构建2万句规模树库。

项目摘要

句法分析是根据给定的语法体系,自动推导出句子的语法结构, 分析句子所包含的语法单元和这些语法单元之间的关系, 将句子转化为一棵结构化的语法树;包括确定语言的语法体系和句法分析技术的研究内容。它是自然语言处理的基础研究,其研究成果的优劣直接反映在后续语义分析和理解研究及相应的应用系统;由于哈萨克语语料资源稀缺且词形态的多样性,句法分析仍然存在诸多方面严峻挑战。树库是包含语言结构信息的语言资源,可为句法分析器提供训练数据,同时标注树库是语料库语言学发展的重要基础。. 哈萨克语(简称哈语)属于阿尔泰语系突厥语族的克普恰克语组, 在形态结构上属于粘着语,在语序结构上属"SOV 型"语言。本项目依据规则和统计技术,针对哈萨克语短语结构的句法分析和树库标注的关键技术展开如下研究:. 第一,为解决哈语句法分析中的句子结构问题,据哈语独特的语言特性,系统分析句子构成规律,揭示了句法结构和句法生成规律,确定句子的短语句法结构体系。. 第二,为探索基于规则和统计的适合哈语句法分析方法,首先进行了基于概率随机上下无关文法的哈语句法分析研究;然后融入基于线图搜索改进算法研究;再由粗到精的句法分析研究,使用感知机对由PCFG方法产生的概率最高的候选解析序列进行重排序,获得PCFG和感知机模型相结合的句法解析树,完成了哈语句法分析研究。随后进行了基于条件随机场模型的哈语句法分析研究,研制了哈语句法分析器。继续基于转移的哈语句法分析研究,并用感知机训练,改进柱搜索解码,辅助特征提取法等措施进一步提高句法分析性能。. 第三,为解决哈语资源稀缺问题,分析研究哈语句法结构和句法生成规律后,规范化树库标注,进行了基于层叠条件随机场的哈语树库构建技术研究,构建了人机交互的树库,完成了2万句的标注树库,为哈语句法分析提供了数据。.总之,本项目探索了适合哈萨克语的句法分析方法,构建了人机交互的树库,研制了句法分析器,为后续语义分析等研究打下了基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
2

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020
3

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
4

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
5

生物炭用量对东北黑土理化性质和溶解有机质特性的影响

生物炭用量对东北黑土理化性质和溶解有机质特性的影响

DOI:10.19336/j.cnki.trtb.2020112601
发表时间:2021

古丽拉·阿东别克的其他基金

批准号:61063025
批准年份:2010
资助金额:28.00
项目类别:地区科学基金项目
批准号:60763005
批准年份:2007
资助金额:18.00
项目类别:地区科学基金项目

相似国自然基金

1

现代哈萨克语短语识别及其语块库构建技术研究

批准号:61063025
批准年份:2010
负责人:古丽拉·阿东别克
学科分类:F0211
资助金额:28.00
项目类别:地区科学基金项目
2

现代哈萨克语词级文本语料库构建技术研究

批准号:60763005
批准年份:2007
负责人:古丽拉·阿东别克
学科分类:F0211
资助金额:18.00
项目类别:地区科学基金项目
3

现代蒙古语树库的构建

批准号:60763003
批准年份:2007
负责人:华沙宝
学科分类:F0211
资助金额:22.00
项目类别:地区科学基金项目
4

面向连续语音的哈萨克语关键词识别技术研究

批准号:61462084
批准年份:2014
负责人:达吾勒·阿布都哈依尔
学科分类:F0211
资助金额:45.00
项目类别:地区科学基金项目