藏语依存树库的构建

基本信息
批准号:61163043
项目类别:地区科学基金项目
资助金额:47.00
负责人:扎西加
学科分类:
依托单位:西藏大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:邓戈,洛藏,索南尖措,关白,春燕,马伟珍,三知加
关键词:
藏语依存树库语义标注依存关系依存语法句法标注
结项摘要

建立一个大规模的树库是语料库语言学发展的重要一环,而且大规模的句法树库是一项重要资源,它将为语言研究和信息处理提供一个有利的数据平台。藏语依存树库的构建不仅能揭示藏语自身的语法规律,还为进一步开展文本理解、汉藏智能翻译、文本自动校对以及信息检索等方面的研究奠定基础。本项目从大规模藏语语料库中选择藏语的通用句子,对这些句子进行分词、词性标注等精加工,在此基础上从句法和语义的角度分析藏语通用句子的依存关系,从依存关系提炼藏语依存句法类型和模式,构建藏语依存树库。

项目摘要

建立一个大规模的树库是语料库语言学发展的重要一环,而且大规模的句法树库是一项重要资源,它将为语言研究和信息处理提供一个有利的数据平台。藏语依存树库的构建不仅能揭示藏语自身的语法规律,还能为进一步开展文本理解、汉藏智能翻译、文本自动校对以及信息检索等方面的研究奠定坚实基础。.本课题在实施过程中,着重于以下方面:.在理论上,深入研究藏语语法体系,并根据计算机处理需求,提出了4个规范性文件,即,《信息处理用藏语词类标记集规范》、《信息处理用藏文分词工程规范》、《藏语句法标注体系》、《藏语语义标注体系》。.在技术上,实现了藏文自动分词与词性标注系统、藏语句法、语义标注工具、藏语句法、语义分析系统。建立了藏语分词语言模型,建设了60万词次标注的训练语料库,经开放测试,分词与词性识别的准确率达95%,召回率为91%;句法自动标注UAS分数为79%、语义自动标注F1值为91%(基于黄金句法分析结果)和75%(基于自动句法分析结果)。.在工程上,为实现自动标注与分析,从大规模藏语语料库中选择12000个藏文通用句子,对这些句子进行分词、词性标注等精加工,在此基础上从句法和语义的角度分析藏语通用句子的依存关系,从依存关系提炼藏语依存句法类型和模式,构建了藏语依存树库,以此作为树库自动标注的基础资源。.在效果上,目前比较好的汉语自动句法分析正确率在85%左右,英文自动句法分析正确率能达到90%以上,而本研究所实现的藏文自动句法分析正确率则可达到79%,与此同时,藏文树库兼顾了句法和语义两个层面,从词法、句法到语义,环环相扣,互为映射,互为验证,不仅在理论上有了词法、句法、语义的层级体系化研究方面的突破,在技术实现上也第一次做到了超过预期的效果。.在影响上,藏语树库构建研究属于基础研究领域,是一次尝试性的探索,词法、句法、语义标注的4套体系建设为今后的藏文树库建设和扩展奠定了理论和方法基础,而其实现说明了这种方法和策略的有效性。因此,可以说本课题在理论、方法、策略以及技术实现方面都达到项目预期的效果,圆满完成了课题的预期目标。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
3

生物炭用量对东北黑土理化性质和溶解有机质特性的影响

生物炭用量对东北黑土理化性质和溶解有机质特性的影响

DOI:10.19336/j.cnki.trtb.2020112601
发表时间:2021
4

基于关系对齐的汉语虚词抽象语义表示与分析

基于关系对齐的汉语虚词抽象语义表示与分析

DOI:
发表时间:2020
5

基于语义分析的评价对象-情感词对抽取

基于语义分析的评价对象-情感词对抽取

DOI:10.11897/SP.J.1016.2017.00617
发表时间:2017

扎西加的其他基金

相似国自然基金

1

面向语言处理的藏语概念框架语义知识库构建研究

批准号:61866034
批准年份:2018
负责人:多拉
学科分类:F0607
资助金额:38.00
项目类别:地区科学基金项目
2

现代蒙古语树库的构建

批准号:60763003
批准年份:2007
负责人:华沙宝
学科分类:F0211
资助金额:22.00
项目类别:地区科学基金项目
3

橡胶树野生种质资源核心库的构建

批准号:30860221
批准年份:2008
负责人:黄华孙
学科分类:C1608
资助金额:28.00
项目类别:地区科学基金项目
4

基于格依存树到串模型的日汉机器翻译研究

批准号:61370130
批准年份:2013
负责人:徐金安
学科分类:F0211
资助金额:73.00
项目类别:面上项目