建立一个大规模的树库是语料库语言学发展的重要一环,而且大规模的句法树库是一项重要资源,它将为语言研究和信息处理提供一个有利的数据平台。藏语依存树库的构建不仅能揭示藏语自身的语法规律,还为进一步开展文本理解、汉藏智能翻译、文本自动校对以及信息检索等方面的研究奠定基础。本项目从大规模藏语语料库中选择藏语的通用句子,对这些句子进行分词、词性标注等精加工,在此基础上从句法和语义的角度分析藏语通用句子的依存关系,从依存关系提炼藏语依存句法类型和模式,构建藏语依存树库。
建立一个大规模的树库是语料库语言学发展的重要一环,而且大规模的句法树库是一项重要资源,它将为语言研究和信息处理提供一个有利的数据平台。藏语依存树库的构建不仅能揭示藏语自身的语法规律,还能为进一步开展文本理解、汉藏智能翻译、文本自动校对以及信息检索等方面的研究奠定坚实基础。.本课题在实施过程中,着重于以下方面:.在理论上,深入研究藏语语法体系,并根据计算机处理需求,提出了4个规范性文件,即,《信息处理用藏语词类标记集规范》、《信息处理用藏文分词工程规范》、《藏语句法标注体系》、《藏语语义标注体系》。.在技术上,实现了藏文自动分词与词性标注系统、藏语句法、语义标注工具、藏语句法、语义分析系统。建立了藏语分词语言模型,建设了60万词次标注的训练语料库,经开放测试,分词与词性识别的准确率达95%,召回率为91%;句法自动标注UAS分数为79%、语义自动标注F1值为91%(基于黄金句法分析结果)和75%(基于自动句法分析结果)。.在工程上,为实现自动标注与分析,从大规模藏语语料库中选择12000个藏文通用句子,对这些句子进行分词、词性标注等精加工,在此基础上从句法和语义的角度分析藏语通用句子的依存关系,从依存关系提炼藏语依存句法类型和模式,构建了藏语依存树库,以此作为树库自动标注的基础资源。.在效果上,目前比较好的汉语自动句法分析正确率在85%左右,英文自动句法分析正确率能达到90%以上,而本研究所实现的藏文自动句法分析正确率则可达到79%,与此同时,藏文树库兼顾了句法和语义两个层面,从词法、句法到语义,环环相扣,互为映射,互为验证,不仅在理论上有了词法、句法、语义的层级体系化研究方面的突破,在技术实现上也第一次做到了超过预期的效果。.在影响上,藏语树库构建研究属于基础研究领域,是一次尝试性的探索,词法、句法、语义标注的4套体系建设为今后的藏文树库建设和扩展奠定了理论和方法基础,而其实现说明了这种方法和策略的有效性。因此,可以说本课题在理论、方法、策略以及技术实现方面都达到项目预期的效果,圆满完成了课题的预期目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于FTA-BN模型的页岩气井口装置失效概率分析
生物炭用量对东北黑土理化性质和溶解有机质特性的影响
基于关系对齐的汉语虚词抽象语义表示与分析
基于语义分析的评价对象-情感词对抽取
面向语言处理的藏语概念框架语义知识库构建研究
现代蒙古语树库的构建
橡胶树野生种质资源核心库的构建
基于格依存树到串模型的日汉机器翻译研究