藏文实体语义关系抽取理论与方法研究

基本信息
批准号:61262054
项目类别:地区科学基金项目
资助金额:43.00
负责人:于洪志
学科分类:
依托单位:西北民族大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:戴玉刚,江涛,徐涛,加羊吉,张华秋,李冠宇,李亚超,李艾林,桑杰东主
关键词:
藏文语义知识库藏文实体浅层句法分析格识别语义关系抽取
结项摘要

This project focuses on the theory and methods for semantic relation extraction of Tibetan entities, with the aim to provide technical support for Tibetan public opinion anlysis. Main contents of this project are as follows: Tibetan case-auxiliary word recognition, part-of-speech tagging, entity recognition and automatic segmetation so as to develop intergrated tools for morphological analysis with Tibetan characteristics; shallow syntatic parsing of Tibetan to realize automatic annotaion of intra-chunk entity semantic roles; establishment of Tibetan semantic database for the study of coreference resolution algorithm to realize the semantic relation extraction model of entity; the construction of application platform for Tibetan entity relationship to provide unified service interface. Key scientific problems needed to be solved are: the recognition of Tibetan case-auxiliary word such as multiple and condensed ones; the theory system of Tibetan shallow parsing ; automatic segmentation of Tibetan texts; Tibetan chunk recognition and internal structure of chunks; automatic semantic role labeling of Tibetan entities; the entity-relation-extraction oriented construction norms of Tibetan semantic database; the theory and methods of semantic relation extraction of Tibetan entities. Innovations from this project are: an integrated method of Tibetan entity recognition and part-of-speech tagging; coreference resolution algorithm based on statistics of Tibetan text corpus and syntactic structure analysis; realization of automatic recognition of Tibetan chunk and its sturcture anlysis in accordacnce with Tibetan grammer features and syntactic tagging set; establishment of the platform for analysis of entity semantic relationships on the basis of Tibetan entity relationship tagging set and semantic relationship template.

本项目研究藏文实体语义关系抽取理论与方法,为藏文舆情分析提供技术支持。研究内容:研究藏文格识别、词性标注、实体识别、自动断句,形成具有藏文特色的词法分析集成工具;研究藏文浅层句法分析,实现组块内实体语义角色自动标注;建立藏文语义知识库,研究共指消解算法,完成实体语义关系抽取模型;构建藏语实体关系应用平台,提供统一服务接口。拟解决的关键科学问题:藏文兼类格、紧缩格等格助词的识别;藏文浅层句法分析理论体系;藏文文本自动断句;藏文组块识别及块内结构;藏文实体语义角色自动标注;面向实体关系抽取的藏文语义知识库建设规范;藏文实体语义关系抽取的理论与方法。创新点:藏文实体识别与分词词性标注一体化方法;基于藏文文本语料统计和藏文句法结构分析的共指消解算法;结合藏文语法特征和藏文句法标注库,实现藏文组块自动识别及块内结构分析;在藏文实体关系标注库和语义关系模板基础上搭建实体语义关系分析平台。

项目摘要

通过研究藏语词法分析、藏语句法分析、语义角色标注,制定了藏语实体关系分类体系;结合藏语语义知识库,构建藏语实体语义关系抽取平台;实现了海量藏语实体语义关系的抽取、分析和呈现;为藏语篇章语义理解、藏语机器翻译等研究提供基础支撑。研究成果如下:.(1)藏语词法分析和实体识别.提出基于统计的藏语格助词识别方法,具有领域无关性,识别效果好的特点。研究了基于音节特征、基于无监督聚类特征的藏语词性标注方法,与基线系统相比错误率降低了6.4%。研究了无监督的藏语分词方法,最终构建了成熟的藏语词法分析系统,包括藏语分词,藏语词性标注。研究了CRF与规则相结合的藏语人名识别方法,实现了融合词性特征和融合子类特征的藏语实体识别方法。.(2)藏语语义角色标注和句法分析研究.构建了藏语短语句法树库,并制定了藏语短语树库词性及短语标记集。开发了藏语树库编辑以及验证系统。进行了面向机器翻译的藏语短语句法分析实验,可以显著提高基线翻译系统的效果。在英语和汉语语义角色标注理论与方法的基础上,提出了藏文语义角色标注体系。研究了藏语实体关系分类和实体关系识别方法。.(3)藏文实体语义关系抽取方法.研究了面向互联网的藏语实体语义关系模板获取方法,为构建海量藏语实体打下了基础。基于藏语词法分析、浅层句法分析、语义知识库等,针对不同来源、不同领域的藏语文本特点,实现了基于统计和基于规则的藏语实体关系抽取算法。.(4)藏语实体语义关系抽取平台.基于条件随机场模型,运用云平台分步式处理方法实现了高效、准确地获取实体之间的关系。系统从网络抓取网页,从中获取文本数据,进而进行实体识别。通过抽取模型,最终获取实体关系并输出给用户。在人物关系抽取中,能够实现查询某个人物的基本信息,查询某个人物的人物关系,以及查询两个人物之间的关系。最终,构建了基于云平台的实体关系抽取系统,能够高效抽取实体关系,并最终为舆情分析、机器翻译等任务提供基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

格雷类药物治疗冠心病疗效的网状Meta分析

格雷类药物治疗冠心病疗效的网状Meta分析

DOI:10.12092/j.issn.1009-2501.2018.03.010
发表时间:2018
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

于洪志的其他基金

批准号:60073058
批准年份:2000
资助金额:16.00
项目类别:面上项目
批准号:61462075
批准年份:2014
资助金额:45.00
项目类别:地区科学基金项目
批准号:60773052
批准年份:2007
资助金额:28.00
项目类别:面上项目
批准号:60970071
批准年份:2009
资助金额:32.00
项目类别:面上项目

相似国自然基金

1

维吾尔语命名实体间语义关系抽取理论方法研究

批准号:61462083
批准年份:2014
负责人:卡哈尔江·阿比的热西提
学科分类:F0607
资助金额:46.00
项目类别:地区科学基金项目
2

面向开放域知识网络的实体语义关系抽取方法研究

批准号:61672057
批准年份:2016
负责人:冯岩松
学科分类:F0211
资助金额:62.00
项目类别:面上项目
3

基于树核函数的弱指导实体间语义关系抽取研究

批准号:60873150
批准年份:2008
负责人:周国栋
学科分类:F0211
资助金额:30.00
项目类别:面上项目
4

融合多特征的藏文事件属性信息抽取理论与方法研究

批准号:61762076
批准年份:2017
负责人:马宁
学科分类:F0211
资助金额:37.00
项目类别:地区科学基金项目