融合多特征的藏文事件属性信息抽取理论与方法研究

基本信息
批准号:61762076
项目类别:地区科学基金项目
资助金额:37.00
负责人:马宁
学科分类:
依托单位:西北民族大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:万福成,李亚超,孟祥和,杨东伟,格日多杰,丁海兰,夏吾措
关键词:
语义角色标注藏文事件触发词藏文实体识别藏文事件抽取藏文事件识别
结项摘要

This project focuses on the theory and method for extraction of Tibetan events, with the aim to provide technical support for Tibetan public opinion anlysis, Tibetan semantic mining and Tibetan question answering. Main contents of this project are as follows: Tibetan part-of-speech tagging, entity recognition and normalization, so as to form integration tools for morphological analysis with Tibetan characteristics; extracting the trigger words of Tibetan event, establishment of the binary table for Tibetan trigger-type of event to relize the recognition and classification model of event; the construction of theoretical system for argument roles of Tibetan event to provide theoretical fundamental basis for representation and extraction model of event; constructing the system of Tibetan event to provide unified service interface. Key scientific problems needed to be solved are: Tibetan syntactic treebank constructing strategy; recognition of Tibetan tirgger for event; Tibetan sematic information expression and labeling; recognition algorithm of event type; theoretical system for argument structure of Tibetan event; argument role labeling algorithm of Tibetan event; generalization of event mode.Innovations from this project are: normative approach of Tibetan text under the environment of free-domain; automatic Segmentation for Tibetan Sentence integrating analysis of compound sentences; recognize Tibetan event based on rules and statictics ;labeling the argument role for event combining the Tibetan syntactic feature; Integrating syntactic and sematic features into Tibetan event extraction.

本课题针对藏文事件的抽取理论与方法开展研究工作,预期为藏文舆情分析、藏文语义挖掘、藏语自动问答等领域提供藏语言处理理论及技术支持。研究内容包括:研究词性标注、藏文实体识别和实体正则化,形成具有藏文特色的词法分析集成工具;抽取藏文事件触发词,建立藏文触发词-事件类别二元表,完成藏文事件的识别及其分类模型;构建藏文事件论元语义角色的理论体系,为事件表示、事件抽取模式提供理论基础;搭建藏文事件抽取系统,提供统一服务接口。拟解决的关键科学问题有:藏语短语句法树库构建策略;藏语语义信息表示及标注方案;藏文事件触发词识别;藏文事件论元结构的理论体系;事件论元角色标注算法;藏语事件表示方案及分类识别。创新点:开放域环境下藏文文本资源的规范化处理;融入藏文复句分析的藏文文本自动断句模型;基于规则和统计相结合的藏文候选事件类别识别算法;结合藏文句法特点的事件论元角色标注;融合句法和语义特征的藏文事件抽取。

项目摘要

事件抽取是从文本中自动地抽取特定类型的事件及其事件要素,并以结构化的形式呈现出来。事件抽取作为信息处理领域的关键技术,在信息检索、自动问答、文本挖掘等领域有着广泛的应用。融合句法和语义线索的藏文事件抽取算法可实际运用到藏文舆情监控、藏文文本关联检测、藏文热点话题识别与跟踪等信息安全系统中,具有较好的学术价值和广阔的应用前景。对基于藏文数据库和知识库的自动生成、藏文问答系统、藏文信息检索等领域研究有着积极的意义。.本项目针对事件抽取任务开展语义角色标注任务,语义角色标注旨在标注出句子中所有与谓语相关的语义成分,是进行语义分析的基础和关键技术.使用传统的机器学习方法进行语义角色标注,需要人工设定特征,特征稀疏且工作繁琐沉重,同时传统方法对句法解析精度有较高要求,所以语义角色标注发展缓慢.针对上述情况,采取基于双向长短时记忆(BiLSTM)网络-注意力机制(attention)-条件随机场(CRF)模型进行汉语语义角色标注,同时尝试针对性引入其他资源优化模型性能.在训练阶段,将词性、依存句法特征以及短语结构句法特征组成的多线索特征组共同送入模型.经过多组对照实验论证,相比于BiLSTM-CRF模型,融合注意力机制的模型性能显著提升,并且引入的多线索特征组可以进一步提升模型性能。.本项目在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析,事件特征融合与已标注信息对藏文信息抽取有帮助,模型可以很好的应用于藏文信息抽取工作。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

五轴联动机床几何误差一次装卡测量方法

五轴联动机床几何误差一次装卡测量方法

DOI:
发表时间:
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

马宁的其他基金

批准号:81101373
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:81202212
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:31401231
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:21875054
批准年份:2018
资助金额:65.00
项目类别:面上项目
批准号:71203003
批准年份:2012
资助金额:19.00
项目类别:青年科学基金项目
批准号:21407011
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:51305281
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:81471390
批准年份:2014
资助金额:70.00
项目类别:面上项目
批准号:31000458
批准年份:2010
资助金额:19.00
项目类别:青年科学基金项目
批准号:81401332
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:11001272
批准年份:2010
资助金额:17.00
项目类别:青年科学基金项目
批准号:51778112
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:21104004
批准年份:2011
资助金额:26.00
项目类别:青年科学基金项目
批准号:71503246
批准年份:2015
资助金额:17.00
项目类别:青年科学基金项目
批准号:21374009
批准年份:2013
资助金额:83.00
项目类别:面上项目
批准号:51108063
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:20802049
批准年份:2008
资助金额:18.00
项目类别:青年科学基金项目
批准号:10926108
批准年份:2009
资助金额:3.00
项目类别:数学天元基金项目
批准号:51579144
批准年份:2015
资助金额:63.00
项目类别:面上项目
批准号:31701660
批准年份:2017
资助金额:23.00
项目类别:青年科学基金项目
批准号:31500906
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:39970539
批准年份:1999
资助金额:15.00
项目类别:面上项目
批准号:51379124
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:39070480
批准年份:1990
资助金额:3.00
项目类别:面上项目
批准号:41801047
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:81201111
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

多信息动态抽取、融合与关联的回归测试方法研究

批准号:61872167
批准年份:2018
负责人:黄如兵
学科分类:F0203
资助金额:63.00
项目类别:面上项目
2

多文档事件信息融合方法的研究

批准号:61070123
批准年份:2010
负责人:李培峰
学科分类:F0211
资助金额:33.00
项目类别:面上项目
3

基于多源信息融合的元数据自动抽取方法研究

批准号:61202232
批准年份:2012
负责人:高良才
学科分类:F0211
资助金额:21.00
项目类别:青年科学基金项目
4

基于互联网的突发事件信息动态检测、抽取与融合技术研究

批准号:91024009
批准年份:2010
负责人:王厚峰
学科分类:G0110
资助金额:35.00
项目类别:重大研究计划