This project focuses on the theory and method for extraction of Tibetan events, with the aim to provide technical support for Tibetan public opinion anlysis, Tibetan semantic mining and Tibetan question answering. Main contents of this project are as follows: Tibetan part-of-speech tagging, entity recognition and normalization, so as to form integration tools for morphological analysis with Tibetan characteristics; extracting the trigger words of Tibetan event, establishment of the binary table for Tibetan trigger-type of event to relize the recognition and classification model of event; the construction of theoretical system for argument roles of Tibetan event to provide theoretical fundamental basis for representation and extraction model of event; constructing the system of Tibetan event to provide unified service interface. Key scientific problems needed to be solved are: Tibetan syntactic treebank constructing strategy; recognition of Tibetan tirgger for event; Tibetan sematic information expression and labeling; recognition algorithm of event type; theoretical system for argument structure of Tibetan event; argument role labeling algorithm of Tibetan event; generalization of event mode.Innovations from this project are: normative approach of Tibetan text under the environment of free-domain; automatic Segmentation for Tibetan Sentence integrating analysis of compound sentences; recognize Tibetan event based on rules and statictics ;labeling the argument role for event combining the Tibetan syntactic feature; Integrating syntactic and sematic features into Tibetan event extraction.
本课题针对藏文事件的抽取理论与方法开展研究工作,预期为藏文舆情分析、藏文语义挖掘、藏语自动问答等领域提供藏语言处理理论及技术支持。研究内容包括:研究词性标注、藏文实体识别和实体正则化,形成具有藏文特色的词法分析集成工具;抽取藏文事件触发词,建立藏文触发词-事件类别二元表,完成藏文事件的识别及其分类模型;构建藏文事件论元语义角色的理论体系,为事件表示、事件抽取模式提供理论基础;搭建藏文事件抽取系统,提供统一服务接口。拟解决的关键科学问题有:藏语短语句法树库构建策略;藏语语义信息表示及标注方案;藏文事件触发词识别;藏文事件论元结构的理论体系;事件论元角色标注算法;藏语事件表示方案及分类识别。创新点:开放域环境下藏文文本资源的规范化处理;融入藏文复句分析的藏文文本自动断句模型;基于规则和统计相结合的藏文候选事件类别识别算法;结合藏文句法特点的事件论元角色标注;融合句法和语义特征的藏文事件抽取。
事件抽取是从文本中自动地抽取特定类型的事件及其事件要素,并以结构化的形式呈现出来。事件抽取作为信息处理领域的关键技术,在信息检索、自动问答、文本挖掘等领域有着广泛的应用。融合句法和语义线索的藏文事件抽取算法可实际运用到藏文舆情监控、藏文文本关联检测、藏文热点话题识别与跟踪等信息安全系统中,具有较好的学术价值和广阔的应用前景。对基于藏文数据库和知识库的自动生成、藏文问答系统、藏文信息检索等领域研究有着积极的意义。.本项目针对事件抽取任务开展语义角色标注任务,语义角色标注旨在标注出句子中所有与谓语相关的语义成分,是进行语义分析的基础和关键技术.使用传统的机器学习方法进行语义角色标注,需要人工设定特征,特征稀疏且工作繁琐沉重,同时传统方法对句法解析精度有较高要求,所以语义角色标注发展缓慢.针对上述情况,采取基于双向长短时记忆(BiLSTM)网络-注意力机制(attention)-条件随机场(CRF)模型进行汉语语义角色标注,同时尝试针对性引入其他资源优化模型性能.在训练阶段,将词性、依存句法特征以及短语结构句法特征组成的多线索特征组共同送入模型.经过多组对照实验论证,相比于BiLSTM-CRF模型,融合注意力机制的模型性能显著提升,并且引入的多线索特征组可以进一步提升模型性能。.本项目在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析,事件特征融合与已标注信息对藏文信息抽取有帮助,模型可以很好的应用于藏文信息抽取工作。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
五轴联动机床几何误差一次装卡测量方法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
多信息动态抽取、融合与关联的回归测试方法研究
多文档事件信息融合方法的研究
基于多源信息融合的元数据自动抽取方法研究
基于互联网的突发事件信息动态检测、抽取与融合技术研究