The Research project Intended for the Vietnamese Internet news and information flow,Orientation, accurate information to extract 5W1H news events:F ( news events ) = P<Who/Whom,When,Where,Why,What,How>。Based on the "Vietnamese news information processing platform" which applicant has been implemented Vietnamese clause,part-of-speech tagging,named entity recognition preprocessing functions,This project mainly research methods for event extraction Vietnamese news text in various categories and event arguments information:1、research the method of news event semantic role labeling /identification,In the event annotation/identification information as the training corpus to study and propose the model of "lexical chains, the chain of events";2、with event-semantic model guidance,”the event features the words” as the combination of the core features ,using the maximumentropy model and ISODATA clustering analysis to extract event category information; 3、Given the characteristics of the event argument Cross-sentence distribution By constructing the model of lexical chains of the text and the event chain ,"lexical chains, the chain of events" as the text feature combination to express the relationship between event semantic role, extraction of event specific news the arguments information.
本课题拟面向互联网中的越语新闻信息流,定向、准确抽取新闻事件中的5W1H信息:.F(新闻事件)=P<Who/Whom,When,Where,Why,What,How〉。基于申请者已经实现越南语分句、分词、词性标注、命名实体识别等预处理功能的“越语新闻事件信息处理”平台,本课题主要研究基于新闻文本的“词汇链、事件链”的篇章级特征,抽取越语新闻文本中事件类别和事件诸论元信息的方法:1、研究新闻事件语义角色标注/识别方法,并以事件标注/识别信息作为训练语料,构建新闻文本的词汇链和事件链模型。 2、以事件语义模式指导、“事件特征词”为核心的组合特征,采用最大熵模型和ISODATA聚类分析抽取新闻事件类别信息;3、鉴于事件的诸论元跨句子分布的特征,通过构建新闻文本的词汇链、事件链模型,并视“词汇链、事件链”为表达事件语义角色之间依存关系的篇章级特征,抽取新闻事件的诸论元信息。
项目的立意是研究基于篇章特征的越南语新闻事件信息的抽取技术,也就是,面向越南语的新闻信息流,基于新闻文本的篇章特征去抽取越语新闻文本中所表达的事件信息。信息抽取的基础是语料的支撑,课题选取了7大类(政治、经济、社会、科学、文化、生活、技术)覆盖面最广的新闻事件,获取了12000多条越南语的新闻语料,并对获取的越南语新闻语料进行解析、类型、类别、分词、词性标注、新闻实体标注、触发词和事件元素标注等一系列的要素标注工作,并将分析后的语料进行存储,构建并集成成为一个“汉越新闻事件信息处理平台”。为后续的越语新闻事件信息的抽取提供了良好的基础。.基于平台中标注的词性、命名实体、事件触发词等语料信息,提出了一种识别新闻事件类别信息的方法:选取命名实体、新闻关键词和事件触发词作为新闻分类特征,采用最大熵模型实现新闻事件的分类识别。通过七大类新闻事件语料、6000多篇越南语新闻文本进行训练,获得越南语新闻文本分类模型,实现了准确率96.97%越南语新闻事件的类型分类。.针对新闻报道中分布着表达事件语义关联信息的一条“信息链”这一结论,课题在研究工作中引入了跨越句子层面的篇章级特征“词汇链、事件链”,提出了构建新闻文本词汇链、事件链的方法:通过抽取新闻文本中的关键词和实体,融合网络语义知识和多特征解决词汇的歧义消解,结合词频、位置和集聚等一系列特征,再使用语义相似度进行歧义消除并最终构成表达新闻事件线索信息的词汇链。基于文本的词汇链、领域相关的“谓词-论元语料库”,通过识别事件特征词、以及事件语义框架中提供的的信息,获取新闻文本“事件链”的方法。.本课题研究的核心是信息抽取方法,在“平台+篇章特征”的基础上,项目展开了多种新闻事件信息抽取方法的研究:基于跨事件理论提出了新闻事件之间时序关系、因果关系的抽取方法、基于事件链结构的识别新闻事件关联关系的方法、采用后缀树聚类算法实现越语新闻文本中话题信息抽取的方法、基于依存树结构来抽取越语新闻事件元素的方法、基于超图结构抽取新闻话题要素的方法。这些抽取方法的研究,为进一步的“理解”越语新闻事件奠定了坚实的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
农超对接模式中利益分配问题研究
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
中国参与全球价值链的环境效应分析
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
物联网中区块链技术的应用与挑战
因特网中文金融新闻中抽取事件及其相关时间信息的研究
基于叙事模式分析的无监督新闻事件语义抽取研究
面向非结构化文本的大规模事件信息抽取关键技术研究
跨语言敏感事件抽取关键技术研究