多文档事件信息融合方法的研究

基本信息
批准号:61070123
项目类别:面上项目
资助金额:33.00
负责人:李培峰
学科分类:
依托单位:苏州大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:钱培德,朱晓旭,吴宏杰,刁红军,杨文让,邓光喜,王力
关键词:
零形指代项识别信息融合多文档事件抽取事件间关联度模型
结项摘要

目前主流的事件抽取方法一般基于单一文档,所获得的事件信息不完整(如信息缺失)和语义不够明确(如代词指代)。同时,很多事件在互联网中存在关于该事件的大量报道,如果能把这些报道有效融合起来,就可能获得一个表述完整、语义明确的事件描述。相关研究尚属空白。本课题通过对零形指代项识别、多文档单一事件信息融合和多文档复杂事件信息融合等关键技术的研究,重点解决事件信息抽取中事件信息的完整性和语义明确性两大问题。特别是,本课题从单文档中事件的上下文信息和多文档中事件的结构化和平面信息等方面入手,提出了新颖的基于结构化信息的零形指代项识别方法、事件相似度计算模型、事件元素可信度评价模型和用于复杂事件融合的单一事件间的关联度模型,用于进一步提高单一事件和复杂事件信息的完整性及明确其语义。通过本课题的研究,可获得内容更完整和更全面,语义更明确的事件信息,从而可为各种需要语义信息支撑的自然语言处理技术服务。

项目摘要

本课题在对缺省信息识别、事件抽取、单一事件信息融合和跨文本事件信息融合等关键技术进行研究的基础上,提出了新颖的事件抽取和融合方法,主要解决事件信息抽取中事件信息完整性和语义明确性问题,实现了一个高性能的中文事件抽取和融合平台,性能达到国际领先水平,为将来的进一步研究打下了扎实的基础。.三年来,课题总体进展顺利,所有研究计划已按要求完成,达到预期目标。特别是:1)在中文缺省项识别和消解方面:针对中文缺省研究缺乏语料的现状,分别基于CTB 5.1和OntoNotes 3.0手工标注用于中文缺省项识别的基准语料库。在此基础上,提出了基于最小IP子树的缺省项识别方法和基于联合句法分析和分块依存分析的缺省项消解方法。该方法和现有最好方法相比,在中文OntoNotes 3.0上缺省项识别和消解的F1值分别提高了12.6%和6.8%;2)在中文事件抽取方面:针对中文事件信息缺省问题,提出了基于触发词形态结构(Morpholoogical Structure)和核心语素(Head Morpheme)的中文触发词扩展方法,从而大大提高了中文事件抽取的性能。另外,针对同一文档中事件之间的内在关联性,提出了基于一致性原理的事件抽取方法,用于抽取缺乏有效信息的事件实例。在ACE 2005中文语料上的实验表明,这些方法和现有最好的句子级别事件抽取方法相比,在F1值上总提高达到了15.0%以上;3)在单文档事件融合方面:针对中文事件论元大量缺省的问题,提出了基于话题结构理论和事件间相关性的事件融合模型。该方法在ACE 2005中文语料库上F1值在论元抽取上提高了4.3%;4)在跨文本事件融合方面:初步探索了跨文本事件融合方法,提出了一种以句法分析为基础,以语义角色标注为基本系统框架的跨本文信息抽取和融合方法,提出了一种以层次聚类和可信度计算为核心的事件信息融合模型。在金融事件和恐怖事件上的实验表明,其准确率达到80%左右。.三年来,发表SCI索引源期刊论文2篇、EI索引源期刊论文7篇、国际顶级会议IJCAI/ACL/EMNLP/COLING论文5篇;国内核心期刊论文20篇;申请专利7件,获得授权3件;获得软件著作权9项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

李培峰的其他基金

批准号:30730045
批准年份:2007
资助金额:150.00
项目类别:重点项目
批准号:61772354
批准年份:2017
资助金额:62.00
项目类别:面上项目
批准号:91849209
批准年份:2018
资助金额:200.00
项目类别:重大研究计划
批准号:30871243
批准年份:2008
资助金额:40.00
项目类别:面上项目
批准号:39770007
批准年份:1997
资助金额:11.00
项目类别:面上项目
批准号:61472265
批准年份:2014
资助金额:82.00
项目类别:面上项目
批准号:81230005
批准年份:2012
资助金额:280.00
项目类别:重点项目
批准号:30260084
批准年份:2002
资助金额:19.00
项目类别:地区科学基金项目
批准号:31430041
批准年份:2014
资助金额:328.00
项目类别:重点项目
批准号:51902207
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:30671058
批准年份:2006
资助金额:32.00
项目类别:面上项目
批准号:39300031
批准年份:1993
资助金额:7.50
项目类别:青年科学基金项目

相似国自然基金

1

汉语多文档意见信息聚集和融合方法研究

批准号:61170148
批准年份:2011
负责人:付国宏
学科分类:F0211
资助金额:56.00
项目类别:面上项目
2

融合多特征的藏文事件属性信息抽取理论与方法研究

批准号:61762076
批准年份:2017
负责人:马宁
学科分类:F0211
资助金额:37.00
项目类别:地区科学基金项目
3

异质多社交网络信息融合与热点事件多维演化

批准号:61772133
批准年份:2017
负责人:曹玖新
学科分类:F0207
资助金额:65.00
项目类别:面上项目
4

基于时频分析和多传感器信息融合技术的水质事件检测方法研究

批准号:41101508
批准年份:2011
负责人:侯迪波
学科分类:D0716
资助金额:25.00
项目类别:青年科学基金项目