基于互联网的突发事件信息动态检测、抽取与融合技术研究

基本信息
批准号:91024009
项目类别:重大研究计划
资助金额:35.00
负责人:王厚峰
学科分类:
依托单位:北京大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:詹卫东,胡俊峰,张化瑞,徐戈,何正焱,徐幸,陈晨,翁伟,李月伦
关键词:
信息融合数据挖掘突发事件自然语言处理文本信息获取
结项摘要

快速收集突发事件报道相关的信息,以简洁、直观的形式表示信息,全面而准确地融合不同来源的信息,是科学决策并有效应对非常规突发事件的重要基础。以文本表示为主的互联网络因信息传播快速、参与人员多且分布广泛,成为了最有价值的信息集散地。本项目将以Web文本为主,结合网上社区论坛,研究突发事件的信息融合技术。.项目通过术语挖掘获取突发事件的领域知识和构建事件框架的Ontology,在此基础上,研究面向自然语言文本的突发事件检测与分类方法;通过事件模式挖掘与匹配以及语义角色标注等手段,抽取突发事件的信息,形成框架表示;通过统计和观点挖掘,分析事件的关注度;通过事件共指消解,研究突发事件的信息融合技术。.将数据挖掘技术、机器学习技术与自然语言处理技术相结合,进行大规模文本信息及时获取与动态融合是本项目要解决的关键科学问题。

项目摘要

突发事件是指事先未曾预知而突然发生的事件,如自然灾害、安全事故、食品卫生安全以及群体性社会事件。突发事件通常会对社会的正常秩序造成很大的影响甚至冲击。.互联网因其分布广且参与人多,已经成为了信息集散地。从互联网上获取突发事件信息、整理信息并供决策使用,理应成为突发事件处置的重要研究内容。.本课题围绕网上突发事件信息以及可能产生的影响等问题展开研究。重点探讨了突发事件的客观信息检测和收集以及主观观点的分析等问题。主要包括:(1)研究了突发事件检测和跟踪的方法。通过我们的方法检测的重大事件与新闻机构评选出的年度重大新闻有很高的吻合度;(2)研究了突发事件报道的信息浓缩方法。一般情况下,突发事件报道量非常大,为了快速了解事件情况,本项目研究了通过文本摘要进行信息浓缩;(3) 以实体识别与实体消歧为基础,研究了突发事件要素的识别方法和融合方法。事件的核心要素是实体,包括时间、地点、人(机构)、数量等。构建事件框架需要获取这些信息;(4)研究了观点挖掘方法。突发事件很容易引起人们的情绪发泄和情感表达,而这些对突发事件本身的演化又会产生影响。本项目开展了多种方式的情感分析研究和支撑情感分析的基础资源建设;(5)网络文本的基础性问题研究。社交媒体是突发事件传播的主要渠道,而社交媒体(如微博)等有大量的特殊表达方式,课题组开展了诸如分词等特殊问题的研究。.三年来,项目组很好地完成了预期任务,共发表论文 29 篇,申请专利4项。其中,期刊论文 8 篇(包括英文期刊TALIP);会议论文 21 篇,其中,国际顶级会议论文 11 篇,包括4 篇ACL(2012,2013各2篇)论文,1篇SIGKDD2012,3篇EMNLP(2012年1篇,2013年 2篇),3篇COLING(2012)。采集了一年的网络新闻数据和 10天的微博数据,开发了多个文本处理的工具,参加了二次国际评测(TAC的KBP评测和CONLL-shared2011年的评测),组织了2012年Sighan的评测。与国内外多家研究机构进行了学术交流和合作。以此为基础,项目负责人还获得了多项重要的国家项目。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

王厚峰的其他基金

批准号:61370117
批准年份:2013
资助金额:81.00
项目类别:面上项目
批准号:60675035
批准年份:2006
资助金额:25.00
项目类别:面上项目
批准号:60473138
批准年份:2004
资助金额:23.00
项目类别:面上项目
批准号:60973053
批准年份:2009
资助金额:30.00
项目类别:面上项目
批准号:60173005
批准年份:2001
资助金额:18.00
项目类别:面上项目

相似国自然基金

1

多信息动态抽取、融合与关联的回归测试方法研究

批准号:61872167
批准年份:2018
负责人:黄如兵
学科分类:F0203
资助金额:63.00
项目类别:面上项目
2

句法语义分析与开放域信息抽取融合技术研究

批准号:61572245
批准年份:2015
负责人:邱立坤
学科分类:F0211
资助金额:64.00
项目类别:面上项目
3

基于互联网与本地数据融合的“互联网+医疗健康”信息检索研究

批准号:61672324
批准年份:2016
负责人:陈竹敏
学科分类:F0211
资助金额:63.00
项目类别:面上项目
4

基于多源信息融合的元数据自动抽取方法研究

批准号:61202232
批准年份:2012
负责人:高良才
学科分类:F0211
资助金额:21.00
项目类别:青年科学基金项目