面向互联网新闻事件的演化式摘要研究

基本信息
批准号:61402314
项目类别:青年科学基金项目
资助金额:24.00
负责人:王红玲
学科分类:
依托单位:苏州大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:王中卿,黄磊,刘欢欢,徐志浩
关键词:
演化式摘要动态演化冗余控制篇章连贯性多文档自动文摘
结项摘要

Evolutionary timeline summarization (ETS) for Internet News Event is a new task in natural language processing, which is a kind of multi-document summarization (MDS). This proposal will focus on the research of ETS according to the features of dynamic evolution, content relevance and information redundancy of Internet news event. It will be achieved by constructing three models: 1) A redundancy control model is proposed to consider representativeness, informativeness and diversity of summary by using similarity between various scales of text units. Here a hierarchical topic model is proposed to present text units of multi-granularity. 2) A coherence model based on discourse cohesion theory is proposed to guide summary ordering in improving the coherence of the summary. 3) A dynamic evolutionary model based on topic hierarchical structure is presented to analyze the evolutionary trends which guide the extraction of evolutionary summary. The key scientific issues of redundant control, discourse coherence and dynamic evolution will be mainly focused, which will lead to the extracted summary is less redundancy, dynamic evolutionary and readable.

面向互联网新闻事件的演化式摘要是自然语言处理的一个新兴任务,其本质是多文档自动文摘。由于互联网新闻事件报道具有动态演化、内容关联和信息重复等特点,面向互联网新闻事件的演化式文摘与传统文摘相比存在诸多不同。本项目将重点研究面向互联网新闻事件的演化式文摘,重点解决其存在的信息冗余度高、篇章连贯性差和缺乏动态演化等关键科学问题。基本思想是,在降低文摘信息冗余的基础上,保证抽取的摘要具有动态演化性且前后连贯,可读性强。基于此,本项目首先提出了一个冗余度控制模型,通过使用不同文本单元之间的相似度来综合考虑文摘的各种特性,融合代表性、信息性和多样性,并使用一个层次化主题模型来形式化表示多粒度文本单元。其次,提出一个基于篇章衔接性理论的文摘连贯性模型,通过使用该模型来指导文摘排序,增强摘要的连贯性。最后,提出一个基于层次话题结构的动态演化模型,按照内容演化趋势来指导摘要的抽取。

项目摘要

面向互联网新闻事件的演化式摘要是自然语言处理的一个新兴任务,其本质是多文档自动文摘。由于互联网新闻事件报道具有动态演化、内容关联和信息重复等特点,面向互联网新闻事件的演化式文摘与传统文摘相比存在诸多不同。本项目重点研究了面向互联网新闻事件的演化式文摘,重点解决其存在的信息冗余度高、篇章连贯性差和缺乏动态演化等关键问题。本项目主要在三个方面展开工作:(1)在研究文本形式化表示的基础上,提出了一个冗余度控制模型,通过使用不同文本单元之间的相似度来综合考虑文摘的各种特性,融合了代表性、信息性和多样性。(2)基于汉语篇章结构语料库完成了汉语自动文摘语料的标注,基于此语料研究了基于篇章修辞结构的文摘连贯性,达到了增强自动文摘连贯性的目的。(3)在综合上述研究的基础上,完成了一个带有时间标记的演化式摘要原型系统,该系统使用特征向量表示文本单元,并基于一种局部-全局主题关系来实现关键内容的抽取。. 三年来,项目总体进展顺利,已按计划完成研究内容,达到预期目标。本项目的开展对于推动多文档自动文摘,特别是面向互联网新闻报道的自动文摘研究有重要的理论意义和应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
4

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
5

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020

王红玲的其他基金

相似国自然基金

1

汉越双语新闻事件关联分析及摘要方法研究

批准号:61762056
批准年份:2017
负责人:张亚飞
学科分类:F0211
资助金额:38.00
项目类别:地区科学基金项目
2

新闻与社交媒体协同的主题演化摘要研究

批准号:61402191
批准年份:2014
负责人:胡珀
学科分类:F0211
资助金额:26.00
项目类别:青年科学基金项目
3

面向大规模汉语新闻语料的实体抽取与自动摘要研究

批准号:U1936109
批准年份:2019
负责人:黄德根
学科分类:F0210
资助金额:70.00
项目类别:联合基金项目
4

基于认知特征的新闻事件在线评论观点自动摘要方法与社会情绪测量模型

批准号:61402142
批准年份:2014
负责人:徐涛
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目