Evolutionary timeline summarization (ETS) for Internet News Event is a new task in natural language processing, which is a kind of multi-document summarization (MDS). This proposal will focus on the research of ETS according to the features of dynamic evolution, content relevance and information redundancy of Internet news event. It will be achieved by constructing three models: 1) A redundancy control model is proposed to consider representativeness, informativeness and diversity of summary by using similarity between various scales of text units. Here a hierarchical topic model is proposed to present text units of multi-granularity. 2) A coherence model based on discourse cohesion theory is proposed to guide summary ordering in improving the coherence of the summary. 3) A dynamic evolutionary model based on topic hierarchical structure is presented to analyze the evolutionary trends which guide the extraction of evolutionary summary. The key scientific issues of redundant control, discourse coherence and dynamic evolution will be mainly focused, which will lead to the extracted summary is less redundancy, dynamic evolutionary and readable.
面向互联网新闻事件的演化式摘要是自然语言处理的一个新兴任务,其本质是多文档自动文摘。由于互联网新闻事件报道具有动态演化、内容关联和信息重复等特点,面向互联网新闻事件的演化式文摘与传统文摘相比存在诸多不同。本项目将重点研究面向互联网新闻事件的演化式文摘,重点解决其存在的信息冗余度高、篇章连贯性差和缺乏动态演化等关键科学问题。基本思想是,在降低文摘信息冗余的基础上,保证抽取的摘要具有动态演化性且前后连贯,可读性强。基于此,本项目首先提出了一个冗余度控制模型,通过使用不同文本单元之间的相似度来综合考虑文摘的各种特性,融合代表性、信息性和多样性,并使用一个层次化主题模型来形式化表示多粒度文本单元。其次,提出一个基于篇章衔接性理论的文摘连贯性模型,通过使用该模型来指导文摘排序,增强摘要的连贯性。最后,提出一个基于层次话题结构的动态演化模型,按照内容演化趋势来指导摘要的抽取。
面向互联网新闻事件的演化式摘要是自然语言处理的一个新兴任务,其本质是多文档自动文摘。由于互联网新闻事件报道具有动态演化、内容关联和信息重复等特点,面向互联网新闻事件的演化式文摘与传统文摘相比存在诸多不同。本项目重点研究了面向互联网新闻事件的演化式文摘,重点解决其存在的信息冗余度高、篇章连贯性差和缺乏动态演化等关键问题。本项目主要在三个方面展开工作:(1)在研究文本形式化表示的基础上,提出了一个冗余度控制模型,通过使用不同文本单元之间的相似度来综合考虑文摘的各种特性,融合了代表性、信息性和多样性。(2)基于汉语篇章结构语料库完成了汉语自动文摘语料的标注,基于此语料研究了基于篇章修辞结构的文摘连贯性,达到了增强自动文摘连贯性的目的。(3)在综合上述研究的基础上,完成了一个带有时间标记的演化式摘要原型系统,该系统使用特征向量表示文本单元,并基于一种局部-全局主题关系来实现关键内容的抽取。. 三年来,项目总体进展顺利,已按计划完成研究内容,达到预期目标。本项目的开展对于推动多文档自动文摘,特别是面向互联网新闻报道的自动文摘研究有重要的理论意义和应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
涡度相关技术及其在陆地生态系统通量研究中的应用
内点最大化与冗余点控制的小型无人机遥感图像配准
基于多模态信息特征融合的犯罪预测算法研究
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
汉越双语新闻事件关联分析及摘要方法研究
新闻与社交媒体协同的主题演化摘要研究
面向大规模汉语新闻语料的实体抽取与自动摘要研究
基于认知特征的新闻事件在线评论观点自动摘要方法与社会情绪测量模型