Discourse coherence poses a big problem in discourse information processing, and it also plays an important role in discourse topic analysis, discourse planning, multi-document summarisation and natural language generation.Current researches in discourse coherence involve Centering Theory and Lexical Chain, both of which deal with discourse from the perspective of entity.We propose the concept of event chain which transcends from the entity level to event level.We assume that a robust event chain underlies a coherent discourse.We intend to build a large scale annotated resource of Chinese event chain, which includes 3,000 discourses.Based on the resource, we build up the analysis model, establish the evaluation mechanism and apply it to automatic evaluation of students' writing, sentence ranking in multi-document summarisation and biological event analysis. For the analysis, we adopt a fusion strategy, integrating generative model, discriminative model and semi-supervised learning, in order to avoid the overfitting problem during learning, and effectively utilized large-scale unannotated data. This research facilitates the representation mechanism of Chinese discourse semantics, enriches the resource of Chinese discourse semantics and enforces the discourse-level semantic provessing. It is also helpful for text planning, summarization and web information processing.
语篇连贯是篇章信息处理的一个重要问题,在篇章话题分析、篇章结构组织、自动文摘和自然语言生成等方面均有重要作用。目前篇章连贯的研究主要包括中心理论和词汇链技术,但这些都是实体层面的形式模型。本研究拟从实体层面深入到事件层面,提出事件链的概念和连贯的语篇一定存在一个事件链这一假设。基于此,我们拟建立一个大规模的中文事件链标注资源,其中包含3000语篇实例,并在此基础上建立事件链的分析模型,确立事件链和语篇连贯的评估机制,最后探讨该模型在作文评判、自动文摘和生物事件分析中的应用。针对事件链,我们拟采用一种融合分析策略,将生成模型、判别模型和半指导学习有机结合起来,以避免学习过程中的过度拟合及发挥大量非标注数据的作用。本项目的研究有助于建立汉语篇章语义的形式表示机制、丰富汉语篇章级的标注资源和深化篇章级的语义分析,对文本规划、自动文摘和互联网信息处理也有重要意义。
按项目申请书的要求我们按时完成本项目所要完成的研究内容。本研究工作主要成果是,针对篇章理解的问题,研究中文事件和事件链描写机制以及基于事件语义的篇章表示,并应用到篇章任务。主要开展了以下方面的研究:.一、项目探讨了中文事件和事件链描写机制,提出基于事件链的汉语语篇描写机制。本研究从实体层面深入到事件层面,主干事件链不仅从语义层面覆盖了整篇文档,而且能在一定程度上反映了篇章实体间的转移关系。.二、开放领域事件抽取。我们提出利用双向传播技术来组合事件抽取和事件模板生成模块。该方法是一种无监督的方法,无需种子事件或种子模板。双向传播的过程中,事件抽取的结果用于增强模板的生成,标准事件模板则可用于指导错误事件的修正和新事件的召回。不同规模语料上的实验结果证明了方法的有效性。.三、事件驱动的标题生成。项目提出一种基于词图的多语句压缩模型以生成单文档标题,模型首先构造由词汇链和事件组成的二部图,同时融入了短语和语句的重要度以习得显著性事件。然后基于显著性事件来构造一个有向无环的词图,采用集束搜索算法在图中搜索最终的标题。.四、事件指导的多文档摘要生成。我们以事件作为篇章表示的基本单元,提出以结构化的事件信息来指导多文档中子主题的产成和摘要候选语句的生成。一方面,利用事件语义相似度来产生聚簇,可以避免传统语句聚类方法中带有的噪声;另一方面,将事件的结构化信息融入多语句压缩中能产生高质量的压缩候选。最后组合三个子模函数以优化摘要语句的选择。.五、融入事件语义的主题分析。项目研究使用结构化的事件来进行主题分析,针对已有模型中以词或短语来表示的主题缺乏深层次的语义信息且可解释性差的问题,提出了在二项主题模型的基础上构建基于事件的主题模型,采用两种不同的方式将事件的语义知识融入到主题生成过程中。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于国产化替代环境下高校计算机教学的研究
一种基于多层设计空间缩减策略的近似高维优化方法
基于MCPF算法的列车组合定位应用研究
长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移
二维FM系统的同时故障检测与控制
汉语语篇中连贯关系和隐含角色的分析标注研究
语篇中话题的韵律编码方式及其对语篇理解的影响:汉语和彝语对比研究
汉语语篇中语句焦点和焦点-重音投射
汉语语篇韵律边界的认知加工及其神经机制