汉语语篇连贯的事件链模型研究

基本信息
批准号:61373108
项目类别:面上项目
资助金额:78.00
负责人:姬东鸿
学科分类:
依托单位:武汉大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:张明尧,戴文华,赵玲,赵君喆,任函,刘志富,黄江平,陈熙,闫紫飞
关键词:
模型融合统计模型事件链标注资源语篇连贯
结项摘要

Discourse coherence poses a big problem in discourse information processing, and it also plays an important role in discourse topic analysis, discourse planning, multi-document summarisation and natural language generation.Current researches in discourse coherence involve Centering Theory and Lexical Chain, both of which deal with discourse from the perspective of entity.We propose the concept of event chain which transcends from the entity level to event level.We assume that a robust event chain underlies a coherent discourse.We intend to build a large scale annotated resource of Chinese event chain, which includes 3,000 discourses.Based on the resource, we build up the analysis model, establish the evaluation mechanism and apply it to automatic evaluation of students' writing, sentence ranking in multi-document summarisation and biological event analysis. For the analysis, we adopt a fusion strategy, integrating generative model, discriminative model and semi-supervised learning, in order to avoid the overfitting problem during learning, and effectively utilized large-scale unannotated data. This research facilitates the representation mechanism of Chinese discourse semantics, enriches the resource of Chinese discourse semantics and enforces the discourse-level semantic provessing. It is also helpful for text planning, summarization and web information processing.

语篇连贯是篇章信息处理的一个重要问题,在篇章话题分析、篇章结构组织、自动文摘和自然语言生成等方面均有重要作用。目前篇章连贯的研究主要包括中心理论和词汇链技术,但这些都是实体层面的形式模型。本研究拟从实体层面深入到事件层面,提出事件链的概念和连贯的语篇一定存在一个事件链这一假设。基于此,我们拟建立一个大规模的中文事件链标注资源,其中包含3000语篇实例,并在此基础上建立事件链的分析模型,确立事件链和语篇连贯的评估机制,最后探讨该模型在作文评判、自动文摘和生物事件分析中的应用。针对事件链,我们拟采用一种融合分析策略,将生成模型、判别模型和半指导学习有机结合起来,以避免学习过程中的过度拟合及发挥大量非标注数据的作用。本项目的研究有助于建立汉语篇章语义的形式表示机制、丰富汉语篇章级的标注资源和深化篇章级的语义分析,对文本规划、自动文摘和互联网信息处理也有重要意义。

项目摘要

按项目申请书的要求我们按时完成本项目所要完成的研究内容。本研究工作主要成果是,针对篇章理解的问题,研究中文事件和事件链描写机制以及基于事件语义的篇章表示,并应用到篇章任务。主要开展了以下方面的研究:.一、项目探讨了中文事件和事件链描写机制,提出基于事件链的汉语语篇描写机制。本研究从实体层面深入到事件层面,主干事件链不仅从语义层面覆盖了整篇文档,而且能在一定程度上反映了篇章实体间的转移关系。.二、开放领域事件抽取。我们提出利用双向传播技术来组合事件抽取和事件模板生成模块。该方法是一种无监督的方法,无需种子事件或种子模板。双向传播的过程中,事件抽取的结果用于增强模板的生成,标准事件模板则可用于指导错误事件的修正和新事件的召回。不同规模语料上的实验结果证明了方法的有效性。.三、事件驱动的标题生成。项目提出一种基于词图的多语句压缩模型以生成单文档标题,模型首先构造由词汇链和事件组成的二部图,同时融入了短语和语句的重要度以习得显著性事件。然后基于显著性事件来构造一个有向无环的词图,采用集束搜索算法在图中搜索最终的标题。.四、事件指导的多文档摘要生成。我们以事件作为篇章表示的基本单元,提出以结构化的事件信息来指导多文档中子主题的产成和摘要候选语句的生成。一方面,利用事件语义相似度来产生聚簇,可以避免传统语句聚类方法中带有的噪声;另一方面,将事件的结构化信息融入多语句压缩中能产生高质量的压缩候选。最后组合三个子模函数以优化摘要语句的选择。.五、融入事件语义的主题分析。项目研究使用结构化的事件来进行主题分析,针对已有模型中以词或短语来表示的主题缺乏深层次的语义信息且可解释性差的问题,提出了在二项主题模型的基础上构建基于事件的主题模型,采用两种不同的方式将事件的语义知识融入到主题生成过程中。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于国产化替代环境下高校计算机教学的研究

基于国产化替代环境下高校计算机教学的研究

DOI:
发表时间:
2

一种基于多层设计空间缩减策略的近似高维优化方法

一种基于多层设计空间缩减策略的近似高维优化方法

DOI:10.1051/jnwpu/20213920292
发表时间:2021
3

基于MCPF算法的列车组合定位应用研究

基于MCPF算法的列车组合定位应用研究

DOI:
发表时间:2016
4

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

DOI:
发表时间:2021
5

二维FM系统的同时故障检测与控制

二维FM系统的同时故障检测与控制

DOI:10.16383/j.aas.c180673
发表时间:2021

姬东鸿的其他基金

批准号:90820005
批准年份:2008
资助金额:50.00
项目类别:重大研究计划
批准号:60773011
批准年份:2007
资助金额:29.00
项目类别:面上项目
批准号:61173062
批准年份:2011
资助金额:58.00
项目类别:面上项目
批准号:61772378
批准年份:2017
资助金额:60.00
项目类别:面上项目

相似国自然基金

1

汉语语篇中连贯关系和隐含角色的分析标注研究

批准号:61373075
批准年份:2013
负责人:周强
学科分类:F0211
资助金额:78.00
项目类别:面上项目
2

语篇中话题的韵律编码方式及其对语篇理解的影响:汉语和彝语对比研究

批准号:60905062
批准年份:2009
负责人:王蓓
学科分类:F0609
资助金额:17.00
项目类别:青年科学基金项目
3

汉语语篇中语句焦点和焦点-重音投射

批准号:60775026
批准年份:2007
负责人:杨玉芳
学科分类:F0605
资助金额:34.00
项目类别:面上项目
4

汉语语篇韵律边界的认知加工及其神经机制

批准号:31000505
批准年份:2010
负责人:李卫君
学科分类:C0907
资助金额:18.00
项目类别:青年科学基金项目