汉语篇章连贯性分析计算模型研究

基本信息
批准号:61402208
项目类别:青年科学基金项目
资助金额:24.00
负责人:徐凡
学科分类:
依托单位:江西师范大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:刘建明,刘长红,罗文兵,司慧枫,江瑶,陈淑娴
关键词:
计算模型句子衔接方式篇章修辞关系自然语言理解篇章连贯性
结项摘要

Discourse coherence analysis plays a critical role in discourse understanding. Currently, related works in discourse coherence analysis are still in their infancy, especially in the research on the cohesion pattern and rhetorical relation among sentences within a discourse. While the cohesion pattern and rhetorical relations among sentences within a discourse are two essential and difficult issues in discourse coherence mechanism. In particular, this project focuses on the specific characteristics and rules of Chinese to investigate computational model of Chinese coherence analysis. First, a cohesion pattern-based discourse coherence model will be presented. The model describes discourse coherence via calculating the similarity of theme or rheme of adjacent sentences within a discourse, together with more word knowledge information. Second, a rhetorical relation-based discourse coherence model will be presented. The model describes discourse coherence via identifying the rhetorical relation, e.g. causality, coordination, transition and explanation, among entities and events in adjacent sentences within a discourse. Finally, a unified platform is proposed for both the cohesion pattern and rhetorical relation among sentences within a discourse via joint learning model. In summary, this project will promote the research on Chinese discourse coherence analysis, and is thus valuable for the development of computational linguistics and Chinese information processing.

篇章连贯性是语篇理解的基础。目前,相关研究刚刚起步,特别是对篇章中句子间的衔接方式以及修辞关系等相关文献还比较少见。然而,篇章中句子间的衔接方式和修辞关系是连贯性机制中的核心问题,同时也是难点所在。本项目将结合汉语自身的特点和规律,从以下三个方面开展汉语篇章连贯性分析的计算模型研究:1)研究基于句子间衔接方式的篇章连贯性计算模型,通过计算相邻句子中主位和述位的相似度来刻画篇章连贯性,同时融入更多的世界知识信息。2)研究基于句子间修辞关系的篇章连贯性计算模型,通过融合句子间实体和事件的因果、并列、转折和解说等修辞关系来刻画篇章的连贯性。3)最后利用联合学习机制将篇章中句子间的衔接方式和修辞关系加以融合,建立统一的汉语篇章连贯性检测平台。本项目开展的研究工作对于推进汉语篇章连贯性分析的研究,推动计算语言学研究和汉语信息技术的发展具有理论意义和应用价值。

项目摘要

本课题实现了一个高性能的汉语篇章连贯性检测系统,在国内和国际同行中广泛使用的基准语料上,性能达到国内领先水平。三年来,课题总体按照申请书计划开展,进展顺利,完成情况及取得的成果已达到预期目标。本课题已完成的研究内容包括三个方面(其中第一和第二项为申请书计划研究内容,第三项为本课扩展研究内容):. 一是基于主位-述位结构理论的篇章连贯性建模。本课题重点探索了系统功能语法关于文本中句子间的主位推进理论,将其从定性层面拓展至定量层面,并利用余弦相似度和基于机器翻译中参考译文与翻译文本的相似度对其可计算化,实现文本的连贯性建模。基于国际基准语料ESOL(English as a Second or Other Language) 的实验表明了本课提出的主位结构方法优于传统的基于篇章关系和基于实体的方法。. 二是融合实体信息的基于深度学习的篇章连贯性模型,分别提出了实体驱动的结构递归神经网络和双向长短期记忆时间递归神经网络两种模型。首先将篇章中句子采用递归深度模型表示成向量,然后将句子中的实体(名词)进行分布式表示,最后将这两种类型的向量通过代数运算加以融合,以更好地突显句子中实体的重要性。基于国际基准语料和标注的汉语作文语料上的实验表明了本课提出的实体驱动的深度学习方法优于传统的神经网络和基于实体的方法。. 三是从语料库的构建和语言类型自动识别两个方面研究了赣方言和大中华区篇章分析。针对赣方言篇章平行语料库,本课题提出了一个两层次细粒度的赣方言表示模式,将其表示成汉语字符和汉语拼音形式。我们手工构建了131.5小时的310篇6种体裁文档的19个区域的赣方言与普通话在篇章层面的平行语料库。此外,本课题手工标注了一致性程度达到95%以上的10,000组大中华区平行词对齐语料库,并提出了基于word2vec的两阶段词对齐模型。实验结果表明此方法显著优于现有的GIZA++和基于隐马尔可夫模型的基准模型。针对语言自动识别问题,我们首先从互联网中抽取了27,679组大中华区句子和3,878组赣方言句子,然后研究了n元文法特征,并研究了基于互信息的词级别的特征,同时有效融合了前一阶段的词对齐特征。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

徐凡的其他基金

批准号:21272168
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:81702840
批准年份:2017
资助金额:19.00
项目类别:青年科学基金项目
批准号:31401298
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:61772246
批准年份:2017
资助金额:59.00
项目类别:面上项目
批准号:31601794
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:20872106
批准年份:2008
资助金额:33.00
项目类别:面上项目
批准号:11602058
批准年份:2016
资助金额:25.00
项目类别:青年科学基金项目
批准号:11872150
批准年份:2018
资助金额:63.00
项目类别:面上项目

相似国自然基金

1

汉语篇章连贯性分析:话题结构、逻辑语义结构及其联合学习研究

批准号:61472264
批准年份:2014
负责人:孔芳
学科分类:F0211
资助金额:81.00
项目类别:面上项目
2

汉语篇章结构分析的资源建设与计算模型研究

批准号:61273320
批准年份:2012
负责人:周国栋
学科分类:F03
资助金额:81.00
项目类别:面上项目
3

面向篇章信息性的汉语篇章结构多层次联合分析研究

批准号:61876118
批准年份:2018
负责人:孔芳
学科分类:F0606
资助金额:62.00
项目类别:面上项目
4

汉语篇章理解的研究

批准号:69375015
批准年份:1993
负责人:李家治
学科分类:F03
资助金额:6.50
项目类别:面上项目