文本推理是指文本描述的命题间的逻辑关系,目前主要策略是获取推理规则并根据规则进行推导。本项目把文本推理的判断转化为一个受限的语义依存分析问题,从而以一个崭新的角度考察文本推理。为此,我们拟建立大规模的汉语文本推理标注资源、探讨有效的分析策略并应用于问题回答和关系抽取两个具体任务。本研究将文本推理从文本蕴涵扩展至预设和隐含,并将这三种推理形式综合到一个统一的框架中;提出并研究基于语义依存分析的推理判断且探讨基于对数线性的二阶段区分性分析模型。本研究有助于处理较复杂的推论形式,探究汉语文本推理的基本特性、比较不同推理形式的异同、评估文本推理对应用系统的贡献,对推动汉语文本推理评测平台的建设也有重要意义。
按项目申请书的要求我们按时完成本项目所要完成的研究内容。本研究工作主要成果是,针对文本推理的问题,提出以下算法模型:(1)基于受限的语义依存分析的文本推理方法。文本推理的原始问题是:对任一语段T及假设H,判断T是否可推理出H。为提高文本推理系统的性能,我们将其形式化为一个受限的语义依存分析问题。定义如下:给定语段T及假设H,在T的限制下,对H进行语义依存分析,如果H的语义依存图存在的概率大于δ ,则T可推理出H;否则无法推理出H。由于语义依存图是一个带标记的有向图,为保证分析效率,我们采用两个阶段分析语义依存结构。整个分析过程分为两个阶段,Phase 1为无向树分析,Phase II为有向图分析。两个阶段都采用对数线性模型进行分析。本模型有助于处理较复杂的推论形式,探究汉语文本推理的基本特性、比较不同推理形式的异同、评估文本推理对应用系统的贡献,对推动汉语文本推理评测平台的建设也有重要意义。( 2 )基于深度学习的文本推理方法。传统的分类方法很难确定区分性特征,据此建立的分类器性能不太理想。我们提出一个基于深度学习方法的模型,首先通过一个联合受限玻兹曼机模型学习T和H的联合表示层,然后通过联合层计算出T和H的原始句子表示的重构误差来判断推理关系,其中联合受限玻兹曼机模型的训练语料是从大规模新闻语料中自动获取,T和H的原始句子表示通过递归自编码机习得。实验测试基于RTE评测语料,我们的模型能够提升文本推理识别的性能。(3)基于事件图的文本推理方法。为了强化文本蕴含系统深层语义分析与推理能力,我们提出了基于事件图的中文文本蕴含识别方法。该方法基于事件标注语料生成事件图,将文本间的蕴含关系转化为事件图间的蕴含关系。通过事件图生成事件语义相似度特征,并根据矛盾语言现象生成矛盾识别特征,与传统统计特征、词汇语义特征和句法特征结合进行分类,来识别蕴含关系。实验测试基于NTCIR-RITE中文文本推理评测语料,实验结果表明基于事件语义特征的中文文本蕴含识别方法可以更有效地对中文文本蕴含关系进行识别。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
黄河流域水资源利用时空演变特征及驱动要素
硬件木马:关键问题研究进展及新动向
基于推理现象的中文文本推理资源建设和自动分析研究
汉语特征结构的资源建设和自动分析研究
无指导汉语文本挖掘的统计模型和统计推断
面向文本推理的汉语语义计算模型研究