面向复杂问题的汉语阅读理解研究

基本信息

批准号：61673248

项目类别：面上项目

资助金额：61.00

负责人：谭红叶

学科分类：

依托单位：山西大学

批准年份：2016

结题年份：2020

起止时间：2017-01-01 - 2020-12-31

项目状态：已结题

项目参与者：杨陟卓,张虎,钱揖丽,郭鑫,赵红燕,赵红红,寻丽娜,段庆龙

关键词：

篇章语义分析句子语义分析阅读理解复杂问题解答

结项摘要

Machine reading and comprehension is one of the ultimate tasks in NLP, which has been used to evaluate a machine in text understanding. Most of the current researches are based on some datasets (e.g. MCTest), in whichthe texts andthe questions are easy, and fail to capture the complexity and ambiguity of natural language. Therefore, the relative approaches cannot be successfully used in real natural language. In this project, our goal is teaching machines to read, comprehend and answer complex questions under the same conditions as humans. We will focus on sentence semantic analysis, especially implicit information resolution, discourse analysis based on semantic segments。We will seek to find a question answering approach using semantic information of lexicons, sentences and discourses to address the different expressions of the same meaning in questionsand texts. We also seek to develop a model based deep neutral networks to answer complex questions. We believe our works in this project will provide new solutions and ideas for machine reading comprehension.

阅读理解是NLP领域的一项高级复杂任务，是机器理解文本能力的重要反映，其研究对促进自然语言理解的发展有重要意义。但目前研究所基于的语料（如：MCTest）内容与问题都比较简单，不能反映自然语言的歧义性和复杂性，因此所提模型很难顺利应用到复杂多变的真实语料中。本项目旨在面向人类真实阅读场景，研究面向阅读理解复杂问题解答的深层语言分析技术，探讨句子语义信息分析，尤其是隐含信息的显式化；研究基于语义片段进行语篇宏观信息分析的方法；并在此基础上，研究一种融合词义、句义、语篇信息的解题策略，以克服问题表述与原文存在的语义鸿沟；针对复杂的问答题，探讨基于神经网络推理模型的解答方案。为汉语阅读理解提供新的研究思路和方法。

项目摘要

机器阅读理解可以客观地反映语言智能技术取得的进展，其研究对促进自然语言理解的发展具有重要意义。虽然系统目前在一些数据集上已取得较好结果，但机器对语言的理解能力与人的预期还相差很远，一个重要原因就是数据集挑战性不够，使得模型缺乏解决复杂问题的能力。因此，本项目面向人类真实阅读场景复杂问题的解答技术，从以下几方面进行研究：.在阅读理解核心技术方面，针对问题理解、篇章理解、问题解答开展研究。（1）通过识别问题类型、问题主题和问题焦点，并引入重要词字典释义、Hownet义原等手段加强问题理解；（2）使用层级篇章表示加强篇章理解；（3）针对句子融合、文本生成等答案生成技术进行研究。.在复杂问题解答方面，主要围绕近几年北京高考阅读理解典型题目进行研究。（1）针对词义辨析题，提出了基于支持度计算的解决策略。（2）针对词义解释题，采用基于VAE-Transformer框架的解答策略，更好地捕捉对词语意义具有不同贡献的上下文信息。（3）针对观点评述题，提出基于篇章主题分析的解决策略。（4）针对问答题，提出基于候选句抽取-句子融合的解答框架，句子融合模块采用整数线性规划策略，兼顾信息量、问题关联度与句子流畅度。.在可解释评价方面，主要针对数据集可解释性不足，无法评价模型回答问题的中间过程进行研究。基于高考阅读理解题目构建了一个更具挑战性的数据集，通过在数据集中标注额外信息，要求系统输出这些信息来实现对系统中间推理过程的可解释评价。具体引入标注了三种信息：回答问题所需的证据句、不正确选项的错误原因、回答问题所需的推理能力。.本项目聚焦复杂问题解答技术，大量的实验表明，在问题理解、篇章理解、融合与生成、可解释评价方面提出的方法取得了明显有效的成果。通过本项目的研究，不仅可以促进汉语阅读理解技术的进步，而且进一步深刻洞察了机器在语义推理与答案生成方面的缺陷与关键问题，为未来深入开展汉语阅读理解技术的研究，推进自然语言理解技术的全面发展奠定了坚实的基础。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.12202/j.0476-0301.2022178

发表时间：2022

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.3969/j.issn.1000-0844.2017.05.0820

发表时间：2017

谭红叶的其他基金

批准号：61100138

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

相似国自然基金

面向移动阅读的复杂文档图像理解方法研究

批准号：61300061

批准年份：2013

负责人：王勇涛

学科分类：F0210

资助金额：23.00

项目类别：青年科学基金项目

面向汉语理解的短语信息库的构造

批准号：69483003

批准年份：1994

负责人：俞士汶

学科分类：F0211

资助金额：7.00

项目类别：专项基金项目

面向汉语文本理解的语义计算方法

批准号：91520204

批准年份：2015

负责人：赵铁军

学科分类：F03

资助金额：171.00

项目类别：重大研究计划

汉语儿童阅读发展与阅读障碍的早期预测

批准号：30470574

批准年份：2004

负责人：舒华

学科分类：C0907

资助金额：24.00

项目类别：面上项目

面向复杂问题的汉语阅读理解研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

复杂系统科学研究进展

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

铁路大跨度简支钢桁梁桥车-桥耦合振动研究

谭红叶的其他基金

基于自动选择标注对象的汉语时间语义信息处理方法研究

相似国自然基金