Machine reading and comprehension is one of the ultimate tasks in NLP, which has been used to evaluate a machine in text understanding. Most of the current researches are based on some datasets (e.g. MCTest), in whichthe texts andthe questions are easy, and fail to capture the complexity and ambiguity of natural language. Therefore, the relative approaches cannot be successfully used in real natural language. In this project, our goal is teaching machines to read, comprehend and answer complex questions under the same conditions as humans. We will focus on sentence semantic analysis, especially implicit information resolution, discourse analysis based on semantic segments。We will seek to find a question answering approach using semantic information of lexicons, sentences and discourses to address the different expressions of the same meaning in questionsand texts. We also seek to develop a model based deep neutral networks to answer complex questions. We believe our works in this project will provide new solutions and ideas for machine reading comprehension.
阅读理解是NLP领域的一项高级复杂任务,是机器理解文本能力的重要反映,其研究对促进自然语言理解的发展有重要意义。但目前研究所基于的语料(如:MCTest)内容与问题都比较简单,不能反映自然语言的歧义性和复杂性,因此所提模型很难顺利应用到复杂多变的真实语料中。本项目旨在面向人类真实阅读场景,研究面向阅读理解复杂问题解答的深层语言分析技术,探讨句子语义信息分析,尤其是隐含信息的显式化;研究基于语义片段进行语篇宏观信息分析的方法;并在此基础上,研究一种融合词义、句义、语篇信息的解题策略,以克服问题表述与原文存在的语义鸿沟;针对复杂的问答题,探讨基于神经网络推理模型的解答方案。为汉语阅读理解提供新的研究思路和方法。
机器阅读理解可以客观地反映语言智能技术取得的进展,其研究对促进自然语言理解的发展具有重要意义。虽然系统目前在一些数据集上已取得较好结果,但机器对语言的理解能力与人的预期还相差很远,一个重要原因就是数据集挑战性不够,使得模型缺乏解决复杂问题的能力。因此,本项目面向人类真实阅读场景复杂问题的解答技术,从以下几方面进行研究:.在阅读理解核心技术方面,针对问题理解、篇章理解、问题解答开展研究。(1)通过识别问题类型、问题主题和问题焦点,并引入重要词字典释义、Hownet义原等手段加强问题理解;(2)使用层级篇章表示加强篇章理解;(3)针对句子融合、文本生成等答案生成技术进行研究。.在复杂问题解答方面,主要围绕近几年北京高考阅读理解典型题目进行研究。(1)针对词义辨析题,提出了基于支持度计算的解决策略。(2)针对词义解释题,采用基于VAE-Transformer框架的解答策略,更好地捕捉对词语意义具有不同贡献的上下文信息。(3)针对观点评述题,提出基于篇章主题分析的解决策略。(4)针对问答题,提出基于候选句抽取-句子融合的解答框架,句子融合模块采用整数线性规划策略,兼顾信息量、问题关联度与句子流畅度。.在可解释评价方面,主要针对数据集可解释性不足,无法评价模型回答问题的中间过程进行研究。基于高考阅读理解题目构建了一个更具挑战性的数据集,通过在数据集中标注额外信息,要求系统输出这些信息来实现对系统中间推理过程的可解释评价。具体引入标注了三种信息:回答问题所需的证据句、不正确选项的错误原因、回答问题所需的推理能力。.本项目聚焦复杂问题解答技术,大量的实验表明,在问题理解、篇章理解、融合与生成、可解释评价方面提出的方法取得了明显有效的成果。通过本项目的研究,不仅可以促进汉语阅读理解技术的进步,而且进一步深刻洞察了机器在语义推理与答案生成方面的缺陷与关键问题,为未来深入开展汉语阅读理解技术的研究,推进自然语言理解技术的全面发展奠定了坚实的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
面向移动阅读的复杂文档图像理解方法研究
面向汉语理解的短语信息库的构造
面向汉语文本理解的语义计算方法
汉语儿童阅读发展与阅读障碍的早期预测