Semantic parsing is the task of mapping a natural language sentence into a complete, formal meaning representation in a meaning representation language, which is a formal unambiguous language that allows for automated inference and processing. Considering the drawbacks of feature engineering methods in the discriminative models and the actual needs of implementing the natural language interfaces for the GIS systems, this project explores a new way of semantic parsing based on automatic feature learning under a new compositional vector framework in deep learning. To this end, we first need to design a new construction mechanism that can not only bridge the gap between the natural language sentence and the corresponding formal meaning representation, but also capture the syntactic information of the sentence. Then, by viewing the proposed construction mechanism as a latent variable, we exploit a deep learning model that jointly learn compositional vector representation and structural prediction to implement an effective semantic parsing system. The main research contents of this project are: the construction of a large-scale corpus for semantic parsing, the design of a new construction mechanism, the selection and design of neural network models for word vector learning, modeling the compositional vector learning using the multi-layer neural network and the design of the corresponding inference and learning algorithms, and the final application and testing of the proposed semantic parsing models and algorithms in actual GIS systems.
语义解析的目标是将自然语言形式的句子转换成一种完全形式化的意义表示,从而使得自然语言句子能被计算机自动理解和执行。本项目面向实现中文GIS自然语言接口的实际应用需求,针对现有的判别式语义解析模型中特征工程方法的不足,探索在深度学习的向量组合学习框架下基于特征向量的自动学习实现语义解析的新途径。为此,首先需要设计一种新的树型构造机制,使之既能灵活地桥接自然语言句子与形式化语义表示之间的对应性,又能反映句子的句法结构;然后视之为隐变量,使用一种基于向量组合计算和结构化预测的联合学习方法,通过综合利用隐变量中的句法结构信息和分布式的词、短语向量中语义信息,实现更有效的语义解析方法。主要研究内容包括:大规模中文语义解析语料库建设、作为隐变量的树型构造机制的设计、中文词向量学习模型的选择与设计、向量组合学习框架下多层神经网络的建模、相应的推导和学习算法的设计,以及在中文GIS系统中的实际测试与应用。
自然语言处理领域的一个重要研究问题是如何使计算机能够准确地理解自然语言句子中所包含的完整语义信息。传统的语义解析任务大多是针对一个特定的具体领域设计和定制一种形式化意义表示规范,近年来提出的一种抽象语义表示规范AMR采用一种新颖的图结构表示句子的语义信息,且具有领域无关性的特性,在国际上受到了广泛的关注,但目前国内外针对中文AMR的相关研究较少。因此,本项目主要从中文抽象语义表示标注语料库的开发、基于深度学习的句子抽象语义表示分析模型与算法的设计和基于中文抽象语义表示标注语料的实验研究等三个方面展开研究工作。. 首先,我们根据抽象语义表示的基本理论和原则,结合汉语的特点,同时参考英文抽象语义表示的规范定义描述文档,设计和制定汉语的标注规范,并在此基础上开发了一个较大规模中文抽象语义表示标注语料库。. 其次,在语义解析模型与算法的设计方面,首先针对管道分析模型JAMR的不足,提出和设计了一种基于增量式联合模型的AMR分析算法,实现了对概念识别和概念关系识别的联合分析与处理,该算法相对于传统的管道模型获得了显著的性能改进;然后,在现有的混合树结构的基础上,我们提出一种新的神经混合树的神经图模型用于语义解析任务,将一个神经网络集成到一个隐变量模型中;进一步提出一种新的基于依存的混合树结构实现对词和语义的更有效的联合表示,并将此模型与神经网络进行集成,在公共数据集GeoQuery上的实验结果显示了相比其它模型更好的分析性能。. 最后,在中文抽象语义表示标注语料库的基础上,对中文抽象语义表示的解析问题开展实验性研究,设计与实现了一种基于转移神经网络的中文AMR解析算法,在中文AMR解析任务中达到了0.61的Smatch F1值,取得了较好的语义分析性能;同时针对中文的命名实体识别、未登录词的词义预测、依存分析与成分句法分析等语义解析的预处理问题也进行了一系列研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于FTA-BN模型的页岩气井口装置失效概率分析
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
中文语义依存分析资源构建及分析技术研究
基于字依存的中文精细结构标注及其学习算法研究
面向中文文本的事件时空语义解析方法研究
基于词汇语义网络的中文深层语义分析