With the development of WWW and the increase of the mobile clients, there is a rapid and impactful increase of short web texts. Due to the simpler annotation, more flexible structures, and larger application impact, dependency parsing has been a hot research topic in the field of syntactic parsing. However, for web texts, dependency parsing faces a major issue, because web short texts contains lots of language information omitting phenomenons. This is a major challenge for dependency parsing with web texts. To deal with this problem, we study the language information omitting problem, and build a dependency parsing system that can capture such information for better natural language understanding on web texts. The major research points are as follows: (1) Build a three stage description system for language information omitting from surface to core layers. (2) Study the intrinsic rule and scheme of language information omitting, build an annotation strategy, and construct a corpus. (3) Study the language information omitting based dependency parsing framework, and propose a Coarse-to-Fine strategy for restoring the omitted language components. (4) For large-scale web text data, build the language information omitting based dependency parser to improve the accuracy of web text NLP systems.
随着互联网的发展和移动用户的增加,互联网短文本急剧增长,影响日益广泛。因为标注简单、表达灵活、便于应用的优势,依存句法分析是目前句法分析的研究热点。但是针对网络文本,依存句法分析面临很大困难,主要难点之一是网络短文本存在大量语言成分省略问题,对依存句法分析提出了挑战。本项目针对网络短文本的语言成分省略问题,构建相应的依存句法分析系统,为网络文本分析和理解等应用探寻有效的技术手段。主要研究内容如下:(1)建立语言成分省略的描述体系,从表层到深层归纳为三个层次对问题进行描述;(2)研究网络文本中语言成分省略的机制和规律,提出一套语言成分识别和还原的标注规范,建立一定规模的语料库;(3)研究基于语言成分还原的依存句法分析框架,在结构化学习模型的基础上设计Coarse-to-Fine的语言成分还原架构;(4)针对大规模网络短文本数据,实现基于语言成分还原的依存句法分析系统,提高网络文本分析效果。
本项目的主要内容是针对语言成分省略问题的依存句法分析。围绕依存句法分析的模型基础和任务基础以及数据构建进行研究。该研究包含三个方面,一是进一步改进模型基础,二是任务基础以及数据构建,三是联合模型的相关理论研究。我们在依存句法分析上进行实验,能够明显提高句法分析的效果。针对成分省略问题的依存句法分析任务,需要进行前期处理工作。在给定中文网络文本的条件下,需要对中文文本进行浅层句法分析、命名实体识别和词性标注,这些基础性工作可以显著提高依存句法分析算法的准确率。我们对文本的浅层句法分析,命名实体识别、词性标注这些依存句法分析的必要前置任务进行了一些研究,提高了这些任务的效果,为后续的语言成分省略问题的依存句法分析这一任务的研究提供了任务基础,同时构建了相关数据集。相关论文发表在AAAI、ICML、COLING、 LREC等高水平学术会议上。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于大规模无标注语料的跨领域跨语言汉语依存句法分析
知识驱动的汉语网络文本依存句法分析
汉英双语依存句法分析模型和算法研究
基于大规模部分标注数据的依存句法分析