针对语言成分省略问题的依存句法分析研究

基本信息
批准号:61673028
项目类别:面上项目
资助金额:61.00
负责人:孙栩
学科分类:
依托单位:北京大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:詹卫东,许晶晶,张晴,郑略省,文吉,黄申,罗帆
关键词:
网络短文本粗粒度到细粒度句法分析语言成分还原语言成分省略依存结构分析
结项摘要

With the development of WWW and the increase of the mobile clients, there is a rapid and impactful increase of short web texts. Due to the simpler annotation, more flexible structures, and larger application impact, dependency parsing has been a hot research topic in the field of syntactic parsing. However, for web texts, dependency parsing faces a major issue, because web short texts contains lots of language information omitting phenomenons. This is a major challenge for dependency parsing with web texts. To deal with this problem, we study the language information omitting problem, and build a dependency parsing system that can capture such information for better natural language understanding on web texts. The major research points are as follows: (1) Build a three stage description system for language information omitting from surface to core layers. (2) Study the intrinsic rule and scheme of language information omitting, build an annotation strategy, and construct a corpus. (3) Study the language information omitting based dependency parsing framework, and propose a Coarse-to-Fine strategy for restoring the omitted language components. (4) For large-scale web text data, build the language information omitting based dependency parser to improve the accuracy of web text NLP systems.

随着互联网的发展和移动用户的增加,互联网短文本急剧增长,影响日益广泛。因为标注简单、表达灵活、便于应用的优势,依存句法分析是目前句法分析的研究热点。但是针对网络文本,依存句法分析面临很大困难,主要难点之一是网络短文本存在大量语言成分省略问题,对依存句法分析提出了挑战。本项目针对网络短文本的语言成分省略问题,构建相应的依存句法分析系统,为网络文本分析和理解等应用探寻有效的技术手段。主要研究内容如下:(1)建立语言成分省略的描述体系,从表层到深层归纳为三个层次对问题进行描述;(2)研究网络文本中语言成分省略的机制和规律,提出一套语言成分识别和还原的标注规范,建立一定规模的语料库;(3)研究基于语言成分还原的依存句法分析框架,在结构化学习模型的基础上设计Coarse-to-Fine的语言成分还原架构;(4)针对大规模网络短文本数据,实现基于语言成分还原的依存句法分析系统,提高网络文本分析效果。

项目摘要

本项目的主要内容是针对语言成分省略问题的依存句法分析。围绕依存句法分析的模型基础和任务基础以及数据构建进行研究。该研究包含三个方面,一是进一步改进模型基础,二是任务基础以及数据构建,三是联合模型的相关理论研究。我们在依存句法分析上进行实验,能够明显提高句法分析的效果。针对成分省略问题的依存句法分析任务,需要进行前期处理工作。在给定中文网络文本的条件下,需要对中文文本进行浅层句法分析、命名实体识别和词性标注,这些基础性工作可以显著提高依存句法分析算法的准确率。我们对文本的浅层句法分析,命名实体识别、词性标注这些依存句法分析的必要前置任务进行了一些研究,提高了这些任务的效果,为后续的语言成分省略问题的依存句法分析这一任务的研究提供了任务基础,同时构建了相关数据集。相关论文发表在AAAI、ICML、COLING、 LREC等高水平学术会议上。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
3

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
4

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
5

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021

孙栩的其他基金

批准号:61300063
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

基于大规模无标注语料的跨领域跨语言汉语依存句法分析

批准号:61572338
批准年份:2015
负责人:陈文亮
学科分类:F0211
资助金额:63.00
项目类别:面上项目
2

知识驱动的汉语网络文本依存句法分析

批准号:61876116
批准年份:2018
负责人:李正华
学科分类:F0606
资助金额:64.00
项目类别:面上项目
3

汉英双语依存句法分析模型和算法研究

批准号:61203314
批准年份:2012
负责人:陈文亮
学科分类:F03
资助金额:24.00
项目类别:青年科学基金项目
4

基于大规模部分标注数据的依存句法分析

批准号:61502325
批准年份:2015
负责人:李正华
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目