汉语词法与句法结构的统一分析

基本信息
批准号:61202162
项目类别:青年科学基金项目
资助金额:23.00
负责人:李中国
学科分类:
依托单位:苏州大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:朱晓旭,孙静,谷晶晶,方艳,陈站成
关键词:
词法结构体系词法分析句法分析统一分析模型
结项摘要

There is no clearly defined boundary between morphology and syntax in Chinese. This issue has led to serious performance bottlenecks in areas such as Chinese word segmentation, part-of-speech tagging and syntactic parsing of Chinese. This project aims to design a unified parsing model and algorithm for analyzing Chinese morphological and syntactic structures, thus removing the somewhat artificial boundary between words and phrases in Chinese. To achieve this goal, we will investigate systematically the framework of internal structures of words in Chinese, and come up with an annotation standard for annotating word structures. Based on this standard, we will annotate structures of about 60 to 80 thousand words of an existing Chinese treebank. Then we will design an effective unified parsing model both in constituent analysis framework and in dependency parsing framework, plus an efficient algorithm for parsing unsegmented Chinese sentences into their corresponding morphological and syntactic structures. The unified parsing framework of this project can not only provides more easy-to-use results of morphological and syntactic analysis, but also provides us with a unique opportunity for investigating the Chinese language through means of modeling and computing. Thus the success of this project will benefit both Chinese language engineering and scientific investigations of the Chinese language.

汉语中词法与句法的界限比较模糊,导致在分词、词性标注及句法分析等汉语处理的基础环节中均遇到性能瓶颈。本项目围绕汉语这一特点,实现词法与句法结构的统一分析,打破词法与句法在汉语自动分析技术中的人为分界。为此,本项目将深入考察汉语构词特点,研究词的内部结构体系以及词内部结构与短语结构的关系,制定完善的词语结构标注规范,并据此在已有树库上标注规模为6至8万词的结构,得到词法与句法结构一体化标注的树库。在此基础上,从成分分析与依存分析角度设计词法和句法结构的统一分析模型及相应分析算法,使得对于给定未分词的汉语句子,系统输出结果同时包含词法与句法结构。本项目所研究的词法与句法统一分析,不仅可以为中文信息处理系统提供便于使用、涵盖各种语言粒度、高效准确的词法和句法分析结果,而且还可以通过计算、建模手段,加深我们对汉语的理性认识,因此,实施本项目将具有工程实践和科学探索两方面的意义。

项目摘要

汉语中词法与句法的界限比较模糊,导致在分词、词性标注及句法分析等汉语处理的基础环节中均遇到性能瓶颈。本项目围绕汉语这一特点,实现词法与句法结构的统一分析,打破词法与句法在汉语自动分析技术中的人为分界。为此,本项目深入考察了汉语构词特点,通过研究词的内部结构体系以及词内部结构与短语结构的关系,制定了完善的词语结构标注规范,并据此在已有树库上标注了规模为6万多词的结构,得到了词法与句法结构一体化标注的树库。在此基础上,从成分分析与依存分析角度设计了词法和句法结构的统一分析模型及相应分析算法,使得对于给定未分词的汉语句子,系统输出结果同时包含词法与句法结构。本项目所研究的词法与句法统一分析,不仅可以为中文信息处理系统提供便于使用、涵盖各种语言粒度、高效准确的词法和句法分析结果,而且还可以通过计算、建模手段,加深我们对汉语的理性认识,因此,本项目具有工程实践和科学探索两方面的意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

李中国的其他基金

相似国自然基金

1

藏语词法句法联合分析理论与方法研究

批准号:61602387
批准年份:2016
负责人:万福成
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
2

汉语句法结构和事件结构的联合分析研究

批准号:61772378
批准年份:2017
负责人:姬东鸿
学科分类:F0211
资助金额:60.00
项目类别:面上项目
3

汉语跨标点句句法分析方法研究

批准号:60872121
批准年份:2008
负责人:宋柔
学科分类:F0113
资助金额:30.00
项目类别:面上项目
4

知识驱动的汉语网络文本依存句法分析

批准号:61876116
批准年份:2018
负责人:李正华
学科分类:F0606
资助金额:64.00
项目类别:面上项目