There is no clearly defined boundary between morphology and syntax in Chinese. This issue has led to serious performance bottlenecks in areas such as Chinese word segmentation, part-of-speech tagging and syntactic parsing of Chinese. This project aims to design a unified parsing model and algorithm for analyzing Chinese morphological and syntactic structures, thus removing the somewhat artificial boundary between words and phrases in Chinese. To achieve this goal, we will investigate systematically the framework of internal structures of words in Chinese, and come up with an annotation standard for annotating word structures. Based on this standard, we will annotate structures of about 60 to 80 thousand words of an existing Chinese treebank. Then we will design an effective unified parsing model both in constituent analysis framework and in dependency parsing framework, plus an efficient algorithm for parsing unsegmented Chinese sentences into their corresponding morphological and syntactic structures. The unified parsing framework of this project can not only provides more easy-to-use results of morphological and syntactic analysis, but also provides us with a unique opportunity for investigating the Chinese language through means of modeling and computing. Thus the success of this project will benefit both Chinese language engineering and scientific investigations of the Chinese language.
汉语中词法与句法的界限比较模糊,导致在分词、词性标注及句法分析等汉语处理的基础环节中均遇到性能瓶颈。本项目围绕汉语这一特点,实现词法与句法结构的统一分析,打破词法与句法在汉语自动分析技术中的人为分界。为此,本项目将深入考察汉语构词特点,研究词的内部结构体系以及词内部结构与短语结构的关系,制定完善的词语结构标注规范,并据此在已有树库上标注规模为6至8万词的结构,得到词法与句法结构一体化标注的树库。在此基础上,从成分分析与依存分析角度设计词法和句法结构的统一分析模型及相应分析算法,使得对于给定未分词的汉语句子,系统输出结果同时包含词法与句法结构。本项目所研究的词法与句法统一分析,不仅可以为中文信息处理系统提供便于使用、涵盖各种语言粒度、高效准确的词法和句法分析结果,而且还可以通过计算、建模手段,加深我们对汉语的理性认识,因此,实施本项目将具有工程实践和科学探索两方面的意义。
汉语中词法与句法的界限比较模糊,导致在分词、词性标注及句法分析等汉语处理的基础环节中均遇到性能瓶颈。本项目围绕汉语这一特点,实现词法与句法结构的统一分析,打破词法与句法在汉语自动分析技术中的人为分界。为此,本项目深入考察了汉语构词特点,通过研究词的内部结构体系以及词内部结构与短语结构的关系,制定了完善的词语结构标注规范,并据此在已有树库上标注了规模为6万多词的结构,得到了词法与句法结构一体化标注的树库。在此基础上,从成分分析与依存分析角度设计了词法和句法结构的统一分析模型及相应分析算法,使得对于给定未分词的汉语句子,系统输出结果同时包含词法与句法结构。本项目所研究的词法与句法统一分析,不仅可以为中文信息处理系统提供便于使用、涵盖各种语言粒度、高效准确的词法和句法分析结果,而且还可以通过计算、建模手段,加深我们对汉语的理性认识,因此,本项目具有工程实践和科学探索两方面的意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
藏语词法句法联合分析理论与方法研究
汉语句法结构和事件结构的联合分析研究
汉语跨标点句句法分析方法研究
知识驱动的汉语网络文本依存句法分析