与其它语言相比,汉语虚词在现代汉语中承担着尤其重要的语法表现和语义辨析任务。一般地,在句子中用错一个实词会造成一个词汇理解的错误,而用错一个虚词往往会造成整个句子甚至篇章的理解错误。因此,对现代汉语虚词用法的自动识别研究,将有助于现代汉语精确的机器理解,促进中文信息处理的相关研究。.现代汉语虚词的研究历史悠久,成果丰富。但是目前已有的虚词研究成果大都是面向人用的,很难直接应用于自然语言处理的研究。申请人从计算语言学的观点出发,根据目前汉语虚词知识的研究成果以及对《人民日报》中虚词用法的真实分布信息,着力改进现有的现代汉语虚词知识库,通过附加概率信息的虚词用法规则库,并利用ME、SVM以及CRF等统计模型,探讨规则与统计相结合的现代汉语虚词用法的自动识别。本项目研究成果可直接应用于机器翻译、信息检索、信息抽取、文本情感计算等自然语言处理领域,为中文文本内容的机器理解提供数据基础和技术支持。
在国家自然科学基金项目“规则与统计相结合的现代汉语虚词用法自动识别研究”(60970083)的资助下,郑州大学及北京大学的有关人员,经过多年的合作研究探索,在现代汉语虚词用法自动识别及相关知识库构建方面取得了较为丰富的研究成果。具体要点如下:. (1)将语言学理论与计算机应用的具体需求相结合,设计并构建了包括现代汉语虚词用法词典、现代汉语虚词用法规则库以及现代汉语虚词用法标注语料库三位一体的现代汉语虚词用法知识库,为中文信息处理的相关研究和应用提供数据基础。. (2)研究现代汉语虚词用法的自动识别技术,设计了现代汉语虚词用法自动标注系统,实现了规则模型、统计模型以及规则与统计相结合的模型及识别算法,提高了现代汉语虚词自动识别的准确率。. (3)研发虚词用法知识库辅助构建工具包、语料库自动标注工具包及知识库查询工具包,降低了知识库构建的人工投入,提高了质量,推广应用前景广阔。. (4)发表相关学术文章30余篇,相关研究成果通过河南省科学技术厅科技成果鉴定,鉴定意见为“国际先进”。培养青年教师及硕士研究生近20名。. 汉语虚词在现代汉语中承担着尤其重要的语法表现和语义辨析任务,现代汉语虚词用法的自动识别问题研究,是以现代汉语虚词知识库为基础,根据虚词在真实文本中的具体表现特征,人工总结其中的规律并进行形式化规则描述,再结合统计方法,对真实文本中汉语虚词用法进行机器学习,训练得到合适的语言模型,从而实现虚词用法的自动识别,对部分常用虚词用法的自动识别达到了80%以上准确率。本项目研究成果已初步应用于句法分析、情感计算、信息抽取、对外汉语教学等自然语言处理领域,为中文文本内容的机器理解提供了一定数据基础和技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
生物炭用量对东北黑土理化性质和溶解有机质特性的影响
基于关系对齐的汉语虚词抽象语义表示与分析
2007-2020中国探月工程VLBI测量数据集
面向行为安全的泛场景数据理论与应用研究
中国利率市场化阶段利率规则探究 ———基于对泰勒规则的扩展
统计和规则相结合的汉语韵律时域模型的研究
非规则制造特征的自动识别方法研究
我国动力统计相结合的年度预测方法研究
分区统计模型与迁移学习相结合的大型土遗址传感网定位方法研究