目前,在机器翻译、语音识别、信息检索等应用系统的开发中,广泛地使用语料库。建设高质量的大规模语料库是中文信息处理领域的基础性工程。由于自动分词和词性标注的正确率达不到百分之百;人工校对语料时,校对者对分词单位和词性标注认识上存在着差异,造成语料加工结果不一致现象的存在。因此,研究语料库一致性检验技术是十分必要的,它不仅可以保证语料库加工的质量,也可以提高语料库加工的自动化程度,减轻人工校对的工作量。课题研究的内容有:研究语料库加工规范的分词模式、词性标注模式的形式和生成;一致性检验模式库的构建、维护、优化策略,模式的选择,模式匹配条件的确定;建立组合型歧义字段语言环境和兼类词语言环境模型;应用基于范例推理、粗糙集、分类、聚类和模式识别技术,获取分词与词性标注一致性检验知识库,研究一致性检验算法;开发分词与词性标注一致性检验软件,为建设高质量的大规模语料库提供有力的保证。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种基于多层设计空间缩减策略的近似高维优化方法
二维FM系统的同时故障检测与控制
具有随机多跳时变时延的多航天器协同编队姿态一致性
扶贫资源输入对贫困地区分配公平的影响
二叠纪末生物大灭绝后Skolithos遗迹化石的古环境意义:以豫西和尚沟组为例
汉语词义标注语料库的自动构建及一致性检验技术研究
中文网络文本的地理实体语义关系标注与评价
无监督分词及词性归纳联合方法研究
基于词语独异性特征的大规模词义标注语料库自动构建研究