大规模中文文本语料库分词与词性标注一致性检验技术研究

基本信息
批准号:60473139
项目类别:面上项目
资助金额:23.00
负责人:郑家恒
学科分类:
依托单位:山西大学
批准年份:2004
结题年份:2007
起止时间:2005-01-01 - 2007-12-31
项目状态: 已结题
项目参与者:安秋生,崔军,谭红叶,钱揖丽,张虎,刘江,宋礼鹏,王兴义
关键词:
语料加工规范模式分词一致性语言环境模型词性标注一致性
结项摘要

目前,在机器翻译、语音识别、信息检索等应用系统的开发中,广泛地使用语料库。建设高质量的大规模语料库是中文信息处理领域的基础性工程。由于自动分词和词性标注的正确率达不到百分之百;人工校对语料时,校对者对分词单位和词性标注认识上存在着差异,造成语料加工结果不一致现象的存在。因此,研究语料库一致性检验技术是十分必要的,它不仅可以保证语料库加工的质量,也可以提高语料库加工的自动化程度,减轻人工校对的工作量。课题研究的内容有:研究语料库加工规范的分词模式、词性标注模式的形式和生成;一致性检验模式库的构建、维护、优化策略,模式的选择,模式匹配条件的确定;建立组合型歧义字段语言环境和兼类词语言环境模型;应用基于范例推理、粗糙集、分类、聚类和模式识别技术,获取分词与词性标注一致性检验知识库,研究一致性检验算法;开发分词与词性标注一致性检验软件,为建设高质量的大规模语料库提供有力的保证。

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

一种基于多层设计空间缩减策略的近似高维优化方法

一种基于多层设计空间缩减策略的近似高维优化方法

DOI:10.1051/jnwpu/20213920292
发表时间:2021
2

二维FM系统的同时故障检测与控制

二维FM系统的同时故障检测与控制

DOI:10.16383/j.aas.c180673
发表时间:2021
3

具有随机多跳时变时延的多航天器协同编队姿态一致性

具有随机多跳时变时延的多航天器协同编队姿态一致性

DOI:10.7641/CTA.2018.70969
发表时间:2018
4

扶贫资源输入对贫困地区分配公平的影响

扶贫资源输入对贫困地区分配公平的影响

DOI:
发表时间:2020
5

二叠纪末生物大灭绝后Skolithos遗迹化石的古环境意义:以豫西和尚沟组为例

二叠纪末生物大灭绝后Skolithos遗迹化石的古环境意义:以豫西和尚沟组为例

DOI:10.7605/gdlxb.2022.03.033
发表时间:2022

郑家恒的其他基金

批准号:60775041
批准年份:2007
资助金额:28.00
项目类别:面上项目

相似国自然基金

1

汉语词义标注语料库的自动构建及一致性检验技术研究

批准号:60873013
批准年份:2008
负责人:张仰森
学科分类:F0201
资助金额:32.00
项目类别:面上项目
2

中文网络文本的地理实体语义关系标注与评价

批准号:41801320
批准年份:2018
负责人:余丽
学科分类:D0114
资助金额:23.40
项目类别:青年科学基金项目
3

无监督分词及词性归纳联合方法研究

批准号:61303105
批准年份:2013
负责人:王函石
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目
4

基于词语独异性特征的大规模词义标注语料库自动构建研究

批准号:60703063
批准年份:2007
负责人:吴云芳
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目