中文文本自动分类关键技术研究

基本信息
批准号:60573187
项目类别:面上项目
资助金额:26.00
负责人:孙茂松
学科分类:
依托单位:清华大学
批准年份:2005
结题年份:2008
起止时间:2006-01-01 - 2008-12-31
项目状态: 已结题
项目参与者:李景阳,乔维,司宪策,张正操,谢永芳,孙帆,徐枢
关键词:
大规模文本集中文文本自动分类汉语自动分词汉字NGram
结项摘要

文本自动分类在文本信息检索、Web搜索引擎、数字图书馆、知识管理、文本信息安全、个性化服务等现实应用中占有重要位置,前景十分广阔,因而成为当前自然语言处理与信息检索的研究前沿与热点之一。本项目将进行以下几方面的研究:一、以半自动的方式,建立一个世界上规模最大的文本分类用中文文本集(训练集和测试集)。二、在所建立的文本集上,对现有主流方法在训练集扩大1-2个数量级条件下的性质进行深入的实验研究。三、基本解决汉语自动分词在文本分类中的地位这一中文文本分类的最大困惑问题。四、对特征基本单元这一文本分类的最大困惑问题进行深入研究,探讨基于"适度理解"策略,即基于半结构化语言信息的方法在提高文本分类精确率上的效用。五、设计并实现一个中文文本分类系统,在本项目所建立的大规模中文文本集上的开放测试中,其F1值应达到90%以上,或者比通行的方法性能有显著提高。

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络

TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络

DOI:10.16798/j.issn.1003-0530.2020.01.008
发表时间:2020
2

GF-4序列图像的云自动检测

GF-4序列图像的云自动检测

DOI:CNKI:SUN:YGXB.0.2018-01-012
发表时间:2018
3

Design, synthesis and antimycobacterial activity of new benzothiazinones inspired by rifampicin/rifapentine

Design, synthesis and antimycobacterial activity of new benzothiazinones inspired by rifampicin/rifapentine

DOI:10.1016/j.bioorg.2020.104135
发表时间:2020
4

区块链技术:从数据智能到知识自动化

区块链技术:从数据智能到知识自动化

DOI:
发表时间:2017
5

Effects of sediment burial disturbance on macro and microelement dynamics in decomposing litter of Phragmites australis in the coastal marsh of the Yellow River estuary, China

Effects of sediment burial disturbance on macro and microelement dynamics in decomposing litter of Phragmites australis in the coastal marsh of the Yellow River estuary, China

DOI:10.1007/s11356-015-5756-0
发表时间:2016

孙茂松的其他基金

批准号:60940025
批准年份:2009
资助金额:20.00
项目类别:专项基金项目
批准号:61170196
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:69705005
批准年份:1997
资助金额:12.00
项目类别:青年科学基金项目
批准号:60873174
批准年份:2008
资助金额:32.00
项目类别:面上项目
批准号:60083005
批准年份:2000
资助金额:13.00
项目类别:专项基金项目

相似国自然基金

1

跨语言文本自动分类关键技术研究

批准号:60803050
批准年份:2008
负责人:代六玲
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目
2

中文文献自动分类技术研究

批准号:69673011
批准年份:1996
负责人:刘开瑛
学科分类:F0211
资助金额:10.00
项目类别:面上项目
3

基于特征联想的中文短文本分类方法研究

批准号:60703010
批准年份:2007
负责人:樊兴华
学科分类:F0211
资助金额:21.00
项目类别:青年科学基金项目
4

中文情感资源自动构建的关键技术研究

批准号:61300156
批准年份:2013
负责人:徐戈
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目