中文文本自动分类关键技术研究

基本信息

批准号：60573187

项目类别：面上项目

资助金额：26.00

负责人：孙茂松

学科分类：

依托单位：清华大学

批准年份：2005

结题年份：2008

起止时间：2006-01-01 - 2008-12-31

项目状态：已结题

项目参与者：李景阳,乔维,司宪策,张正操,谢永芳,孙帆,徐枢

关键词：

大规模文本集中文文本自动分类半汉语自动分词汉字NGram

结项摘要

文本自动分类在文本信息检索、Web搜索引擎、数字图书馆、知识管理、文本信息安全、个性化服务等现实应用中占有重要位置，前景十分广阔，因而成为当前自然语言处理与信息检索的研究前沿与热点之一。本项目将进行以下几方面的研究：一、以半自动的方式，建立一个世界上规模最大的文本分类用中文文本集（训练集和测试集）。二、在所建立的文本集上，对现有主流方法在训练集扩大1-2个数量级条件下的性质进行深入的实验研究。三、基本解决汉语自动分词在文本分类中的地位这一中文文本分类的最大困惑问题。四、对特征基本单元这一文本分类的最大困惑问题进行深入研究，探讨基于"适度理解"策略，即基于半结构化语言信息的方法在提高文本分类精确率上的效用。五、设计并实现一个中文文本分类系统，在本项目所建立的大规模中文文本集上的开放测试中，其F1值应达到90%以上，或者比通行的方法性能有显著提高。

项目摘要

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16798/j.issn.1003-0530.2020.01.008

发表时间：2020

DOI：CNKI:SUN:YGXB.0.2018-01-012

发表时间：2018

DOI：10.1016/j.bioorg.2020.104135

发表时间：2020

DOI：

发表时间：2017

DOI：10.1007/s11356-015-5756-0

发表时间：2016

孙茂松的其他基金

批准号：60940025

批准年份：2009

资助金额：20.00

项目类别：专项基金项目

批准号：61170196

批准年份：2011

资助金额：60.00

项目类别：面上项目

批准号：69705005

批准年份：1997

资助金额：12.00

项目类别：青年科学基金项目

批准号：60873174

批准年份：2008

资助金额：32.00

项目类别：面上项目

批准号：60083005

批准年份：2000

资助金额：13.00

项目类别：专项基金项目

相似国自然基金

跨语言文本自动分类关键技术研究

批准号：60803050

批准年份：2008

负责人：代六玲

学科分类：F0211

资助金额：19.00

项目类别：青年科学基金项目

中文文献自动分类技术研究

批准号：69673011

批准年份：1996

负责人：刘开瑛

学科分类：F0211

资助金额：10.00

项目类别：面上项目

基于特征联想的中文短文本分类方法研究

批准号：60703010

批准年份：2007

负责人：樊兴华

学科分类：F0211

资助金额：21.00

项目类别：青年科学基金项目

中文情感资源自动构建的关键技术研究

批准号：61300156

批准年份：2013

负责人：徐戈

学科分类：F0211

资助金额：23.00

项目类别：青年科学基金项目

中文文本自动分类关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络

GF-4序列图像的云自动检测

Design, synthesis and antimycobacterial activity of new benzothiazinones inspired by rifampicin/rifapentine

区块链技术:从数据智能到知识自动化

Effects of sediment burial disturbance on macro and microelement dynamics in decomposing litter of Phragmites australis in the coastal marsh of the Yellow River estuary, China

孙茂松的其他基金

信息科学十二五学科发展战略研究

关键词抽取与社会标签推荐相结合的中文文本主题词自动标注方法研究

汉语句法排歧知识的自动获取方法研究

汉语复杂网络的性质、结构、演化及其典型应用研究

词汇、句法和语义—基于认知实验的汉语加工过程研究

相似国自然基金