文本自动分类在文本信息检索、Web搜索引擎、数字图书馆、知识管理、文本信息安全、个性化服务等现实应用中占有重要位置,前景十分广阔,因而成为当前自然语言处理与信息检索的研究前沿与热点之一。本项目将进行以下几方面的研究:一、以半自动的方式,建立一个世界上规模最大的文本分类用中文文本集(训练集和测试集)。二、在所建立的文本集上,对现有主流方法在训练集扩大1-2个数量级条件下的性质进行深入的实验研究。三、基本解决汉语自动分词在文本分类中的地位这一中文文本分类的最大困惑问题。四、对特征基本单元这一文本分类的最大困惑问题进行深入研究,探讨基于"适度理解"策略,即基于半结构化语言信息的方法在提高文本分类精确率上的效用。五、设计并实现一个中文文本分类系统,在本项目所建立的大规模中文文本集上的开放测试中,其F1值应达到90%以上,或者比通行的方法性能有显著提高。
{{i.achievement_title}}
数据更新时间:2023-05-31
TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络
GF-4序列图像的云自动检测
Design, synthesis and antimycobacterial activity of new benzothiazinones inspired by rifampicin/rifapentine
区块链技术:从数据智能到知识自动化
Effects of sediment burial disturbance on macro and microelement dynamics in decomposing litter of Phragmites australis in the coastal marsh of the Yellow River estuary, China
跨语言文本自动分类关键技术研究
中文文献自动分类技术研究
基于特征联想的中文短文本分类方法研究
中文情感资源自动构建的关键技术研究