文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术。文本自动分类的主要困难之一是特征空间的维数很高,为此特征选择是文本分类中的一个非常重要的步骤。在文本分类中,存在多个特征选择算法,而对这些特征选择算法的分析基本上是使用实验的手段,缺乏理论分析,本项目首先提出一种对特征选择算法进行形式化分析的方法,寻找特征选择算法需要满足的基本约束,在这组基本约束的基础上,构造高性能特征选择函数的通用方法;其次,由于已有的实验证明在不同的语料集(不同的数据分布)上,同一个特征选择方法表现出不同的性能,因此本项目提出鲁棒的特征选择方法是关于数据分布的一个函数,即,特征选择方法是由数据驱动的,从而提出数据驱动的特征选择方法。概括来说,本项目研究数据驱动的形式化特征选择方法。本项目的研究面对的是文本分类的核心问题,具有重要的研究价值,也具有广阔的应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
二维FM系统的同时故障检测与控制
信息熵-保真度联合度量函数的单幅图像去雾方法
高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析
基于直观图的三支概念获取及属性特征分析
数据驱动的机器学习软件系统的形式化需求建模工程方法
大数据驱动的空间选择行为机制研究
面向用户评论的复杂产品消费者偏好提取机制研究——基于数据驱动型特征选择的方法
高维数据特征选择的稳定性研究