面向文本挖掘的特征选择关键问题研究

基本信息

批准号：61163034

项目类别：地区科学基金项目

资助金额：49.00

负责人：裴志利

学科分类：

依托单位：内蒙古民族大学

批准年份：2011

结题年份：2015

起止时间：2012-01-01 - 2015-12-31

项目状态：已结题

项目参与者：姜静清,张昕红,赵海燕,周玉新,张智丰,赵海春,魏国利,王勋,赵灵会

关键词：

文本挖掘图挖掘特征选择信息熵实数域粗糙集

结项摘要

特征选择是文本挖掘的关键问题，本项目拟对特征选择的两种关键技术，即特征降维和特征权重估算进行建模。针对计算复杂度高、容易陷入局部极值等问题提出基于机器学习和概率模型的特征选择新方法，主要包括如下内容：考虑特征之间的关联性，构建基于互信息和信息熵的特征选择模型；采用封装式选择方式前向选择策略，构造基于最小二乘支持向量机的特征选择方法；构造基于图挖掘算法的特征选择新方法，通过构造两种消息并反复迭代传递，选出最具有代表性的特征，迭代设定阈值，选择重要性排名靠前的属性作为文本挖掘的特征；把特征所属类别看成是可见的观察值，把离散的特征权值看成隐藏的状态，设计特征权值估计的概率模型；基于实数域粗糙集理论、引入特征对分类的决策信息作为分类指导，客观评估特征对分类的贡献程度。项目的完成对于文本特征研究具有重要的理论意义，对于提高文本分类和聚类等文本挖掘问题的效率及其在多个领域中的应用具有重要的现实意义。

项目摘要

本项目主要以文本挖掘中的特征降维和特征权重估计方法作为研究对象，对上述两种关键技术进行建模，并提出了新的基于机器学习的特征选择方法，解决计算复杂度高、容易陷入局部极值、特征集合冗余度大等关键问题，并对它们进行比较分析。采用互信息和信息论中的信息熵理论建立了特征选择模型，该理论模型既考虑特征对类别的相关程度，也考虑特征之间的冗余，使得在获得尽可能少的特征过程中减少特征之间的冗余。采用了最小二乘支持向量机进行特征选择，解决特征选择问题中的计算复杂度高、不宜推广的难题，在进行特征选择时采用封装式选择方式前向选择策略，依次选择剩余特征中对分类效果影响最大的加入选出的特征子集。将图挖掘算法引入到文本特征选择过程中，将语法、语义、词性等信息的有效利用有助于提高文本分类以及聚类的性能。采用实数域粗糙集理论，不需离散化决策表，把特征对分类的决策信息引入到特征权重估计，使得到的特征权值能够更加客观地表示特征对分类的贡献最终提高分类效率。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：

发表时间：2020

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.3778/j.issn.1673-9418.2104120

发表时间：

裴志利的其他基金

批准号：61672301

批准年份：2016

资助金额：62.00

项目类别：面上项目

批准号：61373067

批准年份：2013

资助金额：77.00

项目类别：面上项目

相似国自然基金

融合网络特征的文本观点挖掘

批准号：61170156

批准年份：2011

负责人：王挺

学科分类：F0211

资助金额：56.00

项目类别：面上项目

面向Web主观性文本意见挖掘研究

批准号：61370137

批准年份：2013

负责人：牛振东

学科分类：F0211

资助金额：75.00

项目类别：面上项目

面向特定领域文本的知识元及其关联挖掘方法研究

批准号：60803079

批准年份：2008

负责人：刘均

学科分类：F0607

资助金额：20.00

项目类别：青年科学基金项目

文本语言特征对众筹项目融资效果的影响：基于文本挖掘的方法

批准号：71601082

批准年份：2016

负责人：王伟

学科分类：G0112

资助金额：17.00

项目类别：青年科学基金项目

面向文本挖掘的特征选择关键问题研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于多色集合理论的医院异常工作流处理建模

信息熵-保真度联合度量函数的单幅图像去雾方法

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

基于直观图的三支概念获取及属性特征分析

裴志利的其他基金

基于深度学习的文本和语音多模态数据挖掘研究

基于深度学习和主题模型的文本特征提取方法研究

相似国自然基金