面向文本挖掘的特征选择关键问题研究

基本信息
批准号:61163034
项目类别:地区科学基金项目
资助金额:49.00
负责人:裴志利
学科分类:
依托单位:内蒙古民族大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:姜静清,张昕红,赵海燕,周玉新,张智丰,赵海春,魏国利,王勋,赵灵会
关键词:
文本挖掘图挖掘特征选择信息熵实数域粗糙集
结项摘要

特征选择是文本挖掘的关键问题,本项目拟对特征选择的两种关键技术,即特征降维和特征权重估算进行建模。针对计算复杂度高、容易陷入局部极值等问题提出基于机器学习和概率模型的特征选择新方法,主要包括如下内容:考虑特征之间的关联性,构建基于互信息和信息熵的特征选择模型;采用封装式选择方式前向选择策略,构造基于最小二乘支持向量机的特征选择方法;构造基于图挖掘算法的特征选择新方法,通过构造两种消息并反复迭代传递,选出最具有代表性的特征,迭代设定阈值,选择重要性排名靠前的属性作为文本挖掘的特征;把特征所属类别看成是可见的观察值,把离散的特征权值看成隐藏的状态,设计特征权值估计的概率模型;基于实数域粗糙集理论、引入特征对分类的决策信息作为分类指导,客观评估特征对分类的贡献程度。项目的完成对于文本特征研究具有重要的理论意义,对于提高文本分类和聚类等文本挖掘问题的效率及其在多个领域中的应用具有重要的现实意义。

项目摘要

本项目主要以文本挖掘中的特征降维和特征权重估计方法作为研究对象,对上述两种关键技术进行建模,并提出了新的基于机器学习的特征选择方法,解决计算复杂度高、容易陷入局部极值、特征集合冗余度大等关键问题,并对它们进行比较分析。采用互信息和信息论中的信息熵理论建立了特征选择模型,该理论模型既考虑特征对类别的相关程度,也考虑特征之间的冗余,使得在获得尽可能少的特征过程中减少特征之间的冗余。采用了最小二乘支持向量机进行特征选择,解决特征选择问题中的计算复杂度高、不宜推广的难题,在进行特征选择时采用封装式选择方式前向选择策略,依次选择剩余特征中对分类效果影响最大的加入选出的特征子集。将图挖掘算法引入到文本特征选择过程中,将语法、语义、词性等信息的有效利用有助于提高文本分类以及聚类的性能。采用实数域粗糙集理论,不需离散化决策表,把特征对分类的决策信息引入到特征权重估计,使得到的特征权值能够更加客观地表示特征对分类的贡献最终提高分类效率。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
3

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

空气电晕放电发展过程的特征发射光谱分析与放电识别

空气电晕放电发展过程的特征发射光谱分析与放电识别

DOI:10.3964/j.issn.1000-0593(2022)09-2956-07
发表时间:2022

裴志利的其他基金

批准号:61672301
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:61373067
批准年份:2013
资助金额:77.00
项目类别:面上项目

相似国自然基金

1

融合网络特征的文本观点挖掘

批准号:61170156
批准年份:2011
负责人:王挺
学科分类:F0211
资助金额:56.00
项目类别:面上项目
2

面向Web主观性文本意见挖掘研究

批准号:61370137
批准年份:2013
负责人:牛振东
学科分类:F0211
资助金额:75.00
项目类别:面上项目
3

面向特定领域文本的知识元及其关联挖掘方法研究

批准号:60803079
批准年份:2008
负责人:刘均
学科分类:F0607
资助金额:20.00
项目类别:青年科学基金项目
4

文本语言特征对众筹项目融资效果的影响:基于文本挖掘的方法

批准号:71601082
批准年份:2016
负责人:王伟
学科分类:G0112
资助金额:17.00
项目类别:青年科学基金项目