特征选择是文本挖掘的关键问题,本项目拟对特征选择的两种关键技术,即特征降维和特征权重估算进行建模。针对计算复杂度高、容易陷入局部极值等问题提出基于机器学习和概率模型的特征选择新方法,主要包括如下内容:考虑特征之间的关联性,构建基于互信息和信息熵的特征选择模型;采用封装式选择方式前向选择策略,构造基于最小二乘支持向量机的特征选择方法;构造基于图挖掘算法的特征选择新方法,通过构造两种消息并反复迭代传递,选出最具有代表性的特征,迭代设定阈值,选择重要性排名靠前的属性作为文本挖掘的特征;把特征所属类别看成是可见的观察值,把离散的特征权值看成隐藏的状态,设计特征权值估计的概率模型;基于实数域粗糙集理论、引入特征对分类的决策信息作为分类指导,客观评估特征对分类的贡献程度。项目的完成对于文本特征研究具有重要的理论意义,对于提高文本分类和聚类等文本挖掘问题的效率及其在多个领域中的应用具有重要的现实意义。
本项目主要以文本挖掘中的特征降维和特征权重估计方法作为研究对象,对上述两种关键技术进行建模,并提出了新的基于机器学习的特征选择方法,解决计算复杂度高、容易陷入局部极值、特征集合冗余度大等关键问题,并对它们进行比较分析。采用互信息和信息论中的信息熵理论建立了特征选择模型,该理论模型既考虑特征对类别的相关程度,也考虑特征之间的冗余,使得在获得尽可能少的特征过程中减少特征之间的冗余。采用了最小二乘支持向量机进行特征选择,解决特征选择问题中的计算复杂度高、不宜推广的难题,在进行特征选择时采用封装式选择方式前向选择策略,依次选择剩余特征中对分类效果影响最大的加入选出的特征子集。将图挖掘算法引入到文本特征选择过程中,将语法、语义、词性等信息的有效利用有助于提高文本分类以及聚类的性能。采用实数域粗糙集理论,不需离散化决策表,把特征对分类的决策信息引入到特征权重估计,使得到的特征权值能够更加客观地表示特征对分类的贡献最终提高分类效率。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
空气电晕放电发展过程的特征发射光谱分析与放电识别
融合网络特征的文本观点挖掘
面向Web主观性文本意见挖掘研究
面向特定领域文本的知识元及其关联挖掘方法研究
文本语言特征对众筹项目融资效果的影响:基于文本挖掘的方法