信息检索、生物信息计算学等领域的实际应用中常需要对高维数据进行聚类分析预处理,而无监督聚类难以提供准确快速的数据分组,极大地影响后续处理的性能。半监督聚类通过引入成对约束提供了判别信息,有助于减少不合理的划分;进一步对数据降维,可降低过学习风险和计算复杂度。与以往先降维再学习距离测度或聚类导致最终性能依赖于预先降维得到的子空间其质量的方法不同,本项目研究面向高维数据集成降维的半监督聚类方法:(一)如何实现不限定测度阵值空间、同时学习子空间和在该低维子空间的距离测度,为K均值聚类算法提供较精确的距离测度;(二)针对某些聚类算法,如何实现同时学习子空间和在该低维子空间中的聚类,以从理论上保证聚类性能在低维子空间可靠地提高以及算法收敛性;(三)针对一些恶化情形,如何使得上述方法鲁棒。本项目的研究将极大地改善对高维数据进行半监督聚类分析的准确性、效率及鲁棒性,为实际应用提供有效的聚类分析预处理。
信息检索、脑机接口等领域常需要对高维数据进行聚类或分类分析,但实际应用中对高维数据的分析常存在较大困难。这主要是因为,一方面,无监督聚类分析难以提供用户期望的数据分组,极大地影响对数据的理解。另一方面,由于高维数据存在“维数诅咒”问题,通常会造成分类模型出现过学习现象和计算复杂度偏高。目前研究者正主要通过以下两种途径进行重点研究,力图在理论和算法上实现突破:(1)在聚类分析中引入部分先验信息比如成对约束,即进行半监督聚类分析;(2)进行维数约减,降低过学习风险和计算复杂度。然而,现有半监督聚类算法利用监督信息的机制难以有效地将给定的少量成对约束推广到对整个数据集的划分,削弱了成对约束对聚类的指导作用。同时,目前绝大部分降维算法与后续的分类算法优化的不是同一个目标函数,难以保证分类算法在该维数约减的子空间中性能最优。因此,本项目开展了以下研究:(1)如何高效地利用成对约束指导聚类的机制;(2)如何实现同时学习子空间和在该低维子空间中的分类模型;(3)在实际应用中更加复杂恶化的情形下,如何提高聚类和分类算法的鲁棒性。.通过本基金的支持,本项目取得了如下成果:(1)基于最大间隔原理,设计了有效利用成对约束的机制,提出了一种针对两类聚类任务的半监督最大间隔聚类算法,并进一步推广到了针对多类聚类任务的半监督最大间隔聚类算法,显著地提高了在高维数据上的聚类分析准确度。(2)通过引入促进低秩矩阵的正则化因子,提出了一种集成降维的分类算法,实现了降维和分类模型优化同一目标函数,在脑电信号辨识的应用中其准确度明显优于以往“先降维后分类”的两步法。(3)针对真实的数据分布与假设的数据分布不同以及数据分组有严重的混叠现象的情形,基于完整似然最短信息长度准则,提出了一种鲁棒的高斯混合模型聚类算法;针对非平稳信号的辨识问题,通过进行平稳正则化,提出了一种鲁棒的矩阵Logistic回归分类算法。.本项目的研究将极大地改善对高维数据进行聚类/分类分析的准确性、效率及鲁棒性,为信息检索、脑机接口等领域的实际应用提供高效的分析工具。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于分形维数和支持向量机的串联电弧故障诊断方法
半监督半配对高维多表示数据的降维及拓展研究
面向金融大数据的半监督聚类集成挖掘关键技术研究
面向高维大数据的半监督学习关键问题研究
高维数据保真降维方法研究