面向高维数据集成降维的半监督聚类方法研究

基本信息

批准号：61105048

项目类别：青年科学基金项目

资助金额：24.00

负责人：曾洪

学科分类：

依托单位：东南大学

批准年份：2011

结题年份：2014

起止时间：2012-01-01 - 2014-12-31

项目状态：已结题

项目参与者：严如强,刘威,卢伟,陈晓颖,凌云,茅晨,谷士鹏

关键词：

集成降维半监督聚类高维数据成对约束

结项摘要

信息检索、生物信息计算学等领域的实际应用中常需要对高维数据进行聚类分析预处理，而无监督聚类难以提供准确快速的数据分组，极大地影响后续处理的性能。半监督聚类通过引入成对约束提供了判别信息，有助于减少不合理的划分；进一步对数据降维，可降低过学习风险和计算复杂度。与以往先降维再学习距离测度或聚类导致最终性能依赖于预先降维得到的子空间其质量的方法不同，本项目研究面向高维数据集成降维的半监督聚类方法：（一）如何实现不限定测度阵值空间、同时学习子空间和在该低维子空间的距离测度，为K均值聚类算法提供较精确的距离测度；（二）针对某些聚类算法，如何实现同时学习子空间和在该低维子空间中的聚类，以从理论上保证聚类性能在低维子空间可靠地提高以及算法收敛性；（三）针对一些恶化情形，如何使得上述方法鲁棒。本项目的研究将极大地改善对高维数据进行半监督聚类分析的准确性、效率及鲁棒性，为实际应用提供有效的聚类分析预处理。

项目摘要

信息检索、脑机接口等领域常需要对高维数据进行聚类或分类分析，但实际应用中对高维数据的分析常存在较大困难。这主要是因为，一方面，无监督聚类分析难以提供用户期望的数据分组，极大地影响对数据的理解。另一方面，由于高维数据存在“维数诅咒”问题，通常会造成分类模型出现过学习现象和计算复杂度偏高。目前研究者正主要通过以下两种途径进行重点研究，力图在理论和算法上实现突破：（1）在聚类分析中引入部分先验信息比如成对约束，即进行半监督聚类分析；(2)进行维数约减，降低过学习风险和计算复杂度。然而，现有半监督聚类算法利用监督信息的机制难以有效地将给定的少量成对约束推广到对整个数据集的划分，削弱了成对约束对聚类的指导作用。同时，目前绝大部分降维算法与后续的分类算法优化的不是同一个目标函数，难以保证分类算法在该维数约减的子空间中性能最优。因此，本项目开展了以下研究：（1）如何高效地利用成对约束指导聚类的机制；（2）如何实现同时学习子空间和在该低维子空间中的分类模型；（3）在实际应用中更加复杂恶化的情形下，如何提高聚类和分类算法的鲁棒性。.通过本基金的支持，本项目取得了如下成果：（1）基于最大间隔原理，设计了有效利用成对约束的机制，提出了一种针对两类聚类任务的半监督最大间隔聚类算法，并进一步推广到了针对多类聚类任务的半监督最大间隔聚类算法，显著地提高了在高维数据上的聚类分析准确度。（2）通过引入促进低秩矩阵的正则化因子，提出了一种集成降维的分类算法，实现了降维和分类模型优化同一目标函数，在脑电信号辨识的应用中其准确度明显优于以往“先降维后分类”的两步法。（3）针对真实的数据分布与假设的数据分布不同以及数据分组有严重的混叠现象的情形，基于完整似然最短信息长度准则，提出了一种鲁棒的高斯混合模型聚类算法；针对非平稳信号的辨识问题，通过进行平稳正则化，提出了一种鲁棒的矩阵Logistic回归分类算法。.本项目的研究将极大地改善对高维数据进行聚类/分类分析的准确性、效率及鲁棒性，为信息检索、脑机接口等领域的实际应用提供高效的分析工具。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：

发表时间：2021

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

曾洪的其他基金

批准号：61673105

批准年份：2016

资助金额：61.00

项目类别：面上项目

相似国自然基金

半监督半配对高维多表示数据的降维及拓展研究

批准号：61170151

批准年份：2011

负责人：陈松灿

学科分类：F0605

资助金额：57.00

项目类别：面上项目

面向金融大数据的半监督聚类集成挖掘关键技术研究

批准号：61572225

批准年份：2015

负责人：王丽敏

学科分类：F0214

资助金额：66.00

项目类别：面上项目

面向高维大数据的半监督学习关键问题研究

批准号：61772373

批准年份：2017

负责人：樊明宇

学科分类：F0605

资助金额：61.00

项目类别：面上项目

高维数据保真降维方法研究

批准号：61471182

批准年份：2014

负责人：祁云嵩

学科分类：F0113

资助金额：75.00

项目类别：面上项目

面向高维数据集成降维的半监督聚类方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

基于铁路客流分配的旅客列车开行方案调整方法

一种基于多层设计空间缩减策略的近似高维优化方法

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

曾洪的其他基金

上肢运动意图的脑电深度学习识别与任务导向递归贝叶斯估计解码研究

相似国自然基金