The unsupervised learning methods like fuzzy clustering have attracted more and more attentions because more unlabeled data are collected in the big data era. Traditional fuzzy clustering approaches cannot handle the nonlinear-separable and heterogeneous data very well and they are sensitive to the outliers. The spatial information in the data is also hard to be used in fuzzy clustering. Accordingly, this project focuses on multiple kernel rough fuzzy clustering for large data and its regularization by general spatial information. Here the usage of multiple kernel can tackle the problem of nonlinear-separable and heterogeneous data. And the rough fuzzy clustering can suppress the impacts of outliers. Except the first proposed multiple kernel rough fuzzy clustering, we also include the random features approach in the kernel clustering approach to handle large data. By doing this, the computational cost is decreased, and we are exposed to the approximated kernel space where we can subtly adjust or reduce the features to get better clustering results. In addition, we will study on embedding the general spatial information like the ones represented by graphs in the framework of rough fuzzy clustering. The spatial information will be added as a regularization term to enhance our rough fuzzy clustering approaches’ performance in temporal spatial data grouping and image segmentation problems. The results of this project are theoretical contributions to the research about automatic knowledge discovery in large unlabeled data and they also have great potential in real applications.
大数据中有大量无标记数据,所以非监督学习如模糊聚类方法越来越受到重视。传统模糊聚类方法对非线性可分和异构数据的分析能力较弱;对离群值比较敏感;对空间信息的使用不易。为此,本项目专注于针对大量数据的多核粗糙模糊聚类及其一般空间信息正则化。这里多核的使用能充分应对数据的非线性可分及异构问题。而粗糙模糊聚类对离群值有较好的抑制作用。考虑到大量数据的处理,我们除首次提出多核粗糙模糊聚类方法外还将利用随机特征来近似模拟核函数。这一方面减少了计算量,另一方面则可以在近似映射空间内直接操作不同的特征或进行特征约简,从而提升聚类的效果。此外我们还将研究如何将一般性的空间信息如由图描述的空间关系以正则化项的形式加入到粗糙模糊聚类,从而让我们的聚类方法能在图像分割,时空数据聚类等问题中获得更好的结果。本项目的研究成果对于开发针对大量非标记空间数据的自动知识发现方法具有重要的理论意义和广泛的应用价值。
大数据中有大量无标记数据,所以非监督学习如模糊聚类方法越来越受到重视。传统模糊聚类方法对非线性可分和异构数据的分析能力较弱;对离群值比较敏感;对空间信息的使用不易。为此,本项目专注于针对大量数据的多核粗糙模糊聚类及其一般空间信息正则化。..应对数据的非线性可分及异构问题,本项目成果实现了基于非监督随机森林和堆叠随机特征的多核构造方式和基于深度学习及宽度学习的特征提取方法。我们还通过开发新的集成模糊聚类和多视角模糊聚类来探索了异构数据的处理。针对异常点,我们考虑了基于阴影集的粗糙模糊聚类。考虑到大量数据的处理,我们除首次提出多核粗糙模糊聚类方法外还利用随机特征来近似模拟核函数。这一方面减少了计算量,另一方面则可以在近似映射空间内直接操作不同的特征或进行特征约简,从而提升聚类的效果。我们探索了多种特征约减方法。此外我们还将一般性的空间信息如由图描述的空间关系以基于LASSO或者导向滤波的正则化项的形式加入到模糊聚类,从而让我们的聚类方法能在图像分割,高维数据聚类等问题中获得了更好的结果。..本项目的研究成果对于开发针对大量非标记数据的自动知识发现方法具有重要的理论意义和广泛的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
三级硅基填料的构筑及其对牙科复合树脂性能的影响
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
气力式包衣杂交稻单粒排种器研制
计及焊层疲劳影响的风电变流器IGBT 模块热分析及改进热网络模型
基于相似日理论和CSO-WGPR的短期光伏发电功率预测
正则化联合矩阵张量分解模型及其在多视角聚类中应用
直觉模糊聚类理论及其应用
面向异构信息网络中实体归类的模糊聚类
基于划分的一般聚类模型研究