Clustering analysis aims to separate similar data points into the same cluster and dissimilar data points into different clusters based on their similarity. One key to clustering is to handle high dimensional data without the help of human annotations. To solve this issue, we propose to achieve data clustering with deep neural networks in three-fold. First, new autoencoders will be proposed, which incorporates the clustering-oriented globality and the minimal description length based locality. Second, nonlinear subspace clustering will be investigated to overcome the demerit of most existing subspace clustering methods, i.e., the input data points are required to linear represent each other in the input space. Third, differentiable programming will be conducted to design new neural networks for clustering by recasting some existing clustering methods as novel neural networks. Such a reformulation will be a feasible way to enjoy a better clustering performance thanks to end-to-end optimization in representation learning and clustering. In summary, these three aspects will not only provide new methods to effectively clustering high dimensional data, but also give novel insights to develop unsupervised deep learning from the view of clustering.
聚类分析(Clustering)是一种重要的无监督数据分析方法,是机器学习及数据挖掘等研究领域的一个重要基础研究方向。聚类当前的挑战是高维数据聚类,本质是研究如何对线性不可分数据进行聚类。针对这一难题,我们拟采用深度神经网络方法研究。具体地:1)针对自编码机仅考虑基于单样本重构的局限性,提出考虑聚类全局性的自编码机,使得学到的数据表示能更好地用于聚类;2)针对现有大多数子空间聚类算法在不满足线性表示假设时将失效的问题,提出基于深度神经网络的非线性子空间聚类算法,使得分布在非线性子空间中的数据也能被正确的聚类;3)针对当前神经网络不能端到端聚类的问题,通过可微编程设计新的神经网络,使得基于神经网络的表示学习和基于神经网络的聚类能统一到一个框架下从而得到更好的聚类结果。上述三方面的研究,不但能为高维数据聚类提供新的有效的技术手段,也能为无监督深度神经网络研究从聚类角度提供新的研究思路。
聚类分析(Clustering Analysis)是一类重要的无监督数据分析方法,是机器学习及数据挖掘等领域的一个重要研究方向。聚类分析当前面临的主要挑战是高维数据聚类,本质是研究如何对高维线性不可分数据进行聚类。针对这一挑战,我们在本项目中采用了深度神经网络方法进行研究。具体如下,1)针对自编码器仅考虑基于单样本重构的局限性,提出了考虑聚类全局性的自编码器,使得学到的数据表示能更好地用于聚类;2)针对现有大多数子空间聚类算法在不满足线性表示假设时将失效的问题,提出了基于深度神经网络的非线性子空间聚类算法,使得分布在非线性子空间中的数据也能被正确的聚类;3)针对当前神经网络不能端到端聚类的问题,通过可微编程设计新的神经网络,使得基于神经网络的表示学习和基于神经网络的聚类能统一到一个框架下从而得到更好的聚类结果。上述三方面的研究内容,不仅能为高维数据聚类提供新的有效技术手段,还能为无监督深度神经网络研究从聚类角度提供新的研究思路。截止项目结题,在本项目的支持下,项目组在IEEE TPAMI、IEEE TNNLS、IEEE TIFS等人工智能领域重要期刊上发表SCI学术论文11篇,在ICML、CVPR、ICCV、AAAI等人工智能领域国际重要会议上发表学术论文5篇,申请专利5项,培养研究生6名。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
粗颗粒土的静止土压力系数非线性分析与计算方法
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于约束的高维数据聚类
聚类导向的字典学习及基于稀疏表示的高维数据聚类研究
基于超图的高维聚类和高维匹配统一框架的研究
高维稀疏数据聚类研究