基于深度神经网络的高维聚类研究

基本信息
批准号:61806135
项目类别:青年科学基金项目
资助金额:25.00
负责人:彭玺
学科分类:
依托单位:四川大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:郭际香,陈媛媛,甄亮利,胡鹏,王旭,黄振宇
关键词:
基于深度学习的聚类子空间聚类谱聚类基于模型的聚类
结项摘要

Clustering analysis aims to separate similar data points into the same cluster and dissimilar data points into different clusters based on their similarity. One key to clustering is to handle high dimensional data without the help of human annotations. To solve this issue, we propose to achieve data clustering with deep neural networks in three-fold. First, new autoencoders will be proposed, which incorporates the clustering-oriented globality and the minimal description length based locality. Second, nonlinear subspace clustering will be investigated to overcome the demerit of most existing subspace clustering methods, i.e., the input data points are required to linear represent each other in the input space. Third, differentiable programming will be conducted to design new neural networks for clustering by recasting some existing clustering methods as novel neural networks. Such a reformulation will be a feasible way to enjoy a better clustering performance thanks to end-to-end optimization in representation learning and clustering. In summary, these three aspects will not only provide new methods to effectively clustering high dimensional data, but also give novel insights to develop unsupervised deep learning from the view of clustering.

聚类分析(Clustering)是一种重要的无监督数据分析方法,是机器学习及数据挖掘等研究领域的一个重要基础研究方向。聚类当前的挑战是高维数据聚类,本质是研究如何对线性不可分数据进行聚类。针对这一难题,我们拟采用深度神经网络方法研究。具体地:1)针对自编码机仅考虑基于单样本重构的局限性,提出考虑聚类全局性的自编码机,使得学到的数据表示能更好地用于聚类;2)针对现有大多数子空间聚类算法在不满足线性表示假设时将失效的问题,提出基于深度神经网络的非线性子空间聚类算法,使得分布在非线性子空间中的数据也能被正确的聚类;3)针对当前神经网络不能端到端聚类的问题,通过可微编程设计新的神经网络,使得基于神经网络的表示学习和基于神经网络的聚类能统一到一个框架下从而得到更好的聚类结果。上述三方面的研究,不但能为高维数据聚类提供新的有效的技术手段,也能为无监督深度神经网络研究从聚类角度提供新的研究思路。

项目摘要

聚类分析(Clustering Analysis)是一类重要的无监督数据分析方法,是机器学习及数据挖掘等领域的一个重要研究方向。聚类分析当前面临的主要挑战是高维数据聚类,本质是研究如何对高维线性不可分数据进行聚类。针对这一挑战,我们在本项目中采用了深度神经网络方法进行研究。具体如下,1)针对自编码器仅考虑基于单样本重构的局限性,提出了考虑聚类全局性的自编码器,使得学到的数据表示能更好地用于聚类;2)针对现有大多数子空间聚类算法在不满足线性表示假设时将失效的问题,提出了基于深度神经网络的非线性子空间聚类算法,使得分布在非线性子空间中的数据也能被正确的聚类;3)针对当前神经网络不能端到端聚类的问题,通过可微编程设计新的神经网络,使得基于神经网络的表示学习和基于神经网络的聚类能统一到一个框架下从而得到更好的聚类结果。上述三方面的研究内容,不仅能为高维数据聚类提供新的有效技术手段,还能为无监督深度神经网络研究从聚类角度提供新的研究思路。截止项目结题,在本项目的支持下,项目组在IEEE TPAMI、IEEE TNNLS、IEEE TIFS等人工智能领域重要期刊上发表SCI学术论文11篇,在ICML、CVPR、ICCV、AAAI等人工智能领域国际重要会议上发表学术论文5篇,申请专利5项,培养研究生6名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

彭玺的其他基金

批准号:11301508
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目
批准号:61671441
批准年份:2016
资助金额:58.00
项目类别:面上项目

相似国自然基金

1

基于约束的高维数据聚类

批准号:61272374
批准年份:2012
负责人:张宪超
学科分类:F0607
资助金额:80.00
项目类别:面上项目
2

聚类导向的字典学习及基于稀疏表示的高维数据聚类研究

批准号:71271027
批准年份:2012
负责人:武森
学科分类:G0112
资助金额:54.00
项目类别:面上项目
3

基于超图的高维聚类和高维匹配统一框架的研究

批准号:61105005
批准年份:2011
负责人:任鹏
学科分类:F0605
资助金额:24.00
项目类别:青年科学基金项目
4

高维稀疏数据聚类研究

批准号:70771007
批准年份:2007
负责人:武森
学科分类:G01
资助金额:16.00
项目类别:面上项目