基于生成对抗网络的无监督图像聚类算法研究

基本信息
批准号:61802266
项目类别:青年科学基金项目
资助金额:26.00
负责人:王京华
学科分类:
依托单位:深圳大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:王力,孙文雅,邓昕,彭思,洪伟俊,罗旺
关键词:
特征提取深度学习无监督学习聚类生成对抗网络
结项摘要

In the current era of big data, one of the hot research topics is how to discover knowledge from the massive unlabeled data. As an unsupervised data analysis algorithm, clustering analysis can identify the relationships between data and has been widely used in many fields. However, the traditional clustering analysis algorithms have high computational complexity and cannot effectively mine the deep correlations between data samples. This project will cluster the image data in the framework of generative adversarial network. Firstly, we determine the number of clusters as well as the pseudo-cluster labels via nonparametric Bayesian method. Then, thanks to the pseudo-cluster labels, we can train the generative adversarial network in a semi-supervised way. In the training process, we are able to learn deep features which are better fit the clustering task. Based on these deep features, we can obtain more reliable pseudo-clustering labels. Finally, based on this observation, we design an iterative optimization strategy to obtain the deep features which can better reveal the correlations between data samples in the clustering task.

在当前大数据时代,如何从缺少数据标签的海量数据中挖掘出有用的知识,已经成为一个亟待解决的科学问题。作为一种无监督的数据分析算法,聚类分析算法可以识别出数据之间的相似性和差异性,在众多领域都有着广泛的应用。然而,传统的聚类分析算法计算复杂度高,并且无法有效挖掘数据之间的深层次相关性。本项目将在生成对抗网络的框架下对图像数据进行聚类分析。首先,我们使用非参数贝叶斯的方法确定聚类分析中簇的个数,并对数据样本进行初步的聚类分析以获取伪聚类标签。接下来,我们使用伪聚类标签将深度神经网络的无监督训练过程转化为半监督的机器学习问题。在神经网络的训练过程中,我们能获取更加契合于聚类分析任务的深度特征。而基于这些深度特征,我们又能获取更加可信的伪聚类标签。也就是说,伪聚类标签和深度特征之间存在着相互促进的关系。基于这一观察,我们设计了一种迭代优化策略,来获取更能反映数据之间相关性的深度特征,并进行聚类分析。

项目摘要

近年来,深度学习技术在若干个领域取得了令人瞩目的成功。然而,这些成功的取得依赖于一个前提,即有大量标注好的数据可用于模型训练的过程。为了解决深度学习的这一局限,我们从两个方面展开了研究:无监督深度学习和零样本域适应。..无监督深度学习任务的目的在于通过深度学习技术从大量不带标签的数据中挖掘出有用的知识。为了实现这一目的,我们对卷积神经网络和高斯混合模型进行了理论分析,并提出了一种将两者进行联合优化的算法。这一算法可以有效的发挥卷积神经网络提取深度特征的能力和高斯混合模型对特征进行分析的能力。另外,我们还分析了谱聚类分析算法的特点,并提出了一种新的层次化结构。这一结构可以将多个谱聚类分析算法紧密的结合起来,进行无监督深度学习。我们的研究成果在大规模图像数据集和文本数据集上均取得了较好的结果。..零样本域适应问题基于带标签的源域数据学习一个机器学习模型,并期望这一模型可以适用于不可见的目标域。为了解决这一问题,我们提出了一种新的策略,即从一个源域和目标域均可见的辅助任务学习到两个域之间的关系,然后把这个域关系进行跨任务的迁移。我们提出的条件耦合生成对抗网络由两个生成对抗网络组成,一个对应源域数据,另一个对应目标域数据。一个二值化的条件参数可以帮我们选择待处理的任务。为了在零样本域适应问题中训练网络模型,我们提出了三个有效的监督信号,即跨域语义关系一致性,跨任务全局对齐和跨域的对齐一致性。为了更好进行分析,我们还提出了一种基于对抗学习的零样本域适应算法。这一算法通过耦合生成对抗网络来学习源域和目标域的联合分布,并通过传统的生成对抗网络对域迁移进行建模。这一算法的优点在于,它可以从一个辅助任务学习知识,并把这一知识迁移到若干个目标任务。我们的算法在图像分类任务和语义分割任务中均取得了令人满意的结果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
4

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
5

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021

王京华的其他基金

相似国自然基金

1

基于超像素分析和无监督聚类模型的乳腺肿瘤超声图像分割研究

批准号:61902192
批准年份:2019
负责人:马倩婷
学科分类:F0210
资助金额:27.00
项目类别:青年科学基金项目
2

基于对抗网络的高光谱图像半监督分类方法研究

批准号:61906096
批准年份:2019
负责人:杭仁龙
学科分类:F0604
资助金额:27.00
项目类别:青年科学基金项目
3

基于非平稳深度随机场网络的无监督SAR图像多类分割研究

批准号:61871312
批准年份:2018
负责人:张鹏
学科分类:F0113
资助金额:66.00
项目类别:面上项目
4

基于几何覆盖方法的半监督聚类算法研究

批准号:61302157
批准年份:2013
负责人:顾磊
学科分类:F0113
资助金额:25.00
项目类别:青年科学基金项目