Dimensionality reduction for high-dimensional data is one of the key contents in pattern recognition since such data widely exist in various application domains. A lot of dimensionality reduction methods have been proposed. However, most of them only utilize the samples related with the tasks for training and ignore Universum samples – the samples that belong to the same application domain as the training data, but do not belong to either class of interest. Recently, based on Universum samples,Universum learning has been used for classification and clustering and improves the algorithmic performance with the help of Universum. In this project, we extend universum learning to dimensionality reduction with the aim of 1) Developing a genera dimensionality reduction framework by taking advantage of Universum and designing supervised and semi-supervised DR methods respectively; 2) Discussing the impact of Universum samples and adaptive search strategy for Universum samples. Furthermore, we extend it to multi-view high-dimensional data and design multi-view dimensionality reduction methods based on Universum learning, in order to expand more general Universum learning. We will carry out the works including modeling, algorithm design and implementation, theoretical analysis and experimental comparison.
高维数据广泛存在于众多领域,对其进行降维是模式识别的核心之一。现有降维方法通常仅利用目标类样本作为训练样本,忽视了现实中大量存在的目标类以外的数据,即Universum。研究者最近提出的Universum学习方法正是利用目标外样本数据提高了分类和聚类学习效果,但至今尚未有人结合降维开展研究工作。本项目旨在通过与现有降维方法的结合,设计一个利用目标外样本数据的一般性降维框架,设计监督和半监督降维算法,探究目标外样本数据对降维的影响和自适应选择目标外样本数据的策略。进一步,将其扩展到高维多视图数据的降维,设计基于Universum学习的多视图数据降维算法,进而拓展出更广义的Universum学习。整个工作围绕建模、算法设计与实现、理论分析和实验对比等系统展开。
典型相关分析(Canonical correlation analysis,CCA) 是一种经典的多元统计分析方法,可通过最大化不同视图间的相关性同时实现高维多视图数据的降维。CCA的目标函数仅仅关注样本的相关性,因此具有一定的局限性。目前已有很多研究者利用不同的方式将样本的类信息融入降维过程,从而设计出各种监督型或者半监督型降维方法。所有这些方法都是基于目标类样本,也就是说即使我们不知道每个样本具体属于哪一类,但是每个训练样本总是属于其中某一类。实际上,我们获得的训练样本可能还包含与目标类同域而不同类的样本,这些样本称之为Universum数据. 最近有很多研究者利用Universum数据改进分类、聚类和降维算法,显著提高了原有算法的性能,这些方法统称为Universum学习。受此启发,我们将Universum学习与相关分析相结合,分别改进CCA和DCCA,设计了两种针对多视图数据的降维算法UCCA和UDCCA。这两种算法均要求目标类数据的两组变量的投影相关性最大,Universum数据的两组变量的投影相关性最小。不同之处是后者进一步要求目标类数据的同类样本的相关性最大,不同类样本的相关性最小。分析UDCCA的结果发现虽然UDCCA利用的信息量最大,样本间的可分离性并不是最大。我们进一步改进其目标函数,要求同一个视图内的目标类样本与Universum数据的相关性也要最小,从而体现两种训练样本的区别, 从而使得提取的新特征具有更强的区分性。我们将这种算法称其为增强型UDCCA(Enhanced Universum Canonical Correlation Analysis)。对于这三种算法,分别在人工数据集、UCI数据集、USPS数据集、MFD数据集和ORL数据集进行实验对比,其结果也显示了算法的优越性。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于充分降维方法的分层变量选择
面向复杂数据基于流形学习的非线性降维算法研究
超高维数据中基于累积差异的稳健降维方法研究
高维数据保真降维方法研究