面向高维数据挖掘的非负矩阵分解关键问题研究

基本信息

批准号：61375062

项目类别：面上项目

资助金额：80.00

负责人：景丽萍

学科分类：

依托单位：北京交通大学

批准年份：2013

结题年份：2017

起止时间：2014-01-01 - 2017-12-31

项目状态：已结题

项目参与者：张超,杨柳,刘博,张辉,谢博鋆,李谦,徐杰,田耕,邹珊

关键词：

半监督学习非负矩阵分解高维数据挖掘子空间识别协同学习

结项摘要

With the coming of Information Age and development of Internet, high-dimensional data are constantly emerging in various application areas such as transaction records, diagnose records, multi-media data, Web data and etc. It is urgent and important to mine precious knowledge from the amount of data. The key task of high-dimensional data mining is to find a low-dimensional model representing the original data so that the hidden pattern can be easily identified. Non-negative matrix factorization (NMF) is a good choice to handle this task because NMF provides a part-based representation via an additive model. However, the existing NMF model including extended models and algorithms can not satisfy the requirement of high-dimensional data mining. Thus, based on the key characteristics of high-dimensional data mining and the theory of NMF, we will focus on the following research tasks: 1) Analyzing the latent variable graphical model and the main properties of high-dimensional data：low-rank and sparsity, we will propose some parameter-free NMF initialization methods; 2) Analyzing the subspaces and their overlapping property in high-dimensional data, we will propose NMF-based subspace identification methods; 3) Analyzing the properties of known supervised information, we will present semi-supervised NMF model to make use of the expensive multi-type supervised information; 4)Studying the generation mechanism of multi-modal data and cooperation mechanism, we will design several NMF-based collaborative learning methods; 5) Studying the optimization and distributed computing theory, we will present effective and efficient algorithm to solve the various NMF models. Finally we will provide NMF-based dimension reduction and clustering APIs for the existing high-dimensional data mining system. This project will show some new ideas, and provide basic theory and key technique for high-dimensional data mining.

随着信息化和互联网的发展，高维数据在各领域不断涌现，如何挖掘和利用这些数据成为新世纪信息技术面临的重大挑战。高维数据挖掘的一个核心任务是找到一种具备清晰潜在结构的低维模型来表示原始高维数据。非负矩阵分解（NMF）所展现的"局部构成整体"思想能够为该任务的完成提供有效的解决思路。然而现有的NMF模型和求解方法已无法满足海量高维数据的高效挖掘需求。因此，本项目将结合高维数据特点和NMF理论方法，重点开展如下工作：1）研究高维数据低秩性和隐变量图模型学习理论，设计无参NMF初始化方法；2）研究高维数据子空间存在性和交叉性，设计有效子空间识别NMF方法；3）研究数据监督信息特点，设计融合多类型监督信息的半监督NMF方法；4）研究多模态数据的形成机理和协同机制，设计协同NMF学习方法；5）研究优化理论和并行化思想，设计高效快速的NMF模型求解方法，最终为数据挖掘系统提供基于NMF的高效学习方法接口。

项目摘要

随着信息化和互联网的发展，高维数据在各领域不断涌现，如何挖掘和利用这些数据成为新世纪信息技术面临的重大挑战。高维数据挖掘的一个核心任务是找到一种具备清晰潜在结构的低维模型来表示原始高维数据。非负矩阵分解(NMF)所展现的"局部构成整体"思想能够为该任务的完成提供有效的解决思路。然而现有的NMF模型和求解方法已无法满足海量高维数据的高效挖掘需求。本项目围绕上述问题，从理论研究和技术创新上取得以下成果：揭示实际应用中高维数据的特点（稀疏性、子空间存在性等），研究矩阵不变子空间理论、隐变量图模型学习理论、稀疏编码和信息论，提出自动识别子空间的 NMF 模型和 NMF 初始化设置方法；探讨应用领域监督信息数学建模的方法，分析监督信息对数据矩阵和 NMF 分解因子的指导作用，提出新的统一半监督学习框架和半监督 NMF 学习模型；分析多模态高维数据多态信息的互补性和相容性，提出协同 NMF 学习模型，强调融合机制与学习算法的效用相互结合，突破制约多模态信息处理协同性和高效性的技术瓶颈；研究优化理论和并行化思想，提出高效快速的 NMF 求解优化算法。在项目组成员的共同努力下，相继发表期刊论文30篇，会议论文10篇，接受论文4篇。包括SCI检索A1区期刊论文3篇，SCI检索A2区期刊论文6篇，SCI检索A3区期刊论文6篇，IEEE Trans.系列期刊论文7篇；CCF A类期刊论文4篇，CCF A类会议论文3篇，其中一篇获得优秀学生论文；国内EI检索学术期刊论文5篇。国内核心期刊论文10篇。培养16名研究生，已毕业4名博士生、6名硕士生。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：

发表时间：2019

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

景丽萍的其他基金

批准号：61773050

批准年份：2017

资助金额：65.00

项目类别：面上项目

批准号：60905028

批准年份：2009

资助金额：19.00

项目类别：青年科学基金项目

相似国自然基金

非负矩阵分解中维数约简问题的研究

批准号：61373001

批准年份：2013

负责人：赵金熙

学科分类：F0201

资助金额：58.00

项目类别：面上项目

非负矩阵集分解研究

批准号：60872084

批准年份：2008

负责人：章毓晋

学科分类：F0116

资助金额：30.00

项目类别：面上项目

高光谱图像分类的流形学习和非负矩阵分解特征降维研究

批准号：61301196

批准年份：2013

负责人：温金环

学科分类：F0113

资助金额：25.00

项目类别：青年科学基金项目

基于压缩感知和非负矩阵分解理论的高光谱混合像元分解

批准号：61372147

批准年份：2013

负责人：张桂戌

学科分类：F0113

资助金额：80.00

项目类别：面上项目

面向高维数据挖掘的非负矩阵分解关键问题研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于主体视角的历史街区地方感差异研究———以北京南锣鼓巷为例

智能煤矿建设路线与工程实践

景丽萍的其他基金

融合多源信息的可解释性推荐模型及算法研究

文本语义模型和子空间聚类研究

相似国自然基金