With the coming of Information Age and development of Internet, high-dimensional data are constantly emerging in various application areas such as transaction records, diagnose records, multi-media data, Web data and etc. It is urgent and important to mine precious knowledge from the amount of data. The key task of high-dimensional data mining is to find a low-dimensional model representing the original data so that the hidden pattern can be easily identified. Non-negative matrix factorization (NMF) is a good choice to handle this task because NMF provides a part-based representation via an additive model. However, the existing NMF model including extended models and algorithms can not satisfy the requirement of high-dimensional data mining. Thus, based on the key characteristics of high-dimensional data mining and the theory of NMF, we will focus on the following research tasks: 1) Analyzing the latent variable graphical model and the main properties of high-dimensional data:low-rank and sparsity, we will propose some parameter-free NMF initialization methods; 2) Analyzing the subspaces and their overlapping property in high-dimensional data, we will propose NMF-based subspace identification methods; 3) Analyzing the properties of known supervised information, we will present semi-supervised NMF model to make use of the expensive multi-type supervised information; 4)Studying the generation mechanism of multi-modal data and cooperation mechanism, we will design several NMF-based collaborative learning methods; 5) Studying the optimization and distributed computing theory, we will present effective and efficient algorithm to solve the various NMF models. Finally we will provide NMF-based dimension reduction and clustering APIs for the existing high-dimensional data mining system. This project will show some new ideas, and provide basic theory and key technique for high-dimensional data mining.
随着信息化和互联网的发展,高维数据在各领域不断涌现,如何挖掘和利用这些数据成为新世纪信息技术面临的重大挑战。高维数据挖掘的一个核心任务是找到一种具备清晰潜在结构的低维模型来表示原始高维数据。非负矩阵分解(NMF)所展现的"局部构成整体"思想能够为该任务的完成提供有效的解决思路。然而现有的NMF模型和求解方法已无法满足海量高维数据的高效挖掘需求。因此,本项目将结合高维数据特点和NMF理论方法,重点开展如下工作:1)研究高维数据低秩性和隐变量图模型学习理论,设计无参NMF初始化方法;2)研究高维数据子空间存在性和交叉性,设计有效子空间识别NMF方法;3)研究数据监督信息特点,设计融合多类型监督信息的半监督NMF方法;4)研究多模态数据的形成机理和协同机制,设计协同NMF学习方法;5)研究优化理论和并行化思想,设计高效快速的NMF模型求解方法,最终为数据挖掘系统提供基于NMF的高效学习方法接口。
随着信息化和互联网的发展,高维数据在各领域不断涌现,如何挖掘和利用这些数据成为 新世纪信息技术面临的重大挑战。高维数据挖掘的一个核心任务是找到一种具备清晰潜在 结构的低维模型来表示原始高维数据。非负矩阵分解(NMF)所展现的"局部构成整体"思 想能够为该任务的完成提供有效的解决思路。然而现有的NMF模型和求解方法已无法满足 海量高维数据的高效挖掘需求。本项目围绕上述问题,从理论研究和技术创新上取得以下成果:揭示实际应用中高维数据的特点(稀疏性、子空间存在性等),研究矩阵不变子空间理论、隐变量图模型学习理论、稀疏编码和信息论,提出自动识别子空间的 NMF 模型和 NMF 初始化设置方法;探讨应用领域监督信息数学建模的方法,分析监督信息对数据矩阵和 NMF 分解因子的指导作用,提出新的统一半监督学习框架和半监督 NMF 学习模 型;分析多模态高维数据多态信息的互补性和相容性,提出协同 NMF 学习模型,强调融合机制与学习算法的效用相互结合,突破制约多模态信息处理协同性和高效性的技术瓶颈;研究优化理论和并行化思想,提出高效快速的 NMF 求解优化算法。在项目组成员的共同努力下,相继发表期刊论文30篇,会议论文10篇,接受论文4篇。包括SCI检索A1区期刊论文3篇,SCI检索A2区期刊论文6篇,SCI检索A3区期刊论文6篇,IEEE Trans.系列期刊论文7篇;CCF A类期刊论文4篇,CCF A类会议论文3篇,其中一篇获得优秀学生论文;国内EI检索学术期刊论文5篇。国内核心期刊论文10篇。培养16名研究生,已毕业4名博士生、6名硕士生。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
非负矩阵分解中维数约简问题的研究
非负矩阵集分解研究
高光谱图像分类的流形学习和非负矩阵分解特征降维研究
基于压缩感知和非负矩阵分解理论的高光谱混合像元分解