The multi-view clustering and semi-supervised clustering ensemble methods have gradually become hot issues in machine learning research. The traditional clustering algorithms are not yet adapted to the challenges of big data, which is much more complicated than ever before with multi-view characteristics. The project will research key technoloies of multi-view semi-supervised clustering ensemble, including the following four parts. 1) The construction of the valid views that represents the similarity and difference of features will be investigated. 2) The model of multi-view semi-supervised clustering ensemble will be build, which can both satisfy the requirement of consistency and complementarity simultaneously. With this model, the consensus function will be optimized, by means of co-training, constraint transferring and weighted strategies. 3) The new algorithms for multi-view semi-supervised clustering ensemble are studied in circumstances where some views are incomplete. 4) The applications of multi-view semi-supervised clustering ensemble in High Speed Train are explored. By solving these above problems, it may contribute to improve clustering quality, reflect fully the superiority of multi-view semi-supervised clustering ensemble on dealing with large-scale and complex data, and prefect the theory and method of multi-view learning, ensemble learning and semi-supervised learning. It also has important significance on enhancement of the performance of data mining and knowledge discovery, and extension of the applications of multi-view semi-supervised clustering ensemble.
作为机器学习领域的新兴研究热点,多视图聚类和半监督聚类集成技术受到越来越多的研究人员关注。尤其面对日益增长的大数据应用,数据日趋复杂且呈现多视图的特性,现有的聚类算法无法完全适应这一挑战。本项目拟对多视图半监督聚类集成的关键技术进行系统研究,研究内容包括四部分:1)分析特征间的相似性与差异性等属性,研究构建有效多视图的方法;2)建立同时满足一致性和互补性的多视图半监督聚类集成模型,合理运用协同训练、约束传递和加权等策略,设计出优化的共识目标函数;3)研究部分视图不完整情况下的多视图半监督聚类集成模型与算法;4)研究多视图半监督聚类集成方法在高铁大数据中的应用。这些问题的解决,对于改善聚类质量,充分体现多视图半监督聚类集成在解决大规模复杂数据问题中的优势,完善多视图学习、集成学习和半监督学习的理论与方法,提高数据挖掘与知识发现的性能和拓展多视图半监督聚类集成的应用领域等有重要意义。
如何从蕴含大量信息的数据中进行有效的数据挖掘与知识发现,已成为当前信息科学领域的核心研究问题之一。本项目针对大数据应用领域中数据存在的多视图特性,同时结合半监督学习与聚类集成方法进行了系统深入的研究,最终获得更高质量和鲁棒性的聚类结果。本项目旨在从方法与应用上系统研究多视图半监督聚类集成模型,构建基于一致性、互补性、约束性和加权的共识目标函数,设计构建与评价多视图的方法,探讨视图不完整场景下的解决方案,并以高铁监测多视图数据为对象,进行高速列车走行部的故障诊断。主要取得了以下成果:(1)分析原始数据中的隐含特征与特征之间蕴含的知识机理,实现了多视图的构建;(2)在多视图半监督聚类集成模型的研究方面,结合非负矩阵分解、子空间学习以及自动加权技术,提出了一系列多视图聚类集成算法与半监督聚类集成模型;探讨了基于粗糙集的多视图聚类算法;构建了多任务场景下的多视图聚类算法;(3)针对不完整视图,基于谱聚类、图理论与谱扰动理论,提出了不完备多视图聚类方法;(4)面向高铁大数据,分析高速列车振动信号特征,引入半监督学习算法与多视图聚类集成理论,结合非负矩阵分解技术与深度学习框架,实现了高速列车工况识别与故障诊断;(5)考虑多视图半监督聚类集成方法在不同实际场景下的应用,针对自然语言处理问题、医疗辅助诊断以及教育大数据分析等领域,也展开了相关的研究工作并取得一系列成果;此外,开发了一套多视图聚类分析系统,为用户提供多视图聚类分析服务。本项目共发表/录用论文63篇,其中已被SCI和EI同时检索6篇,EI检索25篇;申请专利10项,授权专利2项;大会特邀报告9次;承办国际学术会议4次;获四川省计算机科学技术一等奖(由四川省计算机学会颁发,全省仅2名)。这些成果对改善多视图聚类性能,完善半监督学习和集成学习的理论与方法,提高数据挖掘与知识发现的性能和拓展多视图半监督聚类集成的应用领域等提供了学术思路与解决方案。
{{i.achievement_title}}
数据更新时间:2023-05-31
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于多模态信息特征融合的犯罪预测算法研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
多空间交互协同过滤推荐
有监督和半监督多视图特征学习方法与应用研究
半监督聚类及其应用研究
面向高维数据集成降维的半监督聚类方法研究
半监督聚类集成的关键技术研究