Heterogeneous data clustering is one of most valuable and challenging tasks in data clustering. The key to heterogeneous data clustering is to extract proximity matrix with higher cluster discriminability on the basis of the combined information from heterogeneous representation spaces, so as to reveal more precisely the cluster structure distribution of the heterogeneous data. In this project, based on representative, spectral embedding, cross-view consistency, motif and modularity, we aim to address the challenging issues associated with heterogeneous data clustering, namely, learning proximity matrix with higher cluster discriminability from heterogeneous data. Accordingly, we will propose proximity learning based heterogeneous data clustering algorithms, including data-manifold proximity learning based multi-view data clustering algorithms, higher-order proximity learning based multi-view network clustering algorithms and higher-order proximity learning based attributed network clustering algorithms, as well as their applications in heterogeneous data based web public opinion analysis, recommendation systems and industrial Internet of things. The project would further enrich the theories and methods of data clustering. In particular, it would enhance the research development of heterogeneous data clustering.
异构数据聚类是数据聚类中最具应用价值同时也是最具挑战性的科学研究问题之一。其关键难题是在有效地融合异构空间信息的基础上,提炼出更具类区分度的相似性矩阵,得到更准确的聚类结果。本项目拟以代表点、谱嵌入、跨视图一致性、模体、模块度等作为理论和技术基础,重点解决异构数据聚类的更具类区分度的相似度学习这一难题,研究建立基于相似度学习的异构数据聚类算法,包括基于样本流形相似度学习的多视图数据聚类算法、基于高阶特征相似度学习的多视图网络聚类算法、基于高阶特征相似度学习的属性网络聚类算法等,并研究这些新算法在融合异构数据的网络舆情分析、商品推荐系统、工业物联网鲁棒性分析等方面的应用。本项目的开展将进一步丰富数据聚类理论和方法,特别是推动异构数据聚类研究的发展。
异构数据聚类是数据聚类中最具应用价值同时也是最具挑战性的科学研究问题之一。其关键难题是在有效地融合异构空间信息的基础上,提炼出更具类区分度的相似性矩阵,得到更准确的聚类结果。本项目以代表点、谱嵌入、跨视图一致性、模体、模块度等作为理论和技术基础,重点解决异构数据聚类的更具类区分度的相似度学习这一难题,研究建立基于相似度学习的异构数据聚类算法,包括基于样本流形相似度学习的多视图数据聚类算法、基于高阶特征相似度学习的多视图网络聚类算法、基于高阶特征相似度学习的属性网络聚类算法等,并研究这些新算法在融合异构数据的网络舆情分析、商品推荐系统、工业物联网鲁棒性分析等方面的应用。本项目一共产出近70篇高水平论文,包括31篇IEEE/ACM Trans等计算机领域的权威期刊论文以及近10篇AAAI、IJCAI等计算机领域的重要学术会议论文,研究成果荣获广东省自然科学奖二等奖。本项目的完成将进一步丰富数据聚类理论和方法,特别是推动异构数据聚类研究的发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
EBPR工艺运行效果的主要影响因素及研究现状
基于铁路客流分配的旅客列车开行方案调整方法
基于多色集合理论的医院异常工作流处理建模
基于腔内级联变频的0.63μm波段多波长激光器
结直肠癌免疫治疗的多模态影像及分子影像评估
复杂结构数据的相似度学习及其应用研究
面向多源异构流数据的在线聚类集成算法研究及其应用
面向复杂数据的稀疏相似度学习方法及其应用
基于多关联数据融合的疾病相似度算法研究