Cluster analysis is one of the core techniques in data mining area. As online social media emerge in a dramatic speed, there is a growing need for heterogeneous big data clustering, especially for the high-profile user generated content (UGC). The huge volume, high dimensionality and heterogeneity of such data post severe challenges to the traditional clustering algorithms. Our project aims to deal with this problem in an ensemble clustering way. While some existing studies have shown the advantages of ensemble clustering over many traditional clustering methods, these studies yet lack of theoretical foundations, and the low efficiency and/or poor robustness of the proposed methods further prevent them from being used for big data analysis. In light of this, in this project, we focus on designing fast ensemble clustering method for heterogeneous big data analysis with applications in social media. Specifically, 1) we attempt to combine the high efficiency of binary matrix clustering with the flexibility of multiple utility functions, to build a theoretical framework for fast ensemble clustering based on the generalized K-means algorithm; 2) We will explore the sample partitioning schemes for ensemble clustering, and parallel the computing loads according to the characteristics of social media data; 3) We will investigate the method of weight learning for basic partitionings, and extend the fast ensemble clustering algorithm to the circumstances with incomplete basic partitionings and/or link constraints in a graph; 4) We will finally develop a prototypical system, which will then be used for social media user grouping to showcase its effectiveness. The outcomes of this project will provide great values in terms of both theories and practices to business intelligence in the big-data era.
聚类分析是数据挖掘的关键技术。近年来,随着社会化媒体的蓬勃发展,以用户生成内容为核心的复杂异构大数据不断涌现,其海量、高维、异质等特征,对传统聚类分析方法提出了严峻的挑战。本项目尝试采用组合聚类来解决这个问题。已有研究表明,组合聚类可以获得比传统聚类更好的分析结果,但现有研究仍缺乏系统性,算法效率低、鲁棒性差,因此无法应对复杂异构大数据。有鉴于此,本项目将聚焦于社会化媒体异构大数据的组合聚类研究,具体包括:1)将二元矩阵法的高效性和多效用函数的适应性结合起来,在广义K-均值理论基础上,建立快速组合聚类的理论框架;2)紧密结合社会化媒体异构大数据特征,研究样本划分方法和并行计算策略;3)提出基础聚类分量权重学习方法,并解决存在样本不一致和聚类指导信息时的算法设计问题;4)研发系统原型,并针对社会化媒体的用户分群问题展开应用研究。本项目将为社会化媒体大数据时代的商务智能理论与实践提供有益参考。
随着社会化媒体的蓬勃发展,以用户生成内容为核心的复杂异构大数据不断涌现,其海量、高维、异质等特征对传统聚类分析方法提出了严峻的挑战。本项目聚焦于组合聚类的基础理论模型和有效算法研究,并着力推动其在媒体大数据用户分群等分析任务中的实践应用。课题组在历时四年的研究中,秉持理论与实践并重的原则,积极推动组合聚类理论框架和实现算法的深入研究和成果撰写,并大力开展产学研建设以将理论成果转化为社会舆情管理的重要助力。课题组取得的学术贡献包括:(1)将二元矩阵法的高效性和多效用函数的适应性结合起来,在广义 K-均值理论基础上,建立了快速组合聚类的理论框架;(2)提出了多样性组合聚类模型与算法,包括:基于列联矩阵、协联矩阵、模拟退火、投票法等不同基础模型的组合聚类框架,并推导了部分模型与快速组合聚类模型的等价映射,从而显著降低模型的计算开销;(3)针对媒体大数据海量异构特征,提出了同时适用于高维和低维数据的行列组合抽样机制和结构化数据、文本数据、图数据融合策略;(4)将组合聚类方法应用于多个网络舆情分析系统,服务于舆情主体的观点刻画和社群组织识别,社会经济效益均显著。在项目执行期内,课题组发表了标注课题资助的学术论文41篇,包括期刊论文13篇和国际会议论文28篇。其中,SCI/SSCI检索论文8篇,CSSCI检索论文1篇,EI论文28篇。论文成果包括TKDE(2篇)、TKDD(1篇)、TFS(1篇)、ISR(1篇)等顶级期刊论文和KDD(2篇)、AAAI(2篇)、ICDM(4篇)、SDM(1篇)等顶级会议论文。在实践应用方面,依托本课题成果,完成了多个工信部信息安全项目和系统研发任务,获得应用证明1项,申请国家发明专利2项,课题团队逐渐成长为社会化媒体大数据挖掘和舆情分析的重要研究力量。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
黄河流域水资源利用时空演变特征及驱动要素
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
敏感性水利工程社会稳定风险演化SD模型
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
Wnt/β-Catenin信号通路在气虚血瘀型特发性肺间质纤维化大鼠的动态表达及益气活血法的干预研究
Ikaros蛋白通过调控岩藻糖基转移酶Fut4转录影响儿童急性淋巴细胞白血病患者预后的分子机制探究
面向社会媒体数据的子空间聚类算法研究
面向多源异构数据的多聚类通用模型及安全高效算法研究
面向多源异构流数据的在线聚类集成算法研究及其应用
面向复杂多视角数据的层次聚类研究