Multiple clusterings has the clear advantages to discover latent data pattern in the big data from different views, so it has tremendous values in applications like community detection, resource recommendation and gene expression, etc. Since the existing researches focus on low-dimensional and single-domain data, it is difficult to apply to large-scale heterogeneous data scenario in the real world. This study is based on the properties of multi-source heterogeneous data, aims to achieve a general model of multiple clusterings and its secure and efficient implementations for big data..Aiming to the problem of high-order tensor object fused multi-source heterogeneous information which is difficult to analyze and process, we construct a tensor network based object model, and propose the corresponding similarity measure mathematical model with its optimization method. Based on these two models, we study a weights learning algorithm for the different combinations of the feature space, design to introduce the feature space selection coefficients and difference coefficients, construct a context-based model of multiple clusterings based on tensor network, and implement the multiple clustering algorithm accordingly. In order to protect user privacy when efficiently computing, we study its security computing pattern in the cloud. Taking the efficiency and scalability into consideration, we design a distributed parallel strategy and an incremental updating mechanism. At last, we verify and optimize our models and algorithms on a real world data set of Changzhou Transit Group. This study will provide new methods for multiple clustering analysis, and pave the way to advance its applications and developments.
多聚类有利于从不同角度发现大数据中隐藏的不同数据模式,在社团发现、资源推荐、基因表达等领域具有重要应用价值。现有研究主要面向低维单领域数据,难以适用于现实世界大规模异构数据场景。本项目从多源异构数据特点出发,致力于实现大数据环境下的多聚类通用模型及安全高效算法研究。针对融合多源信息的高阶张量对象难于分析和处理的问题,构建张量网络对象模型,提出相应的相似度度量数学模型及其优化方法;据此研究不同特征空间属性组合权重学习算法,设计特征空间选择系数及差值系数,构建基于上下文的张量网络多聚类通用模型,并实现相应的多聚类算法;基于此,研究其在云端的安全计算模式,在高效计算的同时保护用户隐私;进而设计分布式并行策略及增量更新机制,提高安全多聚类算法的效率和多聚类结果的可扩展性。最终在常州公交集团数据集上验证并优化提出的模型及算法。本研究将为多聚类分析领域提供新的方法途径,促进其应用与发展。
多聚类有利于从不同角度发现大数据中隐藏的不同数据模式,在社团发现、资源推荐、基因表达等领域具有重要应用价值。现有研究主要面向低维单领域数据,难以适用于现实世界大规模异构数据场景。本项目从多源异构数据特点出发,结合张量网络理论、同态加密理论以及聚类的增量更新理论,对大数据环境下的多聚类通用模型及安全高效算法开展了一系列研究。首先,针对维度灾难问题,构建张量网络对象模型,研究不同特征空间属性组合权重学习算法,设计引入权重系数和特征空间选择系数,构建基于上下文的可选择加权张量链距离,并提出了基于张量链的多聚类算法。其次,在云计算分布式环境下,研究了张量链格式下各张量基本运算的计算规律,并依据节点计算能力和通信能力设计高效的分布式并行计算框架,提出了张量链的核分配机制及核运算并行策略,进而实现基于张量链的多聚类分布式并行策略,充分利用张量网络并行计算优势来提高多聚类算法的计算效率。再次,研究多聚类的云端安全计算模式,设计混合云模式下云端安全的多聚类分析和服务框架,根据现有同态加密运算协议,研究张量多聚类算法所需的安全运算协议,包括安全指数、安全属性权重排名、安全可选择加权张量距离等算法子协议,从而提出云端安全的张量多聚类分析方法,给出半诚实模型下的安全性分析,证明了在高效计算的同时保护用户隐私。最后,针对大数据动态增长带来的大量重复计算问题,提出增量式密度峰值聚类和增量式张量多聚类方法。在增量式张量多聚类方法中,分别提出了基于迭代的属性权重增量学习方法和基于微分的属性权重增量学习方法,并基于一种简单快速的K-medoids算法设计相应的增量式K-medoids算法,使得在多聚类增量时不需要计算全部距离,从而有效提高多聚类的增量更新算法效率。以上提出的模型和算法均在真实世界数据集上进行了实验验证并取得了较好的实验结果。本研究可为多聚类分析领域提供新的方法途径,促进其应用与发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
硬件木马:关键问题研究进展及新动向
基于多模态信息特征融合的犯罪预测算法研究
面向云工作流安全的任务调度方法
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
多空间交互协同过滤推荐
面向多源异构流数据的在线聚类集成算法研究及其应用
面向多源大数据的鲁棒聚类模型与算法研究
面向云存储的多源数据安全查询机制和算法研究
面向地理标签数据的高效聚类算法研究