Due to the fact that a large collection of categorical data(a type of non-numerical data) exists in our lives, such as biological information data, Web data, customer transcation data, how to cluster categorical data have become an important issue in data mining, which have been concerned widely.In the project, we will take categorical data as a research subject and use the methods of statistical analysis and optimization theory to systematacially study the problems of its clustering validation and optimization algorithms. The main research contents are including: (1) The selection of clustering criteria and mutual learning between clustering algorithms; (2) The difference measures between clustering results from different data sets and its relevant optimization problems;(3)The appropriate evaluations for the performances of clustering algorithms on data sets with different characteristics; (4) The experimental analysis on some biological information data from the real world. The above mentioned contributions will further enrich the cluster analysis for categorical data, and provide new theoretical basis and technology support for the relevant studies.
由于在人们的日常生活中存在着大量的符号数据(一种非数值型数据),如生物信息数据、Web数据和客户交易数据等,如何针对它们进行聚类分析已成为数据挖掘的一个重要研究问题,并引起了人们广泛关注。本项目将以符号数据作为研究对象,运用统计分析和优化方法,系统地对符号数据的聚类有效性及其相关的优化算法进行研究。主要研究内容包括:(1)符号数据的聚类准则选择和聚类算法互学习问题;(2)符号数据的聚类结果差异性度量和相关的优化问题;(3)在不同特征的符号数据集上对聚类算法表现的客观评价问题;(4)结合一两个具有明确生物意义的真实数据开展实验分析。本项目的研究成果将进一步丰富符号数据的聚类分析研究, 并为相关领域的数据挖掘与知识发现提供新的理论依据和技术支持。
在现实世界中存在着大量的符号数据。由于符号数据缺乏固有的几何特性,现有大量的数值数据聚类算法不能简单地将应用于符号数据。如何为符号数据建立适合其自身的聚类模型受到越来越多的学者关注。本项目针对符号数据,就其聚类有效性及其聚类优化算法进行了深入地研究,主要的研究内容包括:(1)符号数据的聚类准则选择和聚类算法互学习问题;(2)符号数据的聚类结果差异性度量和相关的优化问题;(3)在不同符号数据集上对聚类算法表现的客观评价问题;(4)结合真实数据开展实证分析。获得的重要研究成果包括:(1)构建了一个广泛意义的聚类有效性函数,基于它揭示了现有聚类有效性函数之间的内在关系,分析了它们的有效性,该研究成果为符号数据的聚类准则选择和聚类算法互学习提供了理论基础。(2)以符号数据流为研究背景,研究了如何度量不同数据子集的聚类结果差异性。并基于新的度量,构建了适合数据流的优化模型和求解算法,克服了现有聚类算法没有充分考虑新数据的自身类结构等缺点,提高了概念漂移检测结果的可靠性。(3)研究了现有聚类有效性函数在优化模型中的求解空间,给出了它们在给定数据集上的取值范围估计方法,从而为客观评价聚类算法对数据的适应性提供了理论支持。(4)课题组在大量的真实数据上对相关研究成果进行了实验分析,并将符号聚类思想应用于网络数据(包括生物信息网络和社交网络等)的社区发现中。该项目的相关研究成果发表在IEEE Tans. Knowledge and Data Engineering, Data Mining and Knowledge Discovery和Information Sciences等国际重要学术期刊。这些成果进一步丰富符号数据的聚类分析研究, 并为其在相关领域的应用提供新的理论依据和技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于图论方法的符号网络中重叠聚类算法的研究
时间序列数据挖掘中的聚类模型与算法研究
动态数据挖掘中的演化聚类模型与算法研究
模糊认知集群优化的聚类算法