符号数据的聚类有效性分析与优化算法研究

基本信息
批准号:61305073
项目类别:青年科学基金项目
资助金额:26.00
负责人:白亮
学科分类:
依托单位:山西大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:曹付元,张海云,徐乾,李华,宋云胜,田萌,王智强,王杰
关键词:
聚类有效性优化模型优化算法符号数据聚类分析
结项摘要

Due to the fact that a large collection of categorical data(a type of non-numerical data) exists in our lives, such as biological information data, Web data, customer transcation data, how to cluster categorical data have become an important issue in data mining, which have been concerned widely.In the project, we will take categorical data as a research subject and use the methods of statistical analysis and optimization theory to systematacially study the problems of its clustering validation and optimization algorithms. The main research contents are including: (1) The selection of clustering criteria and mutual learning between clustering algorithms; (2) The difference measures between clustering results from different data sets and its relevant optimization problems;(3)The appropriate evaluations for the performances of clustering algorithms on data sets with different characteristics; (4) The experimental analysis on some biological information data from the real world. The above mentioned contributions will further enrich the cluster analysis for categorical data, and provide new theoretical basis and technology support for the relevant studies.

由于在人们的日常生活中存在着大量的符号数据(一种非数值型数据),如生物信息数据、Web数据和客户交易数据等,如何针对它们进行聚类分析已成为数据挖掘的一个重要研究问题,并引起了人们广泛关注。本项目将以符号数据作为研究对象,运用统计分析和优化方法,系统地对符号数据的聚类有效性及其相关的优化算法进行研究。主要研究内容包括:(1)符号数据的聚类准则选择和聚类算法互学习问题;(2)符号数据的聚类结果差异性度量和相关的优化问题;(3)在不同特征的符号数据集上对聚类算法表现的客观评价问题;(4)结合一两个具有明确生物意义的真实数据开展实验分析。本项目的研究成果将进一步丰富符号数据的聚类分析研究, 并为相关领域的数据挖掘与知识发现提供新的理论依据和技术支持。

项目摘要

在现实世界中存在着大量的符号数据。由于符号数据缺乏固有的几何特性,现有大量的数值数据聚类算法不能简单地将应用于符号数据。如何为符号数据建立适合其自身的聚类模型受到越来越多的学者关注。本项目针对符号数据,就其聚类有效性及其聚类优化算法进行了深入地研究,主要的研究内容包括:(1)符号数据的聚类准则选择和聚类算法互学习问题;(2)符号数据的聚类结果差异性度量和相关的优化问题;(3)在不同符号数据集上对聚类算法表现的客观评价问题;(4)结合真实数据开展实证分析。获得的重要研究成果包括:(1)构建了一个广泛意义的聚类有效性函数,基于它揭示了现有聚类有效性函数之间的内在关系,分析了它们的有效性,该研究成果为符号数据的聚类准则选择和聚类算法互学习提供了理论基础。(2)以符号数据流为研究背景,研究了如何度量不同数据子集的聚类结果差异性。并基于新的度量,构建了适合数据流的优化模型和求解算法,克服了现有聚类算法没有充分考虑新数据的自身类结构等缺点,提高了概念漂移检测结果的可靠性。(3)研究了现有聚类有效性函数在优化模型中的求解空间,给出了它们在给定数据集上的取值范围估计方法,从而为客观评价聚类算法对数据的适应性提供了理论支持。(4)课题组在大量的真实数据上对相关研究成果进行了实验分析,并将符号聚类思想应用于网络数据(包括生物信息网络和社交网络等)的社区发现中。该项目的相关研究成果发表在IEEE Tans. Knowledge and Data Engineering, Data Mining and Knowledge Discovery和Information Sciences等国际重要学术期刊。这些成果进一步丰富符号数据的聚类分析研究, 并为其在相关领域的应用提供新的理论依据和技术支持。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

白亮的其他基金

批准号:61773247
批准年份:2017
资助金额:65.00
项目类别:面上项目
批准号:11401420
批准年份:2014
资助金额:22.00
项目类别:青年科学基金项目
批准号:60902094
批准年份:2009
资助金额:18.00
项目类别:青年科学基金项目
批准号:51208058
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:11326117
批准年份:2013
资助金额:3.00
项目类别:数学天元基金项目
批准号:81200207
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

基于图论方法的符号网络中重叠聚类算法的研究

批准号:11401346
批准年份:2014
负责人:亓兴勤
学科分类:A0409
资助金额:22.00
项目类别:青年科学基金项目
2

时间序列数据挖掘中的聚类模型与算法研究

批准号:70871015
批准年份:2008
负责人:郭崇慧
学科分类:G0112
资助金额:23.00
项目类别:面上项目
3

动态数据挖掘中的演化聚类模型与算法研究

批准号:71171030
批准年份:2011
负责人:郭崇慧
学科分类:G0112
资助金额:45.00
项目类别:面上项目
4

模糊认知集群优化的聚类算法

批准号:61503306
批准年份:2015
负责人:袁锦锋
学科分类:F0603
资助金额:21.00
项目类别:青年科学基金项目