In recent years,the research and technology of KDD on classification and clustering have made significant progress. However,there are still some problems to be studied further both in theory and in practice. Such as, people often facing the complex data with characteristics of imprecise, inconsistent, imcomplete and high-dimensional.The main content of this subject includes several aspects as follows: (1)we try to research tolerance relation-based rough sets with tolerance degree, and redefine assignment reduct, distribution reduct, and the maximum distribution reduct, in incomplete inconsistent decision systems, so make sure they keep the original nature; (2) analysising and comparing on various attribute reduction based on different granule; (3) and proposes the simplified judgment theorems for the assignment reduct, the distribution reduct and the maximum distribution reduct respectively, and derive three corresponding quick heuristic algorithm; (4) research LEM2 rule generation algorithm with tolerance relation-based rough sets, which enables the LEM2 algorithm can generate possible rules with precision,and so be apply to incomplete inconsistent decision system. (5)research on automatic multdimensional subspace clustering algorithm. The proposed research will not only have some solutions to solve the defect problems for the existing definitions of assignment reduction, distribution reduction and the maximum distribution reduction in incomplete inconsistent decision systems and systematic research and discussion to the relationship between attribute reduction based on different granule, but also the proposing reduction algorithms and the rule generation algorithms can be applied in large data sets. The automatic multidimensional subspace clustering algorithm will offers more efficient means to the clustering analysis of high-dimensional datasets.All these studies are benefit to the data analysis and processing of complex data.
目前,基于分类和聚类的知识发现理论和技术已有长足进步,各种挖掘方法层出不穷, 但一些有待研究的问题日趋突出。尤其, 面对的数据往往具有含糊,不完备,不一致,高维度等特点。课题研究复杂数据的分类和聚类模型,包括:(1)具有相容因子的相容粒计算模型,在不完备不一致决策系统中重新定义分配约简、分布约简和最大分布约简。(2)不完备不一致决策系统中基于不同基粒定义的各种约简的系统比较;(3)不完备不一致决策系统的快速启发式约简算法;(4)基于相容粒计算模型的LEM2规则获取算法;(5)自动多维子空间聚类算法。该研究解决目前不完备不一致决策系统的分配、分布和最大分布约简研究存在的缺陷、系统的比较和理清不同基粒下定义的各种约简之间的关系,提出高效的约简及规则生成算法能够实际应用于大规模数据集;特别是自动多维子空间聚类算法为高维数据的聚类分析提供新颖有效的手段。所有这些研究对于复杂数据的智能分析大有裨益。
粒计算作为信息处理的一种概念和计算范式在近年来发展相当迅速。粒计算一般形式包括区间计算、模糊集合计算、粗糙集合计算、概率分布计算。粒的定义可以是根据属性值的不可分辩性、等价性、相似性、相近性、或者功能性而结合在一起。项目主要从粒计算在知识发现中应用的关键环节进行了研究。理论研究包括不一致决策系统的属性约简、不完备不一致决策系统的属性约简、概率粗糙集层次聚类,概率粗糙集波段选择应用于高光谱数据分类,等多个方面的内容。取得的研究成果包括:. 我们提出了分配近似集、分布近似集和最大分布近似集的概念,并给出了它们的相关性质;提出了分配约简、分布约简和最大分布约简的极简化判定定理;提出了分配依赖度函数、分布依赖度函数和最大分布依赖度函数,提出了快速分配约简算法Q-ARA,快速分布约简算法Q-DRA和快速最大分布约简算法Q-MDRA,这些算法均是高效率启发式算法,能够实际应用于现实中的海量高维数据集。. 对不完备不一致决策表定义了相容粒簇的概念;提出了快速计算对象相容粒的算法;提出了启发式快速分配约简算法F-ARA用于不完备不一致决策表的分配约简。.对于符号类型数据集,定义了统计均值分布近似精度的概念用于聚类属性选择;提出了基于概率粗糙集的符号类型数据层次聚类算法MTMDP(Maximum Total Mean Distribution Precision)。该算法利用概率粗糙集理论处理聚类过程中的不确定性,算法聚类过程中的运算对象是划分形成的粒子而不是单数据点,从而把聚类和粒计算联系起来。理论分析和实验表明,MTMDP算法具备MMR算法的所有优点,并且显著的提高了聚类精度。MTMDP算法拓展了粗糙集理论在聚类问题中的应用,是粒计算理论应用的新拓展。. 提出了一阶概率分布属性选择算法。算法应用在高光谱数据波带特征选择,实验结果表明选出的波带具有较优的分类性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
服务经济时代新动能将由技术和服务共同驱动
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
面向动态复杂数据的粒化模型与知识发现研究
多源直觉模糊数据集知识发现的粒计算方法研究
面向带偏好直觉模糊数据的粒计算与知识获取研究
面向大规模复杂数据的多粒度知识发现关键理论与方法研究