特异群组挖掘是一种新的数据挖掘任务,应用领域广泛,具有重要的应用价值。聚类、异常挖掘和特异群组挖掘属于根据数据对象的相似性来划分数据集的数据挖掘问题。其中,聚类是将大部分具有相似性的数据对象分到若干个簇中的过程;异常挖掘发现数据集当中明显不同于大部分对象(具有相似性)的数据对象;而特异群组挖掘是发现数据集当中明显不同于大部分数据对象(不具有相似性)的数据对象,其在问题定义、算法设计和应用效果都不同于聚类和异常挖掘,不能由现有的聚类、异常等数据挖掘技术实现。本项目在课题组前期工作的基础上,研究特异群组挖掘问题的形式化并设计特异群组挖掘算法,建立一个特异群组挖掘理论体系。主要研究内容包括:①特异群组挖掘问题的形式化;②特异群组的特异性度量的定义;③特异群组挖掘算法的设计;④BenchMark数据集的建立。本项目研究成果将为特异群组挖掘技术研究和应用奠定理论基础。
高价值低密度常常被用于描述大数据的特征,挖掘高价值低密度的数据对象是大数据的一项重要工作。特异群组是一类高价值低密度的大数据形态。本项目针对特异群组挖掘任务进行了深入的研究,即如何在大数据集中发现那些少部分具有相似性的对象形成的群组,而大部分数据对象不在任何组中,也不和其他对象相似。研究成果包括特异群组挖掘任务的系统阐述,特异群组挖掘任务与聚类、异常等任务之间的差异分析,特异群组挖掘任务的形式化定义,特异群组的特异性度量,一系列特异群组挖掘算法的研究设计,构建特异群组挖掘BenchMark数据集,并将所提出的算法在这些真实数据集上实现和应用,最终形成了特异群组挖掘形式化框架和理论体系,为特异群组挖掘技术研究和应用奠定理论基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
混采地震数据高效高精度分离处理方法研究进展
国际比较视野下我国开放政府数据的现状、问题与对策
群组决策动态过程的建模和数据挖掘方法研究
过程挖掘算法评估框架研究
海量不确定图挖掘算法研究
基于图结构的文献挖掘算法研究