混合式聚类集成算法的研究

基本信息

批准号：61402397

项目类别：青年科学基金项目

资助金额：26.00

负责人：杨云

学科分类：

依托单位：云南大学

批准年份：2014

结题年份：2017

起止时间：2015-01-01 - 2017-12-31

项目状态：已结题

项目参与者：张云春,何婧,代飞,刘金卓,谢仲文,李海,许红星

关键词：

数据挖掘聚类集成学习非监督性学习

结项摘要

Although a large number of ensemble learning approaches were originally developed for supervised learning tasks due to its excellent robustness and classification accuracy, many researchers have recently attempted to improve clustering via unsupervised ensemble learning. This has led to many real world applications, including gene classification, image segmentation, video retrieval and so on. In fact, the different clustering ensemble techniques have their own behaviors on data of various characteristics. It is a big challenge to develop a universal approach for different kind of datasets. In this proposal, we propose a novel hybrid unsupervised ensemble learning model by combining the strengths of various ensemble techniques. Four key issues are explored in this proposal: (1) via combining the strength of boosting and bagging, a novel hybrid sampling scheme is proposed to generate multiple partitions. Such scheme significantly increases the reliability of the initial clustering analysis. (2) By considering both the global and local structural information, a novel consensus function is proposed to combine input partitions into a robust consensus partition. (3) the appropriate cluster number can be automatically determined during clustering analysis. Sum of all, we will carry out the forefront research of ensemble learning in this project, the research results will not only contribute to the theoretical analysis, but also applications of data mining and pattern recognition.

项目摘要

集成学习算法的提出是为了提高机器学习系统的稳定性与精确度，凭借其优越的性能，大量针对于监督性学习问题的集成学习算法应运而生.近年来许多研究人员，试图通过此类算法来提高非监督性学习中聚类分析的性能，其应用前景十分广泛，包括基因分类，图像分割，视频检索等。但其有很大的局限性，如:只针对单一特点的数据集有效和对数据集的簇结构有较强的假设性。为此，开发一种普遍适用于不同特点数据集的聚类集成算法极为迫切。..本课题围绕相关研究领域开展了以下研究内容，并取得了一系列研究成果：（1）集成学习算法中学习样本采集机制的研究, 其通过提出一种新的混合学习样本采样机制，提高聚类集成学习中初始聚类分析的可靠性。（2）集成学习算法中融合函数的研究，其结合数据的局部和全局信息，构建一个全新的融合函数，从而适用于不同特点数据集的聚类分析。（3）非监督信息自确定能力，在聚类分析中能够自动确定正确的类数。（4）半监督集成学习的研究，提出了一种混合式半监督聚类和半监督分类相结合的集成学习框架，在此算法中，预测类标由多种半监督基础算法模块共同决定，以此改善半监督学习中预测类标的可靠性。在此工作基础上，进一步研发一种基于密度信息的自适应半监督学习算法，此算法解决目标数据集分布同密度不同的问题，并具有较高的稳定性，可以识别不规则的复杂簇结构，同时具有一定的抗噪性。..课题组在集成学习，非监督学习，半监督学习方面提出了较为前沿的理论研究，其研究成果发表学术论文8篇（其中，SCI检索5篇，EI检索3篇），在Elsevier出版社出版英文专著1部，在清华大学出版社出版中文专著1部，申请发明专利5项。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：

发表时间：2021

DOI：10.7524 /j.issn.0254-6108.2017122903

发表时间：2018

DOI：10.7606/j.issn.1000-7601.2021.04.29

发表时间：2021

DOI：10.12202/j.0476-0301.2022178

发表时间：2022

杨云的其他基金

批准号：81502416

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

批准号：61876166

批准年份：2018

资助金额：62.00

项目类别：面上项目

批准号：61663046

批准年份：2016

资助金额：40.00

项目类别：地区科学基金项目

批准号：21101168

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

批准号：21471117

批准年份：2014

资助金额：85.00

项目类别：面上项目

批准号：41271447

批准年份：2012

资助金额：75.00

项目类别：面上项目

批准号：51872325

批准年份：2018

资助金额：60.00

项目类别：面上项目

批准号：21101120

批准年份：2011

资助金额：30.00

项目类别：青年科学基金项目

批准号：11201056

批准年份：2012

资助金额：22.00

项目类别：青年科学基金项目

相似国自然基金

基于半监督学习的聚类集成机理及高效算法研究

批准号：61170111

批准年份：2011

负责人：杨燕

学科分类：F0607

资助金额：55.00

项目类别：面上项目

基于谱聚类的文本聚类集成方法研究

批准号：60975042

批准年份：2009

负责人：卢志茂

学科分类：F0603

资助金额：32.00

项目类别：面上项目

面向多源异构流数据的在线聚类集成算法研究及其应用

批准号：61602189

批准年份：2016

负责人：黄栋

学科分类：F0605

资助金额：20.00

项目类别：青年科学基金项目

基于聚类集成算法的癌症基因表达数据模式发现新框架的研究

批准号：61003174

批准年份：2010

负责人：余志文

学科分类：F0213

资助金额：18.00

项目类别：青年科学基金项目

混合式聚类集成算法的研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

基于铁路客流分配的旅客列车开行方案调整方法

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

向日葵种质资源苗期抗旱性鉴定及抗旱指标筛选

复杂系统科学研究进展

杨云的其他基金

肝星状细胞microRNA-199在肝硬化及肝癌发生中的作用和机制研究

多源域集成迁移学习的研究

针对时间序列聚类问题的特征学习与集成学习研究

新型复合碱金属硼酸盐紫外非线性光学材料的研究

软模板法合成贵金属纳米棒阵列以及表面增强拉曼光谱研究

面向国外地理信息提取的地图图像智能化处理方法研究

短波长非线性光学晶体硼酸铯钡生长及性能研究

通过选择性刻蚀可控制备贵金属纳米结构

中心仿射微分几何若干问题研究

相似国自然基金