Although a large number of ensemble learning approaches were originally developed for supervised learning tasks due to its excellent robustness and classification accuracy, many researchers have recently attempted to improve clustering via unsupervised ensemble learning. This has led to many real world applications, including gene classification, image segmentation, video retrieval and so on. In fact, the different clustering ensemble techniques have their own behaviors on data of various characteristics. It is a big challenge to develop a universal approach for different kind of datasets. In this proposal, we propose a novel hybrid unsupervised ensemble learning model by combining the strengths of various ensemble techniques. Four key issues are explored in this proposal: (1) via combining the strength of boosting and bagging, a novel hybrid sampling scheme is proposed to generate multiple partitions. Such scheme significantly increases the reliability of the initial clustering analysis. (2) By considering both the global and local structural information, a novel consensus function is proposed to combine input partitions into a robust consensus partition. (3) the appropriate cluster number can be automatically determined during clustering analysis. Sum of all, we will carry out the forefront research of ensemble learning in this project, the research results will not only contribute to the theoretical analysis, but also applications of data mining and pattern recognition.
集成学习算法的提出是为了提高机器学习系统的稳定性与精确度,凭借其优越的性能,大量针对于监督性学习问题的集成学习算法应运而生.近年来许多研究人员,试图通过此类算法来提高非监督性学习中聚类分析的性能,其应用前景十分广泛,包括基因分类,图像分割,视频检索等。但其有很大的局限性,如:只针对单一特点的数据集有效和对数据集的簇结构有较强的假设性。为此,开发一种普遍适用于不同特点数据集的聚类集成算法极为迫切。本课题将提出一种具有多种优势的混合式聚类集成学习模型,以解决以下主要问题:(1)通过提出一种新的混合学习样本采样机制,提高聚类集成学习中初始聚类分析的可靠性。(2)结合数据的局部和全局信息,构建一个全新的融合函数,从而适用于不同特点数据集的聚类分析。(3)在聚类分析中能够自动确定正确的类数。综上所述本课题将在集成学习算法方面提出较为前沿的理论研究,其研究成果必将具有较高的理论和实用价值。
集成学习算法的提出是为了提高机器学习系统的稳定性与精确度,凭借其优越的性能,大量针对于监督性学习问题的集成学习算法应运而生.近年来许多研究人员,试图通过此类算法来提高非监督性学习中聚类分析的性能,其应用前景十分广泛,包括基因分类,图像分割,视频检索等。但其有很大的局限性,如:只针对单一特点的数据集有效和对数据集的簇结构有较强的假设性。为此,开发一种普遍适用于不同特点数据集的聚类集成算法极为迫切。..本课题围绕相关研究领域开展了以下研究内容,并取得了一系列研究成果:(1)集成学习算法中学习样本采集机制的研究, 其通过提出一种新的混合学习样本采样机制,提高聚类集成学习中初始聚类分析的可靠性。(2)集成学习算法中融合函数的研究,其结合数据的局部和全局信息,构建一个全新的融合函数,从而适用于不同特点数据集的聚类分析。(3)非监督信息自确定能力,在聚类分析中能够自动确定正确的类数。(4)半监督集成学习的研究,提出了一种混合式半监督聚类和半监督分类相结合的集成学习框架,在此算法中,预测类标由多种半监督基础算法模块共同决定,以此改善半监督学习中预测类标的可靠性。在此工作基础上,进一步研发一种基于密度信息的自适应半监督学习算法,此算法解决目标数据集分布同密度不同的问题,并具有较高的稳定性,可以识别不规则的复杂簇结构,同时具有一定的抗噪性。..课题组在集成学习,非监督学习,半监督学习方面提出了较为前沿的理论研究,其研究成果发表学术论文8篇(其中,SCI检索5篇,EI检索3篇),在Elsevier出版社出版英文专著1部,在清华大学出版社出版中文专著1部,申请发明专利5项。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
低轨卫星通信信道分配策略
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于半监督学习的聚类集成机理及高效算法研究
基于谱聚类的文本聚类集成方法研究
面向多源异构流数据的在线聚类集成算法研究及其应用
基于聚类集成算法的癌症基因表达数据模式发现新框架的研究