混合式聚类集成算法的研究

基本信息
批准号:61402397
项目类别:青年科学基金项目
资助金额:26.00
负责人:杨云
学科分类:
依托单位:云南大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:张云春,何婧,代飞,刘金卓,谢仲文,李海,许红星
关键词:
数据挖掘聚类集成学习非监督性学习
结项摘要

Although a large number of ensemble learning approaches were originally developed for supervised learning tasks due to its excellent robustness and classification accuracy, many researchers have recently attempted to improve clustering via unsupervised ensemble learning. This has led to many real world applications, including gene classification, image segmentation, video retrieval and so on. In fact, the different clustering ensemble techniques have their own behaviors on data of various characteristics. It is a big challenge to develop a universal approach for different kind of datasets. In this proposal, we propose a novel hybrid unsupervised ensemble learning model by combining the strengths of various ensemble techniques. Four key issues are explored in this proposal: (1) via combining the strength of boosting and bagging, a novel hybrid sampling scheme is proposed to generate multiple partitions. Such scheme significantly increases the reliability of the initial clustering analysis. (2) By considering both the global and local structural information, a novel consensus function is proposed to combine input partitions into a robust consensus partition. (3) the appropriate cluster number can be automatically determined during clustering analysis. Sum of all, we will carry out the forefront research of ensemble learning in this project, the research results will not only contribute to the theoretical analysis, but also applications of data mining and pattern recognition.

集成学习算法的提出是为了提高机器学习系统的稳定性与精确度,凭借其优越的性能,大量针对于监督性学习问题的集成学习算法应运而生.近年来许多研究人员,试图通过此类算法来提高非监督性学习中聚类分析的性能,其应用前景十分广泛,包括基因分类,图像分割,视频检索等。但其有很大的局限性,如:只针对单一特点的数据集有效和对数据集的簇结构有较强的假设性。为此,开发一种普遍适用于不同特点数据集的聚类集成算法极为迫切。本课题将提出一种具有多种优势的混合式聚类集成学习模型,以解决以下主要问题:(1)通过提出一种新的混合学习样本采样机制,提高聚类集成学习中初始聚类分析的可靠性。(2)结合数据的局部和全局信息,构建一个全新的融合函数,从而适用于不同特点数据集的聚类分析。(3)在聚类分析中能够自动确定正确的类数。综上所述本课题将在集成学习算法方面提出较为前沿的理论研究,其研究成果必将具有较高的理论和实用价值。

项目摘要

集成学习算法的提出是为了提高机器学习系统的稳定性与精确度,凭借其优越的性能,大量针对于监督性学习问题的集成学习算法应运而生.近年来许多研究人员,试图通过此类算法来提高非监督性学习中聚类分析的性能,其应用前景十分广泛,包括基因分类,图像分割,视频检索等。但其有很大的局限性,如:只针对单一特点的数据集有效和对数据集的簇结构有较强的假设性。为此,开发一种普遍适用于不同特点数据集的聚类集成算法极为迫切。..本课题围绕相关研究领域开展了以下研究内容,并取得了一系列研究成果:(1)集成学习算法中学习样本采集机制的研究, 其通过提出一种新的混合学习样本采样机制,提高聚类集成学习中初始聚类分析的可靠性。(2)集成学习算法中融合函数的研究,其结合数据的局部和全局信息,构建一个全新的融合函数,从而适用于不同特点数据集的聚类分析。(3)非监督信息自确定能力,在聚类分析中能够自动确定正确的类数。(4)半监督集成学习的研究,提出了一种混合式半监督聚类和半监督分类相结合的集成学习框架,在此算法中,预测类标由多种半监督基础算法模块共同决定,以此改善半监督学习中预测类标的可靠性。在此工作基础上,进一步研发一种基于密度信息的自适应半监督学习算法,此算法解决目标数据集分布同密度不同的问题,并具有较高的稳定性,可以识别不规则的复杂簇结构,同时具有一定的抗噪性。..课题组在集成学习,非监督学习,半监督学习方面提出了较为前沿的理论研究,其研究成果发表学术论文8篇(其中,SCI检索5篇,EI检索3篇),在Elsevier出版社出版英文专著1部,在清华大学出版社出版中文专著1部,申请发明专利5项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
5

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022

杨云的其他基金

批准号:81502416
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:61876166
批准年份:2018
资助金额:62.00
项目类别:面上项目
批准号:61663046
批准年份:2016
资助金额:40.00
项目类别:地区科学基金项目
批准号:21101168
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:21471117
批准年份:2014
资助金额:85.00
项目类别:面上项目
批准号:41271447
批准年份:2012
资助金额:75.00
项目类别:面上项目
批准号:51872325
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:21101120
批准年份:2011
资助金额:30.00
项目类别:青年科学基金项目
批准号:11201056
批准年份:2012
资助金额:22.00
项目类别:青年科学基金项目

相似国自然基金

1

基于半监督学习的聚类集成机理及高效算法研究

批准号:61170111
批准年份:2011
负责人:杨燕
学科分类:F0607
资助金额:55.00
项目类别:面上项目
2

基于谱聚类的文本聚类集成方法研究

批准号:60975042
批准年份:2009
负责人:卢志茂
学科分类:F0603
资助金额:32.00
项目类别:面上项目
3

面向多源异构流数据的在线聚类集成算法研究及其应用

批准号:61602189
批准年份:2016
负责人:黄栋
学科分类:F0605
资助金额:20.00
项目类别:青年科学基金项目
4

基于聚类集成算法的癌症基因表达数据模式发现新框架的研究

批准号:61003174
批准年份:2010
负责人:余志文
学科分类:F0213
资助金额:18.00
项目类别:青年科学基金项目