由于集成学习可以有效地提高机器学习系统的泛化能力,从20世纪90年代开始,对集成学习理论和算法的研究就成为机器学习的一个热点,目前仍然是机器学习中受到普遍关注的研究方向之一。AdaBoost作为集成学习算法中最具代表性的算法之一,也是集成学习算法中应用最为广泛、研究成果最为丰富的分支之一。本项目以AdaBoost算法为出发点,对该类算法在不同数据集上的性能和行为特征进行详细分析和探讨,深入研究动态模型可信度(Dynamic Model Credibility)技术,进一步完善基于动态模型可信度的Boosting算法框架(简称DmcBoost算法),以提高传统AdaBoost算法的精确度和在不同类型数据集上的鲁棒性,并在大规模实际问题上进行检验和应用。
由于集成学习(Ensemble Learning)可以有效地提高机器学习系统的学习能力,从20 世纪90 年代开始,对集成学习理论和算法的研究就成为机器学习的一个热点,目前仍然是机器学习中受到普遍关注的研究方向。AdaBoost 作为集成学习中代表性的算法,也是集成学习中应用最为广泛、研究成果最为丰富的分支之一。.传统的AdaBoost算法在训练中根据训练误差逐一给每个新生成的基础分类器设置一个固定的权重。同时,AdaBoost算法对训练样本集的调整过程又体现了局部化的思想,通过对样本权重分布的调整,使后面的分类器更加专注于前面分类器分类错误的样本。因此不同的分类器在学习的过程中各有侧重,导致在不同区域上的准确性会有一定的差异。由于每个基础分类器在样本空间中各有所长,仅仅根据整体错误率设置的固定权重并不能准确体现分类器对不同未知样本的分类能力。因此,我们认为有必要根据未知输入样本的个性化特征动态地设置权重,从而更加准确地评价基础模型(分类器)的可信度。.本课题从动态模型可信度(Dynamic Model Credibility)思想出发,对传统AdaBoost算法的权重设置机制进行了研究和改进,在以下几方面开展了较深入的研究:.1). 分式距离对基于KNN的DmcBoost算法的影响;.2). RegionBoost 收敛性的分析;.3). RegionBoost 在增量学习中的应用;.4). 基于面向度量准则的不平衡数据训练策略。.我们的研究结果表明,传统的固定权重模式虽然具有简单易行的优点,但是从本质上体现的是一种局部最优的思想,并不能保证对空间不同区域均进行有效的分类。当数据分布发生变化的时候,或是存在显著的类别不平衡现象的时候,固定权重往往不能有效地起到集成的效果。采用基于启发信息的模型可信度以及根据特定的数据属性和分类的目标,采用全局优化算法来进行权重的设置能够提高集成学习的分类准确性和适用性,是一条行之有效的策略,在今后应当开展更深入的相关研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
货币政策与汇率制度对国际收支的影响研究
基于间隔理论的动态选择性集成学习算法研究
基于增强学习的动态优化问题模型及算法研究
集成主动学习和众包技术的迁移学习算法研究
众源地理信息的可信度计算模型与算法研究