Active learning is one of major research fields in machine learning and data mining. It can reduce the sample complex by actively selecting the samples to learn,further reduce label costs by human.However, traditional active learning algorithms often fail to produce excellent enough classification performance for skewed classification tasks, due to its learning process will be destroyed by imbalanced unlabeled sample distribution. This project will first analyze the features of pool-based and stream-based imbalanced classification tasks, respectively. Then the project will research the strategies to alleviate the effect of class imbalance from three aspects, which correspond to three key procedures in active learning: query sample selection, balance control and stopping decision. Based on the work above, an effective active learning algorithm, which is specifically designed for imbalanced classification tasks with unbabeled samples, can be proposed. Furthermore, this project will also investigate the structure features of multiclass imbalanced classification tasks and present effective active learning algorithms. The research findings can be widely applied in many real fields, including financial fraud detection, network intrusion detection, spam filtering, video monitoring, Bioinformatics etc., thus this research is important for both theory and application.
主动学习是机器学习及数据挖掘领域研究的重要方向之一,该技术通过主动选择学习样例的方式,可降低学习算法的样本复杂度,从而减少手工标注的代价。然而,当将传统的主动学习算法应用于不平衡分类任务时,其学习过程可能会受到无标记样本不平衡分布的影响,使算法难以获得令人满意的学习效果。本项目分别根据数据池和数据流等两类不平衡分类任务各自的特点,从"查询样本"的选择﹑学习过程的"平衡控制"及学习停止条件的判定等三个影响主动学习性能的关键步骤入手,研究可缓解不平衡样本分布影响的有效策略,进而提出适用于不平衡分类任务的主动学习算法。此外,还将根据多类不平衡分类任务自身的结构特点,扩展已有的研究成果,提出具有针对性的面向多类不平衡分类任务的主动学习算法。项目的研究成果有望在金融欺诈检测﹑网络入侵检测﹑垃圾邮件过滤、文本分类﹑视频监控及生物信息学等多个领域得到实际应用,因此具有较重要的理论与应用价值。
类别不平衡学习与主动学习均是机器学习与数据挖掘领域的重要研究方向,在现实世界中也均具有广泛的应用价值。然而,前人工作却很少考虑将上述两类技术结合使用,仅有的少部分工作也仅是利用主动学习技术来缓解类别不平衡问题,却并未考虑样本不平衡分布会对主动学习的性能产生何种影响。因此,本项目主要针对上述问题展开深入研究,并取得了一系列的研究成果。具体研究成果如下:1) 探究了高维不平衡数据的结构特点,充分利用此类数据的特点,构造了一种高效的集成分类算法,其可在不损失单体分类器性能的前提下,大幅提升集成中个体分类器间的差异度,明显提高了此类数据的分类性能;2) 利用优化的思想,对类别不平衡学习中的决策输出补偿技术进行了改进,使其不再依赖于经验值,而是能自适应地对分类面位置进行调整,取得了很好的理论与实验效果;3) 为适应主动学习过程对速度与质量的双重要求,设计了一种基于极限学习机的主动学习算法,该算法充分利用了极限学习机的结构特点,通过非线性变换的方法将网络的实际输出转化为样本的近似后验概率形式,进而利用其作为“查询样本”选取的不确定性度量标准,大量实验结果表明:该算法具有与前人最好算法大致相当的分类性能,但运行时间却只有前人算法的几十分到几千分之一;4) 充分调查了样本不平衡分布对主动学习的影响机理,并以研究内容3为基础,借鉴代价敏感学习的思想,提出了一种高效的“平衡控制”策略,进而将其与在线学习相结合(已通过理论推导证明),开发了一种有效且高效的适用于样本分布不平衡场景的主动学习算法,取得了非常好的实验效果;5) 引入滑动时间窗,提出了一种适用于单样例标注场景的基于选择精度的主动学习停止准则,扩大了此类准则的适用范围。本项目的研究成果有助于为后续的实践研究提供理论基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于铁路客流分配的旅客列车开行方案调整方法
多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法
基于被动变阻尼装置高层结构风振控制效果对比分析
基于多色集合理论的医院异常工作流处理建模
基于腔内级联变频的0.63μm波段多波长激光器
面向不平衡数据分类的演化硬件集成学习方法研究
面向多类图像分类的众包主动学习方法研究
面向异分布数据的主动学习方法
面向复杂数据的多任务学习方法与应用