Collecting a large amount of correctly labelling data is very difficult in practice and it is uncommon that a large portion of them contain label noise. This is an important issue in classification with many potential negative consequences, such as deteriorating the prediction accuracy and increasing unnecessarily the complexity of inferred models. In this project we will focus on developing novel and practical techniques which deal with this problem. Particularly, we will investigate the feasibility to improve the effectiveness of data cleaning by simultaneously considering both data and its label information, through carefully modeling the generative nature of labels from various angles. Furthermore, we plan to develop new robust models against label noise under the framework of Bayesian learning, along with the accompanying efficient optimization methods. Finally, we will apply the techniques developed in the project on real world applications, e.g, face verification and kinship verification, so as to verify their effectiveness and feasibility. The project will take the full advantages of the recent advances in the fields of computer vision and machine learning and improve upon the state-of-the-art in both fields. The project thus overcomes several major limitations of current work in label noise learning and will play a positive role in approaching an artificial cognitive system that better meets the diverse needs of many real world applications.
本项目研究如何利用大规模标号带噪数据来提高已有分类器推广性能问题,从而增强智能系统在复杂现实环境中的适应性和自学习能力。项目的研究特色包括:1)通过对标号信号生成过程的建模,以优化标注方式,减少标注代价,提高可用数据的信噪比为目标,提出一系列新的针对原始标注信息的清洗和纠错方法,;2)提出基于贝叶斯框架的对标号带噪数据鲁棒的机器学习方法,并开发相应的高效优化算法,分析其理论性质,为该问题的解决做出理论贡献;3)基于前述研究成果发展基于大规模标号带噪数据的新型应用。本项目的开展旨在提高计算机感知和融合高维数据的标号信息的能力,为智能系统理解复杂环境下标号带噪数据这一模式识别中的基本问题提供新的计算模型和研究思路,在更好满足现实应用需求的同时,为相关基础理论作出贡献。
如何构建具有强泛化性能的学习模型是机器学习领域研究的核心问题之一,尤其是在数据信息不充分/不确定,特别是标号信息不充分/不确定的情况下。本项目重点研究了几种能够有效利用标号带噪数据来进行自学习和自我适应的机器学习方法, 并将其应用于现实复杂场景下的计算机视觉、强化学习等一系列机器学习问题。 具体而言, 本项目研究了如下3个方面的内容: 1) 标注信号生成方法及建模。通过对标号生成过程的建模和深入理解, 有目的地对原始标注进行清洗和纠错,为后续的模型学习提供便利。同时还有助于寻找最优标注方式, 减少标注代价;2) 基于贝叶斯框架的标号带噪学习及其高效优化算法。 利用贝叶斯学习框架可以有效地引入各种有用的先验信息, 有效避免当标号带噪时模型过于复杂以致现过拟合的问题。 同时利用贝叶斯框架对模型的不确定性的推理机制, 可以在标号信息不充分时做出更加合理的决策。 3) 扩展性应用研究。 通过对前两部分内容的研究和分析, 将其理论研究成果推广到实际的计算机视觉、 工业制造、强化学习等机器学习的应用场景中, 从而验证了本项目针对模型泛化性能研究的可用性和有效性。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
硬件木马:关键问题研究进展及新动向
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于SSVEP 直接脑控机器人方向和速度研究
内点最大化与冗余点控制的小型无人机遥感图像配准
多任务贝叶斯网络学习及其应用
贝叶斯框架下风险度量的非参数估计及其应用研究
基于贝叶斯增强学习的自适应奖赏学习策略机制研究
多源迁移学习的贝叶斯网络预测方法与应用研究