In the current research of machine learning and pattern recognition, it has attracted extensive attentions that how to utilize a large number of unlabeled data to enhance the generalized ability of the classifier. Active learning has become one of the main methods in solving the problem, because the potential information contained in the unlabeled data is fully utilized, and then annotation costs of constructing training sets are also reduced. But the application of active learning algorithms is restricted as a result of some idealized assumptions in example selection and annotation querying. In this project, considering the characteristics of dynamically distribution, large-scale data and noisy annotations, we plan to develop active learning algorithms by relaxing these strict assumptions in existing works of active learning. We plan to discuss an active sampling strategy in conditions of dynamically non-identical distributed data in order to overcome the limitation of identical distribution assumption. At the same time, we calculate the uncertainty of local-sensitive hashing data in order to increase the sampling efficiency. Then, in conditions of noisy annotations, we estimate the precise annotations of selected examples in order to further reduce the impact of noise. At last, we apply the above-mentioned active learning algorithms on a real task of object-to-category retrieval, and then validate the effectiveness of active learning algorithms.
如何利用大量未标注数据来提高分类模型的泛化性能是当前机器学习、模式识别研究中备受关注的问题之一。主动学习有效利用了未标注数据的潜在信息,降低了构造训练集所需精确标注代价,成为解决该问题的主流方法之一。但是,传统主动学习在选取样本和添加标注过程中往往存在一些理想化假设,限制了主动学习效果。本项目针对异分布数据具有动态分布、大规模和噪声标注的特点,放宽传统主动学习较严格的假设,旨在开展面向异分布数据的主动学习研究。本项目研究针对动态异分布数据的主动采样策略,克服样本同分布假设的局限;同时,计算基于局部敏感哈希索引的样本不确定度,提升样本选择效率;针对噪声标注信息,主动估计所选样本的正确标注,进一步降低噪声标注的影响。最后,通过在视觉对象-类别检索系统上的应用,验证了面向异分布数据的主动学习方法在图像检索任务上的有效性,证明了该方法的性能优势。
首先,如何利用大量未标注数据来提高分类模型的泛化性能是当前机器学习、模式识别研究中备受关注的问题之一。主动学习有效利用了未标注数据的潜在信息,降低了构造训练集所需精确标注代价,成为解决该问题的主流方法之一。但是,传统主动学习在选取样本和添加标注过程中往往存在一些理想化假设,限制了主动学习效果。本项目针对异分布数据具有动态分布、大规模和噪声标注的特点,放宽传统主动学习较严格的假设,开展了面向异分布数据的主动学习研究。本项目研究并实现了针对动态异分布数据的主动采样策略,克服样本同分布假设的局限;根据样本的特征结构研究和实现了样本不确定度的快速计算方法,提升了样本选择效率;针对噪声标注信息,主动估计所选样本的正确标注,进一步降低噪声标注的负面影响,并在视觉对象-类别检索系统上验证了上述主动学习技术的有效性,证明了该方法的性能优势。其次,如何利用机器学习学习方法及其相关技术辅助研究人员发掘医学图像中的潜在信息,帮助相关领域的医学专家诊断和建立治疗方案是计算机科学与医学交叉领域研究的重要方向之一。项目在一组注意力缺失/过动症(ADHD)的患儿与对照组儿童的磁共振成像数据集上,建立了全脑白质纤维跟踪结果,提取了额前叶区45个白质纤维束的属性特征向量,使用机器学习技术进行了分析和比较,首次发现了8个具有统计学意义的脑白质纤维束结构的改变,为该病发病机理研究、临床诊断和治疗提供了参考依据。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
面向大数据的渐进式集成学习方法与分布式算法研究
面向不平衡分类任务的主动学习方法研究
面向大数据的安全迁移学习方法
面向非独立同分布大数据的学习方法及其在医学图像分析中的应用