Multiple instance learning (MIL) has become a hot research topic in the fields of machine learning and data mining in recent years. The training of existing MIL methods on large scale data usually requires too high time and space costs, which is unacceptable in most cases. This project studies the efficient and effective MIL methods on large scale data according to the characteristics of data in MIL. The contents include: the theoretical analysis and algorithms on bag downsampling in MIL setting; the theories and algorithms on how to get the similarity between two bags represented by graph efficiently; online multiple instance learning algorithm updating with multiple bags simultaneously; Finally, we study how to accelerate the training of MIL methods on large scale image and video data. This project aims to reveal the characteristics of data in MIL setting to provide the theoretical foundation and technological support.
多示例学习近些年来一直是机器学习和数据挖掘领域中的热点问题。但现有的多示例学习方法面对大规模数据时,通常训练所花费的时间以及空间代价过大而无法承受。本课题针对多示例学习中训练集数据本身的特点,研究如何在大规模数据集上进行快速有效训练的多示例学习方法。具体研究内容包括:在多示例学习环境中对以包为单位的数据进行降采样的理论分析以及降采样算法研究;探索以图来表示的两个包如何有效进行比较的理论以及可以快速计算的多示例核函数的算法;研究使用多个包进行对当前预测函数进行一次更新的在线多示例学习算法。最后,我们利用图像和视频数据本身的特点研究如何加速多示例学习的训练。本项目旨在揭示多示例学习环境中训练数据的特点,为能够在大规模数据集上高速有效地进行多示例学习提供理论基础和技术支撑。
多示例学习是机器学习领域的一个重要研究方向。近年来随着信息技术的发展,多示例学习中训练集的数据数量快速增多呈现大规模化的发展方向。很多传统的多示例学习方法在大规模数据进行训练都会遇到训练时间代价过大的问题。本课题主要针对此问题提出了针对若干特定多示例学习问题如何在大规模数据上进行高效训练的算法。其中包括我们提出的在线多示例异常检测算法、仅用正包训练的多示例学习算法以及用于快速检索的多示例哈希算法等。同时我们也运用这些方法的思想较好地解决了一些包括机器人视觉、立体匹配等实际问题。在本课题资助下目前已发表论文7篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
拥堵路网交通流均衡分配模型
内点最大化与冗余点控制的小型无人机遥感图像配准
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
面向多示例数据的分类和多序列回归算法研究
面向多示例数据标注的隐变量支持向量机研究
多示例学习及其应用的研究
面向大规模数据的机器学习算法研究