基于包间距离、直接以包为学习对象的多示例学习维数约减问题研究

基本信息
批准号:61403273
项目类别:青年科学基金项目
资助金额:25.00
负责人:柴晶
学科分类:
依托单位:太原理工大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:陈宏涛,谢珺,赵振廷,魏也,岂锋利,徐亚昆
关键词:
多示例学习维数约减维数灾难
结项摘要

Multiple-instance learning, of which each training example is a set of instances (usually termed as a bag) and only the class labels of bags are known in advance, has been treated as a new branch of machine learning and applied in many different domains. Among current mulitple-instance dimensionality reduction algorithms, some are designed undirectly from the instance level and it is difficult for them to reveal the fact that each basic learning object of multiple-instance learning is a bag, the others are designed directly from the bag level and they also have some drawbacks, e.g., the weak generalization ability (promising learning performance can only be achieved for some specific classifier, not for others), the neglect of different contributions of different instances in a given bag when constructing corresponding bag-to-bag (B2B) distances, etc.. By constructing new B2B distances to make up for the drawbacks of current ones, we would like to take a comprehensive study on directly bag-level designing of generalized mulitple-instance dimensionality reduction algorithms. Through this study, we may extract the underlying discriminative information of multiple-instance data, remove the noisy and redundant components, reduce the time and space complexities, weaken the disadvantage caused by the curse-of-dimensionality problem in high-dimensional case, and finally, achieve the goal of obtaining higher classification accuracies with lower dimensions.

多示例学习的一个显著特点在于其训练样本是一系列示例的集合(通常被称作一个“包”)且只有包的类别标记是已知的,被认为是一种新的学习机制且广泛应用于众多机器学习领域。在现有的多示例学习维数约减算法中,从示例层面设计的间接学习算法很难体现出多示例学习以包为基本学习对象的特点,从包的层面设计的直接学习算法也存在一些不足,例如通用性较差(学习性能易受某种特定分类器制约),未充分考虑包内每个示例在构建包间距离时所起的不同作用,等等。本项目拟通过构建新的包间距离以弥补现有包间距离的不足,并基于此来系统地设计直接以包为学习对象、具有较强通用性的多示例学习维数约减算法。通过本项目的研究,将能够提取出多示例学习数据中蕴含的有效判别信息,滤除噪声和冗余分量,降低学习过程的时间和空间复杂度,弱化在处理高维数据时“维数灾难”问题给识别带来的不利影响,最终实现利用低维数据提高识别精度的研究目的。

项目摘要

多示例学习是机器学习领域中一个重要的弱监督学习分支,在药物活性预测、自然场景分类、网页目录页面推荐、计算机安全等诸多领域有着广泛的应用。多示例学习数据中可能存在大量噪声和冗余分量,这些分量的存在通常会弱化多示例学习算法的预测性能。因此,对多示例学习数据进行维数约减处理,例如通过特征提取和/或特征选择以滤除噪声和冗余信息,是提高相应算法预测精度的必要手段。现有的多示例学习维数约减算法可分为两类:从示例层面进行学习和从包的层面进行学习。从示例层面进行学习的算法无法体现多示例学习以包为基本学习对象的特点,而现有从包的层面进行学习的算法也均存在一些不足,例如通用性较差(采用某种特定分类器时性能良好,而采用其他分类器时性能较差),未能充分考虑包内不同示例在构建包间距离时所起的不同作用等等。针对上述不足,我们构建了新的包间距离来描述包与包之间的相似度,并基于此来设计相应的多示例学习维数约减算法。具体而言,我们的主要工作内容包含以下几个方面:(1)提出了两种新的包间距离:B2B距离和混合Hausdorff距离;(2)构建了一个基于大间隔分类准则的多示例学习特征加权/选择框架,可以基于该框架采用不同的包间距离来设计相应的从包的层面进行学习的特征加权/选择算法;(3)构建了一个基于最大迹差准则的多示例学习特征提取框架,该框架不仅可以用来设计从包的层面进行学习的特征提取算法,还能够将现有的从示例层面进行学习的特征提取算法囊括在内;(4)设计了一种基于谱图理论和多核学习的多示例特征选择算法;(5)设计了一种基于多示例哈希学习的特征提取算法,该算法能够显著地压缩数据存储空间和提高多示例学习预测性能。大量基于实测数据的实验结果表明,上述研究内容能够弥补现有多示例学习维数约减算法的不足(例如能够更加充分地挖掘包内所有示例所蕴含的判别信息,获取更高的预测精度,获取更低的存储空间,等等),从而为多示例学习这一弱监督学习分支的深入研究提供了相应的理论、算法和技术支持。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
2

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016

柴晶的其他基金

相似国自然基金

1

多示例学习及其应用的研究

批准号:60105004
批准年份:2001
负责人:周志华
学科分类:F0603
资助金额:18.00
项目类别:青年科学基金项目
2

基于多视角与多示例学习的目标跟踪方法研究

批准号:61672183
批准年份:2016
负责人:何震宇
学科分类:F0210
资助金额:63.00
项目类别:面上项目
3

基于高斯过程模型的多示例多标记学习算法研究

批准号:61503058
批准年份:2015
负责人:贺建军
学科分类:F0603
资助金额:22.00
项目类别:青年科学基金项目
4

基于多示例学习的光照不敏感图像检索研究

批准号:60702033
批准年份:2007
负责人:刘扬
学科分类:F0116
资助金额:25.00
项目类别:青年科学基金项目