Different from traditional supervised learning, learning from label proportions (LLPs), which seeks generalized instance-level predictors merely based on bag-level label proportions, has attracted widespread interest. However, due to its weak label scenario, LLP usually falls into a transductive learning framework accounting for an intractable combinatorial optimization issue. In this project, we try to apply probably approximately correct (PAC) to this special problem and construct the learnable algorithm for LLP. In detail, we will estimate the sample complexity of LLP to verify the correctness of proposed algorithm. In addition, we will study on the construction of models in dealing with LLP. Firstly, we extend the former work in SVM based LLP solver to nonparallel support vector machine based model, proposing a brand new algorithm to facilitate the mixed integer programming. To harness satisfactory data adaption, Laplace regularization is applied to our learning models. Secondly, we will extend LLP to a more universal framework named learning from bounded label proportions (BLP). In this situation, the real-valued proportions are replaced with interval-valued ones, which show a number of apparent applications in real life. Finally, extremely rapid algorithms will be analyzed to equip for solving BLP problems.
与传统监督学习不同,包学习基于包层面的标签信息和包中样本的属性信息,训练学习分类器,是一种在弱化的样本类标下的有监督学习.与经典的包学习问题多示例学习不同,标签比例学习的特点在于,样本类标以包中正负样本的比例信息体现.很多实际问题,如选举的地域得票率、流行病地区发病率等,都可以抽象纳入标签比例学习的框架中,这体现了其广泛的应用前景和重要的实践价值.将比例信息作为多示例学习中包标签信息的推广,借鉴其研究思路,本项目对标签比例学习研究方法进行探索,在构建相关概率近似正确学习理论的基础上,结合间隔学习和半监督问题的正则化方法,提出并发展一系列基于支持向量机求解标签比例学习问题的模型,并通过引入Laplace正则项,借助样本边际分布的流形信息,达到更为有效分类预测的目标.进一步,本项目对标签比例学习问题的框架进行拓展,提出适用范围更广的区间值标签比例学习框架,并探索快速求解方法.
在基于深度学习的大数据时代,获得样本级别的监督信息十分困难。标签比例学习作为一种典型的弱标签学习任务,利用样本分包后的包层面标签比例信息,构建学习模型,最终获得样本层面的分类器。本项目旨在研究标签比例学习PAC理论研究,开发多种标签比例学习方法,并设计高效求解该问题的快速算法。针对上述问题,本项目取得了如下的研究成果。首先,我们基于大间隔学习理论和Laplace正则化技术,构建了标签比例学习的LapESVR模型。其次,我们基于随机森林和极限学习机等经典的浅模型技术,构建了处理高维标签比例学习的LLP-RF模型和能够快速求解标签比例学习的LLP-ELM算法。然后,我们根据弱标签问题自身标签信息严重缺失的特性,利用深度学习的表示学习框架,借助对抗学习思想,构建了基于生成对抗网络的标签比例学习模型LLP-GAN,取得了超越现存所有LLP问题求解器的最佳性能。此外,我们还进一步发掘其它标签比例学习形式的拓展,即利用少量有标记样本,结合大量标签比例数据,构建LLP-LS模型,进一步提升了标签比例学习的性能,拓宽了该问题的应用场景。最后,我们还将所构建的LLP模型应用于经济金融领域的诸多现实问题中,展示了我们的研究具有良好的应用前景。除此之外,我们还在计算机视觉的其它领域,如图像超分辨率和边缘检测等实际问题上,取得了有价值的进展。这些工作将进一步促进LLP研究在计算机视觉领域的应用。总体来说,项目的研究成果提供了大量标签比例学习模型和快速求解算法,同时为其它弱监督学习问题的研究提供了可行的思路和手段,在理论、建模、算法和实践等方面都取得了实质性的突破。
{{i.achievement_title}}
数据更新时间:2023-05-31
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种新型间日疟疫苗候选抗原:受感染红细胞表膜相关分子PvTRAg-26/ 29免疫原性及免疫效果研究
标签推荐系统中基于深度学习和多目标优化的推荐算法研究
基于标签分布学习的弱监督图像情感识别研究
机器学习算法的margin理论
基于用户评价准则的排序学习算法及理论研究