Semi-Supervised Learning (SSL) can efficiently utilize large amount of unlabeled data to improve the classification accuracy using only a few labeled training data. It has this special advantage and becomes a hot topic in the international machine learning research community. New technology brings more and more high dimensional data, which are large scale, high dimensional, feature noise polluted, label information scarcity, and poorly labeled. These problems are great challenges to the SSL research. To address these challenges, this project will try the following approaches to find the solutions: (1) Study large scale nonlinear inductive SSL methods. Specifically, we will study doubly stochastic unbiased SSL optimization scheme and the multi-learners aggregation method, which make large scale inductive SSL viable. (2) Propose high dimensional data learning methods based on the stability theory of regional voting. Two methods based on the stability theory of regional voting, robust semi-supervised feature selection and graph construction, will be studied to address feature noise and invalid sample-wise distance problems. (3) Study the robust semi-supervised self-paced learning for complex data. The purpose of this approach is to improve the training efficiency, quality, and address the problems of label noise and data with complex distribution.
半监督学习能利用大量“廉价”的无标签数据来提升在少量有标签数据上的学习效果,具有独特的优势,因此成为国际上机器学习研究的热点课题之一。然而新的数据采集手段带来了越来越多的高维数据,其存在着规模大、特征维度高、特征噪声、标签稀缺和标签质量不可控的问题,给传统半监督学习带来了相当大的挑战。针对这些挑战,本课题拟从以下几个方面提出解决方案:(1)提出大规模非线性归纳式半监督学习理论方法,具体研究基于双无偏近似计算实现的半监督模型优化方法和多半监督学习器结果鲁棒集成,力求解决大规模可扩展性问题;(2)提出基于区域识别法稳定性理论的高维数据学习方法,通过研究鲁棒的特征选择和连通图构造方法解决特征噪声和高维数据距离失效问题;(3)提出针对复杂数据和标签噪声鲁棒的自步半监督学习理论,提高模型的训练效率和质量,同时解决数据分布复杂和错误数据标签带来的困难。
半监督学习能利用大量“廉价”的无标签数据来提升在少量有标签数据上的学习效果,具有独特的优势,因此成为国际上机器学习研究的热点课题之一。然而新的数据采集手段带来了越来越多的高维数据,其存在着规模大、特征维度高、特征噪声、标签稀缺和标签质量不可控的问题,给传统半监督学习带来了相当大的挑战。针对这些挑战,本课题开展了一系列创新性的研究工作,力求在高维复杂数据的半监督学习问题中的实现若干关键科学问题方面取得有益的进展。具体来说包括1)在高维噪声数据的关键特征选择研究方面,提出了数据结构正则化的无监督/半监督特征选择框架,实现了数据结构与特征选择两项任务的互补提升,比现有方法更加高效的特征选择;还提出了基于0-1整数规划近似优化算法的特征选择理论框架,目标是找出最好的由K个特征所构成的集合而不是K个好的特征构成的集合;进一步,采用特征选择方法来选择那些最有信息量的特征来揭示数据中所蕴含的平衡结构。2)在半监督学习方面,我们提出了一种半监督在线主动学习框架性方法用于多视角PolSAR的分类框架;还研究结构正则化的自步半监督识别方法,并在图像识别问题中进行了验证。3)在自步集成学习方面,我们提出了将数据样本困难度评价和集成聚类统一的学习框架,即自步学习的聚类集成,可以从简单到困难地逐步考虑数据样本信息并集成模型不同阶段的聚类结果。4)在基于动态连通图方法的障碍物轨迹预测方面,我们提出了星网轨迹预测框架,考虑多种信息输入和注意力动态图交互,提出了计算复杂度低,可视化输出交互,预测精度高的系列轨迹预测方法。总地来说,课题组在本项目的资助下共完成了10篇SCI检索的国际期刊论文,2篇CCF-B和1篇CCF-C类国际会议论文,已在学校授权3项,与企业合作授权10余项发明专利,课题组在短期内获得了一定的国际影响力和产业界的关注。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种基于多层设计空间缩减策略的近似高维优化方法
新型树启发式搜索算法的机器人路径规划
智能煤矿建设路线与工程实践
二维FM系统的同时故障检测与控制
现代优化理论与应用
面向高维数据集成降维的半监督聚类方法研究
高维缺失数据半监督支持向量机研究
高维缺失数据半监督支持向量机研究
半监督半配对高维多表示数据的降维及拓展研究