Extreme classification refers to multi-class classification problems with a huge number of class labels, which are becoming ubiquitous in the big data era. In this project, we will investigate extreme classification all the way from the solid mathematical foundations of statistical learning theory to the optimization and application of the developed models. Firstly, we will apply empirical process theory and concentration inequalities to establish solid learning theory for extreme classification and its distributed implementation. Secondly, we will contribute to the development of extreme classification algorithms to efficiently uncover the hidden dependence structure that arises when learning from a large number of classes. Lastly, we will employ techniques in convex optimization and stochastic optimization to develop effective algorithms for solving optimization problems in the context of extreme classification. With this project, we want to develop sound theory and algorithms scalable with respect to the number of classes and training examples.
极限分类是大数据时代下机器学习的一个热点问题,其关注具有海量标签的多分类学习问题,在自然语言处理、计算机视觉等领域具有广泛的应用。目前,国内外关于极限分类的研究刚刚起步,一些基础问题仍然没有得到解决。本课题拟从理论分析、模型设计与优化求解等视角全面研究极限分类的基本问题。具体研究内容为:运用经验过程理论和集中不等式研究极限分类模型的泛化性能,建立分布式环境下极限分类算法的学习理论;基于多任务学习思想,设计极限分类模型以挖掘类别标签之间的相关性结构,提升极限分类的学习效率;进一步,运用凸优化和随机优化的思想研究极限分类优化问题的有效求解。项目的意义在于:完善极限分类的研究体系,建立对样本规模、类别数目均有良好可扩展性的极限分类算法和理论。
极限分类关注具有海量类别标签的分类问题,其在自然语言处理与计算机视觉等领域有着重要的应用。本课题针对极限分类问题的基础理论、模型设计以及优化求解等基本问题展开了系统的研究,取得了一系列的研究成果。基础理论方面,运用经验过程的Rademacher复杂度指标构造了对标签数目具有对数依赖的泛化误差界,解决了海量标签场景下模型如何泛化这一基本理论问题,进一步将结果推广到多任务学习、结构预测以及深度学习问题;模型设计方面,设计了p-正则极限分类器,能够根据问题的特性自适应地调整模型的稀疏性,提出了适用于标签不平衡场景下的分类模型;优化求解方面,运用随机优化方法设计了求解极限分类器的高效稳健算法,能够在达到最优收敛速度的同时保持问题的稀疏性,提出了分析随机梯度下降等随机算法稳定性的全新框架和思路,设计了能够权衡收敛速度与泛化能力的停机准则。项目负责人以第一作者/通讯作者发表论文10篇,其中8篇发表在中国计算机学会所推荐的A类期刊/会议上。本课题奠定了极限分类的理论基础,丰富了极限分类模型的设计与求解,是极限分类从理论到模型以及应用这一体系研究的全新探索和完善。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
多视角学习理论与方法研究
连续迹C*代数诱导极限的分类
高光谱图像联合超分辨与分类的结构化稀疏学习理论与算法
面向大数据的机器学习理论与方法