Most of classical machine learning methods have been developed based on moderate-size data sets. This makes these methods possibly infeasible when applied to big data. Moreover, there is a lack of theoretical guarantee, even though some methods work well on big data sets. Thus, how to make methods scalable as well as how to make them stable are two major challenges that machine learning faces in big data era. This project will use online computing strategy to address scalability, and use probability theory and real analysis to study stability of methods. The project includes four main issues: online learning in large-scale convex optimization problems, online training and online prediction for convex optimization in classification problems, latent data models with online inference, and stream graph computing for infrastructure.
经典的机器学习方法通常是针对适度规模的数据设计的。这使得它们在计算上难以适用于大规模的数据。而且,即使在计算上有所突破的机器学习方法也很少在理论上具有强有力的支撑。所以,如何设计能够适应于大数据的机器学习方法(即可扩展性),以及如何分析这些方法的理论性质(即稳定性)是大数据时代机器学习所面对的两个基本挑战。本项目利用在线的计算方式研究机器学习模型的可扩展性,利用概率论和实分析等工具研究算法的稳定性。主要包含四方面的工作:凸优化机器学习问题的在线学习方法;基于凸优化的分类方法及其在线训练和在线预测;隐含数据模型及其在线贝叶斯推理方法;在线算法的幂流图构架的实现与验证等。
经典的机器学习方法通常是针对适度规模的数据设计的,这使得它们在计算上难以适用于大规模的数据。而且,即使在计算上有所突破的机器学习方法也很少在理论上具有强有力的支撑。所以,如何设计能够适应于大数据的机器学习方法,以及如何分析这些方法的理论性质是大数据时代机器学习所面对的两个基本挑战。本项目系统、深入地研究了最优化问题在线学习算法和大规模矩阵分解随机算法,解决了其中一些关键问题,取得了一批重要研究成果。具体地,给出了基于特征分化的分布式优化的通讯复杂性的下界分析;提出了一类可扩展的用于结构化约束的优化问题的大规模算法;提出一类用于求解大规模对称半正定矩阵分解问题的列选择随机算法,并给出一种高效的近似对称半正定矩阵分解和CUR分解的原型算法;提出了鲁棒频繁方向方法一种鲁棒频繁方向的在线矩阵近似算法,并应用机遇矩阵分解的在线推荐系统中;给出了近似牛顿方法的一般构造框架,由此建立了收敛性结果;建立了联邦学习在数据非独立情况的收敛性结果,由此揭示了通讯有效性和收敛率之间的权衡。相关成果在国际重要期刊Journal of Machine Learning Research、Pattern Recognition,以及机器学习顶级会议ICML、AISTATS、ICLR、SIGKDD、AAAI、IJCAI、UAI等发表了论文10余篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
大规模在线协同学习的机理与方法研究
开放动态环境下在线机器学习理论与方法
大规模机器学习问题的结构优化方法研究
大规模机器学习的动量加速方法的理论研究与应用