大规模机器学习的在线方法与实现

基本信息

批准号：61572017

项目类别：面上项目

资助金额：55.00

负责人：张志华

学科分类：

依托单位：北京大学

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：叶海山,陈程,罗珞,谢聪,黎彧君,蒋武轩,叶巧敏,符天凡,赵申剑

关键词：

在线学习大规模机器学习分类方法增量学习概率图模型

结项摘要

Most of classical machine learning methods have been developed based on moderate-size data sets. This makes these methods possibly infeasible when applied to big data. Moreover, there is a lack of theoretical guarantee, even though some methods work well on big data sets. Thus, how to make methods scalable as well as how to make them stable are two major challenges that machine learning faces in big data era. This project will use online computing strategy to address scalability, and use probability theory and real analysis to study stability of methods. The project includes four main issues: online learning in large-scale convex optimization problems, online training and online prediction for convex optimization in classification problems, latent data models with online inference, and stream graph computing for infrastructure.

经典的机器学习方法通常是针对适度规模的数据设计的。这使得它们在计算上难以适用于大规模的数据。而且，即使在计算上有所突破的机器学习方法也很少在理论上具有强有力的支撑。所以，如何设计能够适应于大数据的机器学习方法(即可扩展性)，以及如何分析这些方法的理论性质(即稳定性)是大数据时代机器学习所面对的两个基本挑战。本项目利用在线的计算方式研究机器学习模型的可扩展性，利用概率论和实分析等工具研究算法的稳定性。主要包含四方面的工作：凸优化机器学习问题的在线学习方法；基于凸优化的分类方法及其在线训练和在线预测；隐含数据模型及其在线贝叶斯推理方法；在线算法的幂流图构架的实现与验证等。

项目摘要

经典的机器学习方法通常是针对适度规模的数据设计的，这使得它们在计算上难以适用于大规模的数据。而且，即使在计算上有所突破的机器学习方法也很少在理论上具有强有力的支撑。所以，如何设计能够适应于大数据的机器学习方法，以及如何分析这些方法的理论性质是大数据时代机器学习所面对的两个基本挑战。本项目系统、深入地研究了最优化问题在线学习算法和大规模矩阵分解随机算法，解决了其中一些关键问题，取得了一批重要研究成果。具体地，给出了基于特征分化的分布式优化的通讯复杂性的下界分析；提出了一类可扩展的用于结构化约束的优化问题的大规模算法；提出一类用于求解大规模对称半正定矩阵分解问题的列选择随机算法，并给出一种高效的近似对称半正定矩阵分解和CUR分解的原型算法；提出了鲁棒频繁方向方法一种鲁棒频繁方向的在线矩阵近似算法，并应用机遇矩阵分解的在线推荐系统中；给出了近似牛顿方法的一般构造框架，由此建立了收敛性结果；建立了联邦学习在数据非独立情况的收敛性结果，由此揭示了通讯有效性和收敛率之间的权衡。相关成果在国际重要期刊Journal of Machine Learning Research、Pattern Recognition,以及机器学习顶级会议ICML、AISTATS、ICLR、SIGKDD、AAAI、IJCAI、UAI等发表了论文10余篇。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16285/j.rsm.2019.1280

发表时间：2019

DOI：10.16383/j.aas.2016.c150880

发表时间：2016

DOI：10.12054/lydk.bisu.148

发表时间：2020

DOI：10.12062/cpre.20181019

发表时间：2019

DOI：

发表时间：2022

张志华的其他基金

批准号：11771002

批准年份：2017

资助金额：48.00

项目类别：面上项目

批准号：51372027

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：81600704

批准年份：2016

资助金额：17.00

项目类别：青年科学基金项目

批准号：61070239

批准年份：2010

资助金额：37.00

项目类别：面上项目

批准号：50902014

批准年份：2009

资助金额：20.00

项目类别：青年科学基金项目

批准号：41861059

批准年份：2018

资助金额：40.80

项目类别：地区科学基金项目

批准号：50802064

批准年份：2008

资助金额：20.00

项目类别：青年科学基金项目

批准号：60205001

批准年份：2002

资助金额：24.00

项目类别：青年科学基金项目

批准号：51607173

批准年份：2016

资助金额：19.50

项目类别：青年科学基金项目

批准号：51872034

批准年份：2018

资助金额：60.00

项目类别：面上项目

批准号：41807174

批准年份：2018

资助金额：26.00

项目类别：青年科学基金项目

批准号：81202224

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

相似国自然基金

大规模在线协同学习的机理与方法研究

批准号：61532004

批准年份：2015

负责人：吴文峻

学科分类：F0209

资助金额：285.00

项目类别：重点项目

开放动态环境下在线机器学习理论与方法

批准号：61333014

批准年份：2013

负责人：周志华

学科分类：F0305

资助金额：290.00

项目类别：重点项目

大规模机器学习问题的结构优化方法研究

批准号：61273296

批准年份：2012

负责人：陶卿

学科分类：F0603

资助金额：83.00

项目类别：面上项目

大规模机器学习的动量加速方法的理论研究与应用

批准号：61876221

批准年份：2018

负责人：刘园园

学科分类：F0603

资助金额：62.00

项目类别：面上项目

大规模机器学习的在线方法与实现

{{i.achievement_title}}

暂无此项成果

其他相关文献

粗颗粒土的静止土压力系数非线性分析与计算方法

基于SSVEP 直接脑控机器人方向和速度研究

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

中国参与全球价值链的环境效应分析

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

张志华的其他基金

大规模优化问题的近似牛顿方法：理论与实现

非磁性元素掺杂稀磁半导体铁磁性机理研究的新方法

LY2109761培养的角膜内皮细胞用于组织工程角膜内皮重建的研究

非参数贝叶斯建模、计算及在类属数据分析中的应用

EMCD和ALCHEMI研究单个DMS纳米结构的铁磁性内禀属性

隧道及其隐伏不良地质体三维多尺度集成建模研究

疏水型纤维增强气凝胶复合材料及吸附特性

视觉计算中的统计学习模型与实现技术

新型高力密度模块化矩阵式直线感应电机运行机理与特性研究

新型铁电金属的显微结构及电子结构研究

砾石对华北土石山区坡面水分运移的影响

慢性应激与5-HTT基因交互作用对青少年网络成瘾的预测研究

相似国自然基金