Machine learning encounters two fundamental challenges in the big data age, namely how to design machine learning algorithms that can be applied to the big data process and how to provide a theoretical analysis framework for the algorithms. Distributed learning employs the “divide-and-conquer” strategy to attack the machine learning problem,and then becomes a state-of-the-art learning scheme in the big data era. Compared with enormous research activities on the applications, the theoretical study of the distributed learning algorithms lags heavily behind. In this project, we focus on presenting a systemic theoretical analysis for the distributed supervised learning in the framework of statistical learning theory. To this end, we will first verify the feasibility and outperformance of the distributed learning. Then, we will develop an exclusive error decomposition strategy for the distributed supervised learning and deduce its generalization error bound. Finally, we will present a theoretical guidance for how to design an efficient distributed learning algorithm.
进入大数据时代,机器学习面临两个重大挑战,即如何设计能够适用于大数据的机器学习算法,以及如何发展相应的理论来支撑其应用。针对第一个挑战,众多学者提出了利用分而治之策略来处理数据的分布式学习方法。虽然有大量的文献从工程的角度证明了这种方法的可行性,但是迄今为止还没有完整的理论来支撑其应用。本项目就分布式学习的统计性态、分布学习算法的收敛性、学习过程的复杂性等基础理论问题开展研究,拟建立一套完整的适用于分布式有监督学习的学习理论。主要内容包括:第一,从理论上证明分布式有监督学习的可行性及优越性;第二,建立适用于分布式有监督学习的泛化误差分解体系并导出其泛化误差。第三,从理论的角度揭示该如何有效地使用分布式学习算法来处理监督学习问题。
扣紧研究计划,项目组对大数据的分布式学习算法的可行性理论做了深入的研究。 在该项目的资助下,申请人提出了基“分而治之”思想的分布式核学习框架,并围绕分布式算法的统计性态、算法收敛性和学习过程的复杂性等基础理论问题开展研究,建立了一套完整的适用于分布式有监督学习的学习理论。主要内容包括:第一,提出采用与算子理论,在此理论体系下证明了分布式核学习的最优泛化性;第二,建立了适用于分布式有监督学习的泛化误差分解体系。第三,提出了分布式半监督学习,并证明了无监督数据,既能保护数据隐私,又能提高分布式学习算法的学习性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于国产化替代环境下高校计算机教学的研究
基于综合治理和水文模型的广西县域石漠化小流域区划研究
基于旋量理论的数控机床几何误差分离与补偿方法研究
非牛顿流体剪切稀化特性的分子动力学模拟
中国出口经济收益及出口外资渗透率分析--基于国民收入视角
半监督排序学习理论与算法研究
有监督和半监督多视图特征学习方法与应用研究
基于结构化学习的有监督词对齐方法研究
大数据多视图子空间非监督机器学习理论与方法