Big data analysis is the key point of the development of information technology. Parallel computing and distributed learning have been wildly applied in big data analysis. This project studies the consistency of distributed regularized regression learning, mainly focuses on the following problems.(1) For coefficient based distributed regularized regression learning. We intend to study the performance of distributed q(q=1,2)norm regularization; to give the mathematical analysis of distributed regularized regression learning with general convex loss functions;we also want to improve the application of regularization kernel network in distributed regression by searching suitable deviation correction methods. (2) The consistence of empirical minimum error entropy(MEE) algorithms for regression learning is considered, including the convergence analysis of MEE algorithms based on the Renyi’s entropy of order or Shannon entropy; the performance of distributed learning using MEE algorithms in an individual machine ; also we intend to construct the online learning associated with MEE algorithms and discuss its convergence. (3) Under the strong mixing condition, we consider how to divide a big data set into some disjoint subsets, to ensure the convergence of distributed kernel network regression algorithms . In other way, we propose a more weak and practical condition for the marginal distribution sequence, and prove the consistence of regularized regression learning based on this kind non-iid sampling, after that we discuss the consistence analysis of distributed regression learning with more general non-iid sampling.
大数据分析日益成为制约信息技术发展的瓶颈。大数据分析中,并行计算与分布式学习的思想得到广泛的关注。本项目针对面向大数据的正则化分布式回归学习算法,开展如下几个方面的研究。(1)基于正则化核网络的分布式回归学习。包括取系数的q(q=1,2)范数作为正则项的分布式算法、基于一般凸损失函数的正则化分布式学习算法的一致性;采取偏差校正方法来改进正则化核网络在分布式回归中的应用。(2) MEE回归学习的一致性。包括基于非二阶Renyi熵与Shannon熵的最小误差熵算法的收敛性分析;研究将最小误差熵算法用作分布式学习的基础算法的可行性与算法一致性;建立对应于最小误差熵算法的在线学习算法并研究其收敛性。(3) 研究强混合条件下,大数据分成多个子数据集的合理方法,并将其用于核网络分布式算法;提出独立但非同边缘分布的样本假设,在此基础上分析核网络算法的收敛性;进而研究基于非同分布数据的分布式算法的收敛性。
针对大数据的分布式核机器学习,是近年来学习理论的主要研究领域之一。 本项目研究几类分布式核正则化回归学习算法的一致性与学习速率。 主要研究成果包括, (1) 证明了基于系数正则化的分布式核回归学习的一致性与学习速率, 进一步提出并研究了基于部分系数正则化的分布式核回归学习的一致性与学习速率; (2) 提出了改进的排一分析方法,进而证明了即使是缺陷核(imperfect kernel), 分布式核岭回归学习与基于偏差校正的分布式核岭回归学习在一定条件下仍可达到最优学习速率。证明了对于perfect核函数以及输出数据无噪声的情形, 核岭回归学习算法的学习速率可达到 N^{-1},最好的情形甚至可达到N^{-2} ; (3) 研究了基于二阶Renyi熵的MEE梯度下降学习算法,证明了分布式MEE梯度下降算法在适当的条件下可以达到最优学习速率。 证明了在分布式MEE中加入非标号数据可以在较弱的正则化条件下提高学习速率、减弱数据分割数量的限制条件;(4) 针对基于非同分布抽样的正则化算法,我们提出了边缘分布有界的条件,进而证明了正则化回归学习算法与系数正则化回归学习算法的一致性,进一步研究了基于相关抽样的分布式学习算法的误差分析;(5) 构建了针对流数据的在线正则化回归学习算法,并证明了采取“块数据”容量适度增长,既可以避免欠正则化现象,又可以达到最优学习速率;(6) 提出了基于方差损失的系数正则化回归学习算法, 采取算子逼近、误差分解与迭代的技巧方法,给出误差界的估计。. 本项目共完成学术论文17篇,其中正式发表文章16篇,SCI收录14篇,EI收录2篇,达到了项目的预期目标。邀请专家讲学9人次,举办国内学术会议一次,参加国际及全国性学术会议10余人次。培养学习理论方面的研究生6名, 其中毕业3名。我们在分布式正则化学习算法、基于非同分布抽样的正则化算法等领域的工作受到同行专家的关注。完成了项目的预期目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
基于LASSO-SVMR模型城市生活需水量的预测
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
宽弦高速跨音风扇颤振特性研究
面向认知的多源数据学习理论与算法
面向多媒体大数据的PDE学习理论与算法
面向大数据的随机森林机器学习理论与算法研究
面向多示例数据的分类和多序列回归算法研究