With the rapid development of computer technology, the ability of collecting data and storing data has been improved dramatically. Both the science research and other fields of public life have accumulated a large number of data. Analyzing these data and exploring the useful information from these data have been the joint demand and the challenge. In order to better find the useful information from the data set, we introduce the method and ideal of Markov sampling from the data set based on many years' study on the theory and algorithm of machine learning with non-i.i.d. samples. The goal of this project is to establish the framwork of machine learning theory for Markov sampling by studying the consistency, convergence rate and generalization ability of machine learning algorithms based on Markov sampling. We will establish the Markov sampling method that has better learning properties such as better generalization ability, better stable property and better sparse property for different learning problems, and then apply these research's results to the application domains of data mining. Our aim is to present some new techniques and some new methods of data analysis for the data mining of massive data.
随着计算机技术的飞速发展,人们收集数据、存储数据的能力得到了极大的提高。无论是科学研究, 还是社会生活的各个领域中都积累了大量的数据, 对这些数据进行分析以发掘出数据中蕴含的有用信息,几乎成为所有领域的共同需求和要面临的挑战。在多年来对非独立同分布数据下机器学习理论和算法研究的基础上,我们提出了对数据进行马氏抽样以便更好发掘数据中有用信息的思想和方法。本项目旨在通过研究马氏抽样下机器学习算法的一致性、收敛速率和泛化性能,建立马氏抽样下机器学习的理论框架,进而对不同学习问题建立具有比较好的泛化性、稳定性和稀疏性等学习性能的马氏抽样方法,并将研究成果应用到数据挖掘的实际问题中,为数据挖掘,特别是海量数据挖掘提供数据分析的新技术和新方法。
在本项目中,我们对基于马氏抽样的机器学习理论和算法进行了全面系统的研究,在理论分析和算法设计两个方面都取得了比较好的研究成果,主要研究内容包括:对基于马氏抽样的经典机器学习算法(如支持向量机分类,最小二乘正则化回归,支持向量机回归,LASSO, 在线支持向量机分类)的一致性、收敛速率和泛化性能进行了全面的研究:从理论上分析了基于马氏抽样的上述算法的泛化性能,证明了基于马氏抽样下上述算法是一致的,建立了基于马氏抽样的上述机器学习算法最优的收敛速率。这些理论研究成果的取得丰富和发展了经典的机器学习理论。在理论研究的基础上,我们又对基于马氏抽样的机器学习算法的设计进行了研究,设计出了基于马氏抽样的支持向量机分类算法,基于马氏抽样的正则化回归算法,基于马氏抽样的在线支持向量机分类算法。还提出了基于多次(k次)马氏抽样的支持向量机分类算法,该算法不仅具有比较好的泛化性能,而且所需的抽样与训练总时间更少,得到的分类器也更稀疏。这些算法为大数据的分析与挖掘提供了新思路和新方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
黄河流域水资源利用时空演变特征及驱动要素
特斯拉涡轮机运行性能研究综述
基于SSVEP 直接脑控机器人方向和速度研究
大数据环境下基于马氏重抽样的分布式集成学习的理论与算法
大数据环境下基于选择性抽样的在线学习理论与算法研究
基于马氏链蒙特卡罗抽样的近震走时层析成像方法研究
天气雷达精准降水估计机器学习理论与算法研究