With the advent of the era of big data, the demand of classification and regression for high-dimensional sea heterogeneous data has become increasingly prominent, and machine learning is one of the most important tools for big data understanding and knowledge acquisition. Random Forest algorithm is an efficient machine learning method for big data analysis, and it has achieved significant success in high-dimensional, complex data classification on standard data collections and many data mining competitions. However, the Random Forest learning theories and key technology study is not enough and need further exploration under big data environments. This project intends to carry out a systematic study on Random Forest machine learning theory for big data, including random forest machine learning framework, key technologies, and typical examples of validation. We first establish Random Forest machine learning framework under large data environment, by studying the tree representation of large data samples and investigating the learnable theory for Random Forest. Then, Random Tree algorithm based on feature exploration techniques, and a scalable and efficient Random Forrest algorithm are designed to speed up the convergence and accuracy of learning procedure. Finally, on typical examples of large data genetic disease diagnosis, we conduct verification on the proposed learning theory and algorithms. In conclusion, the study on learnable theory and key technologies of Random Forests, plays an important role in the random forest machine learning theory and application development under the big data environment.
随着大数据时代到来,人们对高维海量异构大数据的分类与回归需求日益凸显,机器学习已经成为大数据理解和知识获取的关键。随机森林算法是一种有效处理大数据的机器学习方法,尽管在标准样本集和大数据挖掘知识竞赛上取得了显著的学习效果,但是,大数据环境下随机森林学习缺少理论和关键技术。本项目旨在提出一种面向大数据的随机森林机器学习方法,从随机森林机器学习框架、关键技术、典型实例验证方面开展新的随机森林机器学习研究。首先,研究大数据样本的树结构表示和随机森林可学习理论,建立大数据环境下随机森林机器学习框架;其次,提出样本特性探索的随机树算法、大规模高效率随机森林算法,提升随机森林学习算法收敛速度和预测准确性;最后,构建基因大数据典型验证性实例,验证提出的理论和算法。通过上述研究,探索解决面向大数据的随机森林学习理论和关键技术问题,对随机森林机器学习在大数据环境下的广泛应用具有重要意义。
随着大数据时代到来,人们对高维海量异构大数据的分类与回归需求日益凸显,机器学习已经成为大数据理解和知识获取的关键。随机森林算法是一种有效处理大数据的机器学习方法,尽管在标准样本集和大数据挖掘知识竞赛上取得了显著的学习效果,但是,大数据环境下随机森林学习缺少理论和关键技术。本项目旨在提出一种面向大数据的随机森林机器学习方法,从随机森林机器学习框架、关键技术、典型实例验证方面开展新的随机森林机器学习研究。首先,研究大数据样本的树结构表示和随机森林可学习理论,建立大数据环境下随机森林机器学习框架;其次,提出样本特性探索的随机树算法、大规模高效率随机森林算法,提升随机森林学习算法收敛速度和预测准确性;最后,构建基因大数据典型验证性实例,验证提出的理论和算法。通过上述研究,探索解决面向大数据的随机森林学习理论和关键技术问题,对随机森林机器学习在大数据环境下的广泛应用具有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
物联网中区块链技术的应用与挑战
面向大数据的机器学习理论与方法
面向弓网大数据的高铁在途运行安全机器学习理论与算法
面向认知的多源数据学习理论与算法
面向多媒体大数据的PDE学习理论与算法