面向大数据的随机森林机器学习理论与算法研究

基本信息
批准号:61602482
项目类别:青年科学基金项目
资助金额:21.00
负责人:张英华
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:谢源,朱利民,杨雪冰,匡秋明,曾凡霞
关键词:
大数据拆分机器学习理论大数据学习算法样本特性探索随机森林
结项摘要

With the advent of the era of big data, the demand of classification and regression for high-dimensional sea heterogeneous data has become increasingly prominent, and machine learning is one of the most important tools for big data understanding and knowledge acquisition. Random Forest algorithm is an efficient machine learning method for big data analysis, and it has achieved significant success in high-dimensional, complex data classification on standard data collections and many data mining competitions. However, the Random Forest learning theories and key technology study is not enough and need further exploration under big data environments. This project intends to carry out a systematic study on Random Forest machine learning theory for big data, including random forest machine learning framework, key technologies, and typical examples of validation. We first establish Random Forest machine learning framework under large data environment, by studying the tree representation of large data samples and investigating the learnable theory for Random Forest. Then, Random Tree algorithm based on feature exploration techniques, and a scalable and efficient Random Forrest algorithm are designed to speed up the convergence and accuracy of learning procedure. Finally, on typical examples of large data genetic disease diagnosis, we conduct verification on the proposed learning theory and algorithms. In conclusion, the study on learnable theory and key technologies of Random Forests, plays an important role in the random forest machine learning theory and application development under the big data environment.

随着大数据时代到来,人们对高维海量异构大数据的分类与回归需求日益凸显,机器学习已经成为大数据理解和知识获取的关键。随机森林算法是一种有效处理大数据的机器学习方法,尽管在标准样本集和大数据挖掘知识竞赛上取得了显著的学习效果,但是,大数据环境下随机森林学习缺少理论和关键技术。本项目旨在提出一种面向大数据的随机森林机器学习方法,从随机森林机器学习框架、关键技术、典型实例验证方面开展新的随机森林机器学习研究。首先,研究大数据样本的树结构表示和随机森林可学习理论,建立大数据环境下随机森林机器学习框架;其次,提出样本特性探索的随机树算法、大规模高效率随机森林算法,提升随机森林学习算法收敛速度和预测准确性;最后,构建基因大数据典型验证性实例,验证提出的理论和算法。通过上述研究,探索解决面向大数据的随机森林学习理论和关键技术问题,对随机森林机器学习在大数据环境下的广泛应用具有重要意义。

项目摘要

随着大数据时代到来,人们对高维海量异构大数据的分类与回归需求日益凸显,机器学习已经成为大数据理解和知识获取的关键。随机森林算法是一种有效处理大数据的机器学习方法,尽管在标准样本集和大数据挖掘知识竞赛上取得了显著的学习效果,但是,大数据环境下随机森林学习缺少理论和关键技术。本项目旨在提出一种面向大数据的随机森林机器学习方法,从随机森林机器学习框架、关键技术、典型实例验证方面开展新的随机森林机器学习研究。首先,研究大数据样本的树结构表示和随机森林可学习理论,建立大数据环境下随机森林机器学习框架;其次,提出样本特性探索的随机树算法、大规模高效率随机森林算法,提升随机森林学习算法收敛速度和预测准确性;最后,构建基因大数据典型验证性实例,验证提出的理论和算法。通过上述研究,探索解决面向大数据的随机森林学习理论和关键技术问题,对随机森林机器学习在大数据环境下的广泛应用具有重要意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
5

物联网中区块链技术的应用与挑战

物联网中区块链技术的应用与挑战

DOI:10.3969/j.issn.0255-8297.2020.01.002
发表时间:2020

张英华的其他基金

批准号:51474017
批准年份:2014
资助金额:80.00
项目类别:面上项目
批准号:31401297
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:31201453
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:31871563
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:31571930
批准年份:2015
资助金额:60.00
项目类别:面上项目
批准号:68677026
批准年份:1986
资助金额:7.00
项目类别:面上项目

相似国自然基金

1

面向大数据的机器学习理论与方法

批准号:61332007
批准年份:2013
负责人:朱小燕
学科分类:F0201
资助金额:300.00
项目类别:重点项目
2

面向弓网大数据的高铁在途运行安全机器学习理论与算法

批准号:61702518
批准年份:2017
负责人:周夏冰
学科分类:F06
资助金额:26.00
项目类别:青年科学基金项目
3

面向认知的多源数据学习理论与算法

批准号:61632004
批准年份:2016
负责人:于剑
学科分类:F0605
资助金额:265.00
项目类别:重点项目
4

面向多媒体大数据的PDE学习理论与算法

批准号:61672125
批准年份:2016
负责人:刘日升
学科分类:F0605
资助金额:63.00
项目类别:面上项目