The random forest (RF) is a non-parametric classification forecasting method. It is not only one of important research area of forecasting Science and the future development direction of forecasting methodologies, but also is an frontier and hot area of Statistics and Data Mining Science.. From the view of theory, this proposal focuses on the improvement of Random Forest (RF), especially on how to deal with the multi-nominal dependent variable and multi-dependent variables more effectively,and the discussion of robustness of the proposed prediction method , and on the discussion of improved Random Forest with the penalty,and on the variable selection method based on the lasso and group lasso.. From the view of application, we propose a Credit risk identification model based on random forest method using the lasso and the group lasso to choose variables and to establish the indicator system and a reliable risk prediction model. This proposal also propose a prediction model of insurance industry profit contribution based on random forest regression method,introducing of liability reserves and effective forecasting and mining of high-quality customers. In addition,this proposal propose a financial market risk VaR prediction model based on random quantile regression forests, which not only consider the its own lag information, but it also consider other relevant variables and their effects, besides, it integrate the predict results of multiple modles and improve the forecast accuracy of VaR.
随机森林(RF)是一种非参数分类预测方法,是预测科学重要的研究领域之一,是未来预测方法重要的发展方向之一,也是目前统计学、数据挖掘的最热门的前沿研究领域之一。从理论上,本项目重点研究RF如何更有效处理因变量是多分类变量以及多因变量的情形、以及该方法预测的稳健性探讨、带惩罚项的RF,基于lasso和group lasso的分类预测模型的变量选择等问题。从应用上,提出基于随机森林方法的信用卡信用风险识别模型,利用lasso和group lasso方法筛选指标体系,建立可靠的风险预测模型。提出基于随机森林回归的保险业利润贡献度预测模型,引入责任准备金,有效预测与挖掘高质量客户。提出基于随机分位数回归森林的金融市场风险VaR预测模型,不仅考虑了自身变量的信息,而且考虑其他相关变量对其的影响,并综合了多个预测结果,提高VaR的预测精度。
近年来,机器学习和数据挖掘发展迅速,而分类预测是数据挖掘和统计学的研究热点和重点之一,随机森林(RF)方法又是分类预测的研究热点,越来越受到重视。本项目主要探讨基于随机森林分类预测方法及其应用问题,主要从理论与应用两个角度进行研究,做得理论与实践的结合。通过这个项目的研究,取得了一定的成果,共发表学术论文19篇(包含接收待刊),其中发表在国际期刊上有9篇,发表在国内核心期刊上有10篇,被SCI/SSIC收录的有9篇。主要成果有:在理论与方法上,提出了模糊判别分析方法,提出了针对比例数据的three-part 模型,以及讲randomforest思想应用到变量选择中,提出了randomforest penalization方法,基于lasso和group lasso的分类预测模型的变量选择等问题等;在应用上,提出基于随机森林方法的信用卡信用风险识别模型利用lasso和group lasso方法筛选指标体系,建立可靠的风险预测模型,提出了基于随机森林组合预测方法的保险业利润贡献度预测模型,引入责任准备金,有效预测与挖掘高质量客户。提出基于随机分位数回归森林的金融市场风险VaR预测模型,不仅考虑了自身变量的信息,而且考虑其他相关变量对其的影响,并综合了多个预测结果,提高VaR的预测精度。 基于大量的病例数据,提出了基于随机森林的干扰素疗效预测模型和评分预测系统,该评分预测系统已被应用到中山医院内科的临床诊断中了,发现具有较好的诊断效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于LASSO-SVMR模型城市生活需水量的预测
低轨卫星通信信道分配策略
基于多模态信息特征融合的犯罪预测算法研究
随机域的空间非参数估计及其应用
基于经验似然的非参数方法及其应用
非参数似然方法及其应用
基于秩次的有序分类纵向数据非参数方法研究