基于非参数随机森林的分类预测方法及其应用

基本信息
批准号:71201139
项目类别:青年科学基金项目
资助金额:19.00
负责人:方匡南
学科分类:
依托单位:厦门大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:马双鸽,许永洪,李迎星,李木易,戴颖,张晶,方侃,魏瑾瑞,章贵军
关键词:
分类预测变量选择非参数随机森林
结项摘要

The random forest (RF) is a non-parametric classification forecasting method. It is not only one of important research area of forecasting Science and the future development direction of forecasting methodologies, but also is an frontier and hot area of Statistics and Data Mining Science.. From the view of theory, this proposal focuses on the improvement of Random Forest (RF), especially on how to deal with the multi-nominal dependent variable and multi-dependent variables more effectively,and the discussion of robustness of the proposed prediction method , and on the discussion of improved Random Forest with the penalty,and on the variable selection method based on the lasso and group lasso.. From the view of application, we propose a Credit risk identification model based on random forest method using the lasso and the group lasso to choose variables and to establish the indicator system and a reliable risk prediction model. This proposal also propose a prediction model of insurance industry profit contribution based on random forest regression method,introducing of liability reserves and effective forecasting and mining of high-quality customers. In addition,this proposal propose a financial market risk VaR prediction model based on random quantile regression forests, which not only consider the its own lag information, but it also consider other relevant variables and their effects, besides, it integrate the predict results of multiple modles and improve the forecast accuracy of VaR.

随机森林(RF)是一种非参数分类预测方法,是预测科学重要的研究领域之一,是未来预测方法重要的发展方向之一,也是目前统计学、数据挖掘的最热门的前沿研究领域之一。从理论上,本项目重点研究RF如何更有效处理因变量是多分类变量以及多因变量的情形、以及该方法预测的稳健性探讨、带惩罚项的RF,基于lasso和group lasso的分类预测模型的变量选择等问题。从应用上,提出基于随机森林方法的信用卡信用风险识别模型,利用lasso和group lasso方法筛选指标体系,建立可靠的风险预测模型。提出基于随机森林回归的保险业利润贡献度预测模型,引入责任准备金,有效预测与挖掘高质量客户。提出基于随机分位数回归森林的金融市场风险VaR预测模型,不仅考虑了自身变量的信息,而且考虑其他相关变量对其的影响,并综合了多个预测结果,提高VaR的预测精度。

项目摘要

近年来,机器学习和数据挖掘发展迅速,而分类预测是数据挖掘和统计学的研究热点和重点之一,随机森林(RF)方法又是分类预测的研究热点,越来越受到重视。本项目主要探讨基于随机森林分类预测方法及其应用问题,主要从理论与应用两个角度进行研究,做得理论与实践的结合。通过这个项目的研究,取得了一定的成果,共发表学术论文19篇(包含接收待刊),其中发表在国际期刊上有9篇,发表在国内核心期刊上有10篇,被SCI/SSIC收录的有9篇。主要成果有:在理论与方法上,提出了模糊判别分析方法,提出了针对比例数据的three-part 模型,以及讲randomforest思想应用到变量选择中,提出了randomforest penalization方法,基于lasso和group lasso的分类预测模型的变量选择等问题等;在应用上,提出基于随机森林方法的信用卡信用风险识别模型利用lasso和group lasso方法筛选指标体系,建立可靠的风险预测模型,提出了基于随机森林组合预测方法的保险业利润贡献度预测模型,引入责任准备金,有效预测与挖掘高质量客户。提出基于随机分位数回归森林的金融市场风险VaR预测模型,不仅考虑了自身变量的信息,而且考虑其他相关变量对其的影响,并综合了多个预测结果,提高VaR的预测精度。 基于大量的病例数据,提出了基于随机森林的干扰素疗效预测模型和评分预测系统,该评分预测系统已被应用到中山医院内科的临床诊断中了,发现具有较好的诊断效果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

方匡南的其他基金

相似国自然基金

1

随机域的空间非参数估计及其应用

批准号:11461009
批准年份:2014
负责人:杨善朝
学科分类:A0403
资助金额:36.00
项目类别:地区科学基金项目
2

基于经验似然的非参数方法及其应用

批准号:11001083
批准年份:2010
负责人:刘玉坤
学科分类:A0402
资助金额:17.00
项目类别:青年科学基金项目
3

非参数似然方法及其应用

批准号:11261009
批准年份:2012
负责人:张军舰
学科分类:A0402
资助金额:45.00
项目类别:地区科学基金项目
4

基于秩次的有序分类纵向数据非参数方法研究

批准号:81402758
批准年份:2014
负责人:庄严
学科分类:H3011
资助金额:23.00
项目类别:青年科学基金项目