The penalty-based variable selection technique is one of the appealing methods to identify significant variables in the high dimensional models. But for the ultrahigh dimensional models where the number of predictors increases exponentially with the sample size, an extra screening step is often needed to roughly reduce the model dimension. This project, however, aims to propose a different ultrahigh dimensional variable selection scheme, called the thresholded partial correlation approach (TPC). The TPC is based on the idea of partial correlation learning and the partial faithfulness for the ultrahigh dimensional linear models, and it can be extended to the partially linear models via the partial residual approach. This method relaxes the normality assumption of the predictors and responses to the elliptical contoured distribution, and does not need the two-stage procedure as most current methods do, in the ultrahigh dimensional setting, to obtain the final sparse model. Furthermore, we will establish the theoretical properties of this method under a different assumption framework from the literature, which allows us to broaden the usage of this variable selection scheme. We will prove the model consistency of the TPC and the sure screening property of the first step of TPC for both linear models and partially linear models. The simulation examples will be conducted to compare the TPC and the penalty-based variable selection approaches, and the application of this method to the genetic research and financial research will also be provided.
惩罚回归是在大数据模型中提取有用信息的办法之一。但对自变量个数随样本容量指数增长的超高维模型,我们通常需要一步额外的独立扫描步骤来降低模型维数。然而本项目旨在提出一种来源于不同理念框架的超高维变量选择方法——偏相关系数截断法。总体来说,此方法是基于偏相关系数体系以及部分忠实性理念的逐步检验法。它不仅可以处理超高维线性模型,也可以结合部分残差法扩展应用于超高维部分线性模型中。该方法将模型自变量和因变量的正态假设条件放宽为椭圆分布以适应真实数据通常面临的重尾性;它可以直接作用于超高维模型,无需进行传统的两步法;另外,为使本方法应用更加广泛,我们将从与传统方法不同的正则条件框架出发构造该方法的大样本性质,包括模型选择相合性、第一步检验的确定扫描性等。我们将利用模拟实验来比较偏相关系数截断法和传统的惩罚回归对于超高维模型的变量选择结果,并且将本方法应用于生物基因学领域和金融股票研究领域的数据分析。
惩罚回归是在大数据模型中提取有用信息的办法之一。但对自变量个数随样本容量指数增长的超高维模型,我们通常需要一步额外的独立扫描步骤来降低模型维数。然而本项目旨在提出一种来源于不同理念框架的超高维变量选择方法——偏相关系数截断法。总体来说,此方法是基于偏相关系数体系以及部分忠实性理念的逐步检验法。它不仅可以处理超高维线性模型,也可以结合部分残差法扩展应用于超高维部分线性模型中。该方法将模型自变量和因变量的正态假设条件放宽为椭圆分布以适应真实数据通常面临的重尾性;它可以直接作用于超高维模型,无需进行传统的两步法;另外,为使本方法应用更加广泛,我们将从与传统方法不同的正则条件框架出发构造该方法的大样本性质,包括模型选择相合性、第一步检验的确定扫描性等。我们将利用模拟实验来比较偏相关系数截断法和传统的惩罚回归对于超高维模型的变量选择结果,并且将本方法应用于生物基因学领域和金融股票研究领域的数据分析。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
中国参与全球价值链的环境效应分析
生存分析中变系数模型的超高维协变量的筛选研究
删失数据超高维共线性模型的变量选择
删失数据超高维共线性模型的变量选择
超高维半参数回归模型的结构识别和变量选择问题研究