The variable selection problem of high dimensional data is one of the hot and difficult problems in international statistical research. The problem of variable selection in semiparametric model has also gained lots of attention and research. According to the current literature, when the variable dimension is high, and their interactions are very complicated, it is very difficult to model all the interaction terms. Existing variable selection methods for the semiparametric model can not solve this problem effectively. To this end, this project aims to propose a class of Garrotized kernel machine estimation and variable selection method in semi-parametric models for high dimensional cross-sectional and longitudinal, discrete and continuous data, to study its large sample properties and effective high dimensional algorithms, to carry out large-scale simulation and empirical research. This is of great theoretical and practical value for enriching and developing the variable selection theory of high dimensional complex data.
高维数据的变量选择问题是国际统计学研究热点和难点问题之一。半参数模型的变量选择问题也获得了大量的关注和研究。据目前掌握的文献来看,当变量维数很高,而且它们的交互效应非常复杂时,对全部的交互项进行建模非常困难。现有半参数模型的变量选择方法尚不能有效解决这一问题。为此,本项目拟针对高维截面和纵向,离散和连续型数据,提出一类半参数模型Garrotized核机器估计和变量选择方法,研究其大样本性质和有效高维算法,开展大规模模拟研究和实证研究。这对于丰富和发展高维复杂数据下变量选择理论方法具有重要的理论意义和应用价值。
变量选择问题是国际统计学研究热点和难点问题之一。半参数模型的变量选择问题也获得了大量的关注和研究。据目前掌握的文献来看,当变量维数很高,并且它们的交互效应非常复杂时,对全部的交互项进行建模非常困难。现有半参数模型的变量选择方法尚不能有效解决这一问题。本项目针对离散型、连续型、生存数据,研究了半参数模型、广义半参数模型、Cox比例风险半参数模型的惩罚Garrotized核机器(Penalized Garrotized Kernel Machine, PGKM)估计和变量选择方法,研究了其大样本性质和有效算法,开展了大规模模拟研究和实证分析。研究表明该方法可更好的适应冗余变量存在的情形,同时允许预测变量与响应变量间存在复杂相关关系和预测变量间存在交互效应。模拟和实证结果表明当模型中不包含冗余变量时,所提出的三类PGKM方法与标准的核机器回归方法预测表现类似,但当事先不知相关预测变量时,本项目所提出的PGKM方法收获了更高的预测精度,这对于丰富和发展高维复杂数据下变量选择理论方法具有重要的理论意义和应用价值。一些补充资料,包括相应的R程序可从网上获取。
{{i.achievement_title}}
数据更新时间:2023-05-31
珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征
向日葵种质资源苗期抗旱性鉴定及抗旱指标筛选
一种基于多层设计空间缩减策略的近似高维优化方法
复杂系统科学研究进展
基于MCPF算法的列车组合定位应用研究
高维序列数据的核学习方法及应用研究
高维参数和半参数模型下的似然推断
稀疏高维半参数模型的稳健统计推断
高维半参数回归模型中的若干检验问题