超高维异质数据下的一类双稳健特征扫描方法

基本信息
批准号:11801202
项目类别:青年科学基金项目
资助金额:25.00
负责人:夏小超
学科分类:
依托单位:重庆大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:孙玲琍,池红梅,朱志强,刘涛,吴先董
关键词:
特征扫描复杂数据分析
结项摘要

Big data brings new chance to develop high dimensional statistics. On the one hand, classical statistical methods would suffer many issues on computational complexity, estimation accuracy and stability of algorithms when the number of predictors is extremely large than sample size. On the other hand, high dimensional empirical data set may contain a lot of heterogeneous information (outliers, heteroscedasticity, heavy-tailed distribution, etc), which is retained not only in response variable, but also in predictors. This leads to many feature screening approaches not robust in handling the data sets with heterogeneous predictors. Therefore, this proposal aims to propose a doubly robust feature screening method for such data sets. Firstly, a marginal feature screening method based on double quantile correlation coefficient will be studied. The definition of double quantile correlation and its sample estimate will be given. Then we will apply it to variable screening. The key of this part is to prove the sure screening property. Secondly, taking into account conditional variables and the association between covariates, a conditional feature screening method via double quantile partial correlation coefficient will be investigated, which is an extension of the previous method. In this part, the proof of screening consistency will be the emphasis. Finally, the advantages of newly proposed approaches will be verified through extensive simulations and two real data sets.

大数据给高维统计学的研究提供了全新的发展机遇。一方面,当特征变量个数远远大于样本量时,传统的统计分析方法在计算复杂度、估计精度、算法的稳定性上遭受诸多限制,另一方面,高维复杂数据本身可能包含更多的异质信息(异常值、异方差、重尾分布等),不仅表现在响应变量,而且还可能体现在协变量中,导致许多边际特征扫描方法在处理异质协变量数据时缺乏稳健性。因此,本项目将研究响应变量与协变量均含异质信息的双稳健的特征扫描方法。首先,研究双分位数相关系数的边际特征扫描方法,给出双分位数相关系数的定义和样本估计,然后利用其进行特征扫描,重点将证明边际特征扫描方法的相合性。其次,将上述边际扫描方法进行拓展,在考虑条件变量的影响以及协变量之间的相互作用下,研究双分位数偏相关系数的条件特征扫描方法,并重点研究其扫描相合性。最后,本项目将通过数值模拟和两组实际数据分析来验证新提出的特征扫描方法的有效性。

项目摘要

本项目研究了一类双稳健的超高维特征扫描方法,主要研究了两个问题:(a) 一类边际的双稳健的特征扫描方法 和(b)一类稳健的条件特征扫描方法。一方面,针对研究内容(a), 我们首先给出了双分位数相关系数的定义(DQC),基于样本数据,构造了DQC的一个合理的估计,证明了该估计量的渐近正态性,并基于“带入法”给出了渐近方差的一个相合估计;其次,我们利用DQC作为感兴趣的且与响应变量可能相关的重要性的度量,将其用作边际扫描的效用函数,提出了基于DQC边际确定独立性扫描方法(DQC-SIS),在一些温和的技术条件下,我们证明了DQC-SIS具有确定特征扫描性质;然后,我们讨论了扫描参数的选取和控制错误发现率(FDR)的方法; 最后,数值结果显示了与 SIS等方法进行比较, 本项目新提出的DQC-SIS 方法对异质数据更具稳健性。另一方面,针对研究内容(b), 我们首先定义了双分位数偏相关系数(DQPC)的概念,给出了一个合理的样本估计,并证明了该估计量具有相合性和渐近正态性;其次,我们基于DQPC提出了一种条件特征扫描方法, 即DQPC-SIS, 我们证明了DQPC-SIS方法的效用函数具有扫描相合性;另外,我们还给出了一种条件变量的选取方法和实施DQPC-SIS的一种算法以及如何控制DQPC-SIS的FDR的方法, 最后,我们从数值模拟和实际数据分析的角度验证了新提出的DQPC-SIS方法比存在的SIS和QPC-SIS方法更具有稳健性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

夏小超的其他基金

相似国自然基金

1

超高维数据中基于累积差异的稳健降维方法研究

批准号:11801501
批准年份:2018
负责人:周亭攸
学科分类:A0403
资助金额:20.00
项目类别:青年科学基金项目
2

超高维数据分析的确定独立扫描方法:统计理论及其应用

批准号:11301435
批准年份:2013
负责人:钟威
学科分类:A0402
资助金额:23.00
项目类别:青年科学基金项目
3

超高维数据的变量筛选方法

批准号:11371236
批准年份:2013
负责人:朱利平
学科分类:A0402
资助金额:55.00
项目类别:面上项目
4

高维纵向数据的若干稳健变量选择方法研究

批准号:11401383
批准年份:2014
负责人:樊亚莉
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目