There are two challenges when analyzing ultrahigh dimensional datasets. First, it is difficult to make a particular model structure assumption in statistical modeling because of the complexity of the internal relationship of the covariates. Moreover, the existence of extreme observations is more likely to occur when the dimensionality of the covariates increases rapidly. Therefore, we aim at how to reduce the dimension of high dimensional datasets without assuming any particular structure of the underlying model and retain all the information contained in the original datasets at the same time. Our project contains three parts:.1. We propose a robust metric called cumulative divergence (CD) to test if a univariate random variable Y is mean independent of another univariate random variable X. We investigate the theoretical properties of the CD and its sample estimator. We advocate using the CD in sure independence screening procedure to detect the active covariates which contribute to the conditional mean of the response given the covariates..2. We develop a CD based model-free forward regression procedure for ultrahigh dimensional datasets to select the active covariates which contribute to the conditional distribution of the response given the covariates. The proposal is model-free since we do not need any particular assumption on the model structure . Moreover, it accounts for joint effects among covariates and thus can detect covariates which are important but marginally independent with the response..3. We generalize the definition of CD for two random vectors. We study the sufficient dimension reduction analysis for multivariate response based on CD. Our method is slicing-free and can avoid multiple random projections of the multivariate response.
超高维数据提供了其观测主体的丰富信息,分析这类数据却对统计学现有的理论和方法提出了新的挑战:一是数据变量内部关系错综复杂,在统计建模时很难对其做某个特定的模型结构假设;二是数据集规模越大,其中出现极端值和异常值的可能性也就越大。故我们的课题研究如何在不假设模型的具体结构以及不损失数据所包含的信息的前提下对高维数据集进行降维。包含三个部分: .1.构造不依赖于模型具体结构的、对异常值稳健的相关性的度量——累积差异(简称CD),研究其理论性质,并对超高维数据集提出一种基于CD的稳健的边际筛选方法,用来筛选给定x的条件下Y的条件均值所依赖的协变量。.2.对超高维数据集提出一种基于CD的不依赖于模型的、能够考虑协变量之间的联合效应的向前回归方法,用来筛选给定x的条件下Y的条件分布所依赖的协变量。.3.把CD的定义推广到多元的情形,随后基于推广后的CD对带有多元响应变量的数据集进行充分降维分析。
超高维数据提供了其观测主体的丰富信息,分析这类数据却对统计学现有的理论和方法提出了新的挑战。在基金项目的支持下,我们的课题研究如何在不假设模型的具体结构以及不损失数据所包含的信息的前提下对高维数据集降维和分析。..主要结果有:1、我们首先构造一个不依赖于模型具体结构的、对异常值稳健的相关性的度量——累积差异(简称CD),随后我们提出了一种基于累积差异的条件均值独立的检验并使用自助法确定检验的p值并建议使用累积差异过滤掉超高维均值回归中不重要的协变量。2.对超高维数据集提出一种基于CD的向前回归方法,用来筛选给定x的条件下Y的条件分布所依赖的协变量。这种向前筛选方法不依赖于模型,可以处理响应变量中存在异常值的情形,还能够考虑协变量之间的联合效应,并可在数据驱动的阈值下自动确定模型大小。这些优点使得我们的方法在实际应用中非常具有吸引力。3. 充分降维中应用最广的是基于逆回归的方法,因为它们不涉及多维平滑,并且计算简便。但是,这些基于逆回归的方法需要两个对协变量的分布的假设:线性条件均值(LCM)假设和条件方差常数(CCV)假设。我们提出基于鞅差相关系数的条件均值检验来验证LCM和CCV条件是否成立。..我们证明了这些方法确具有良好的理论性质,并将新方法应用于生物医学等科学领域,最终取得了一批有影响力的学术成果。其中,在国际统计学顶级期刊《Journal of the American Statistical Association》发表论文1 篇, 在国际统计学知名期刊《Statistica Sinica》发表论文1 篇,在国内知名期刊《中国科学·数学》发表论文1 篇。此外,项目组培养在读硕士研究生2人,参加了3次国内会议来宣传研究成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于LASSO-SVMR模型城市生活需水量的预测
高维数据降维和变量选择的若干稳健方法研究
超高维复杂数据统计降维研究
高维数据保真降维方法研究
超高维异质数据下的一类双稳健特征扫描方法