In statistical analysis, especially in survival analysis, we often encounter situations where the data set in quetion contains values which are either missing or have been censored; this phenomenon is only going to become more common when the data dimension is high. Yet very little research has been done concerning sufficient dimension reduction for data with such characteristcs. In this set-up, dimension reduction serves two purposes. Firstly, it improves the efficiency of the estimated conditional quantile in multiple imputation of missing data; secondly, it reveals the sufficient dimension reduction space for regression of the depent variable on the covariates. Quantile regression has long been recognized as one of the most powerful statistical tools in handling missing or censored data. In this project it will be combined with dimension reduction to solve the above problems. Our work is expected to fill the gap in research on methodologies directed at data containing both missing and censored values. The dimension reduction procedures to be developed are able to fully recover the dimension reduction space. We will also consider applications of the developed theory to examples in social economics, medical research and the insurance industry in our country.
在统计分析特别是生存分析中,数据删失(censored)和缺失(missing)往往并存,这种现象在高维数据中更为常见。因此,针对缺失和删失并存的高维数据的降维研究非常必要,然而其相关的研究成果甚少。本课题将从两个方面探讨此类数据的非参数降维方法及理论:一是在有删失值情况下,对缺失值的条件分位点函数进行降维以更有效地实现对缺失值的多重替代(multiple imputation);二是基于缺失值被替代后的删失数据,对因变量与自变量的依存关系进行分位点回归和降维分析。众所周知,分位数回归是研究删失和缺失数据十分有效的方法,将其与非参数模型和降维方法相结合是我们开展上述两项研究的主要途径。按此途径提出的多重替代及降维方法能更充分地利用数据的信息,从而能稳健高效地对上述数据进行统计分析,完整地揭示变量间的内在关系。本项目还将探讨此降维理论在我国经济建设、医疗健康及金融保险中的实际应用。
高维数据在越来越多的社会和科学领域日益常见,关于降维和相关的统计检验问题的理论和算法就具有重要的科学意义和应用价值。研究内容具体包括:利用分位数回归对随机删失或缺失数据进行降维,对超高维回归的基于边际贡献的变量筛选,高维假设检验问题(均值相等,白噪声检验等)。本项目完成了:针对随机删失数据的基于分位数回归的降维理论的研究;提出了一种新的度量边际贡献的指标并将其应用于超高维情况下的变量筛选并给出理论性质;研究了基于置换的超高维下两样本均值相等的检验问题和基于bootstrap的超高维白噪声检验并讨论了其渐进性质;.研究了基于置换的对多个统计量进行整合以避免面对未知备择假设却使用单一统计量而带来的不可避免的低效问题。关键数据包括Genome-wide association studies (数据来源Wellcome Trust Case Control Consortium)和纽约证券交易所相关数据。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于LASSO-SVMR模型城市生活需水量的预测
删失纵向数据下贝叶斯生存分析模型的构建与统计推断
删失或缺失数据时基尼系数的估计与检验方法研究
数据缺失时高维数据降维分析的方法、理论与应用
高维的相依区间删失数据的回归分析