Advances in modern science and technology have made the collection of big datasets increasingly frequent in diverse fields of sciences, engineering, and humanities. Common characteristics of big data include high dimensionality, variety (e.g., multiple sources), and complexity in data structure. On the other hand, sufficient dimension reduction in regression provides a general framework for reducing the dimension of predictors without loss of the information on regression and without pre-specifying a parametric model. This project will focus on several extensions of methods and theory of sufficient dimension reduction in the era of big data. Firstly, we will study sufficient dimension reduction in so-called “small n, large p” settings. We aim to propose a method for simultaneously estimating the central dimension-reduction subspace and selecting important predictors, derive its theoretical properties in “small n, large p” settings, and develop a procedure for consistently determining the structural dimension (i.e., the dimension of the central subspace). Secondly, we will study sufficient dimension reduction for multiple populations. We will propose a joint dimension-reduction framework. In this framework, we will generalize sufficient dimension-reduction methods and theory developed for a single population. In addition, we will use extensive simulations to systematically compare the performance of multiple-population methods with that of single-population methods. Finally, we will study sufficient dimension reduction for regression with censored data. We will construct a class of semi-parametric estimating equations, derive the consistency and asymptotic normality of the resulting dimension-reduction estimators, and apply the proposed methodology to the analysis of a cancer dataset from The Cancer Genome Atlas (TCGA) project.
随着现代科学技术的不断发展,大数据的收集在各行各业已经变得相当普遍。大数据通常维数高、具有多样(源)性以及数据结构复杂。另一方面,在回归分析中,充分性降维可以在既不损失回归信息、又不假定回归形式的条件下对预测变量进行降维。本项目拟研究大数据下充分性降维技术的若干推广。首先,研究“小样本,大维数”下的充分性降维,提出能够同时进行降维和变量选择的中心降维子空间估计,获得所提估计在“小样本,大维数”下的统计理论性质,以及提出相合的选择结构维数的策略。其次,研究多群体充分性降维,建立多群体联合充分性降维框架,在此框架下,推广在单个群体下发展的充分性降维方法和理论,以及利用模拟数据系统地比较多个群体降维方法与单个群体降维方法的表现。最后,研究删失数据下的充分性降维,构造删失数据下充分性降维的半参数估计方程,获得所提估计的相合性和渐近正态性,以及将新方法应用到癌症基因组图谱数据进行实证分析。
充分性降维旨在既不损失回归信息又不假定回归形式的条件下对预测变量进行降维。该领域在过去的30年里得到了长足的发展和广泛的应用。但是,现有的方法仍有很大的局限性。本课题着重研究了复杂数据背景下的充分性降维问题,以及降维技术在生物医学研究的应用。把删失数据下的充分性降维问题看成一个半参数回归问题,将不同的降维方法统一到一个框架下进行讨论;通过构造估计方程,提出了若干不同形式的估计量;结合鞅理论和半参数理论,研究了这些方法的理论性质;开发了R软件包orthoDr。建立了切片逆回归和降秩多元线性回归之间的内在联系,提出了同时进行降维和变量选择的惩罚方法,并设计了高效的数值计算算法;证明了该方法能够处理变量维数随样本容量呈多项式甚至指数增长的高维数据;提出了选择结构维数和惩罚参数的策略。根据微生物组学研究的目的和数据特点,研究了高维成分数据降维和特征选择方法;基于线性模型,提出了变量融合概念,并提出整合进化树信息的多尺度降维方法;利用线性对数对比模型,提出了子成分选择概念,并提出整合进化树信息的多尺度特征消除方法。此外,课题负责人与合作者从数据可视化角度研究了充分性降维;提出的方法可以绕过降维子空间直接估计观测数据的投影;该方法将主成分分析与主坐标分析的对偶关系从无监督学习推广到带监督学习。在微生物组数据分析方面,建立了总体相对丰度关于宿主表型的逆回归模型和给定总体相对丰度下测序数据的多项分布;构造了基于微生物组测序数据的表型预测函数,以及设计了有效的蒙特卡洛算法。课题组已将所提方法应用于人体微生物组学研究、癌症病人和癌细胞系多组学数据、全基因组关联研究、大脑皮层基因表达时空数据、节律基因纵向表达数据等,取得了较好的效果。在项目资助下,本课题在统计学国际知名杂志Journal of the American Statistical Association、Biometrika、Biometrics、Statistica Sinica、Journal of Computational and Graphical Statistics、The Annals of Applied Statistics、Statistics and Computing等,以及生物信息学国际知名杂志Bioinformatics等发表了数篇高质量学术论文,并多次参与国内外相关学术会议汇报项目研究成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于LASSO-SVMR模型城市生活需水量的预测
拥堵路网交通流均衡分配模型
回归中高维数据的“充分”降维
稀疏性保持的降维技术及其拓展研究
多维因变量充分降维与多总体共同充分降维方法研究
基于充分降维方法的高维数据假设检验问题的研究