High-dimensional longitudinal data arise frequently in many fields such as social sciences and medical studies. In essence, the data set may be regarded as a collection of many time series, in which serial correlation exists inherently. Therefore, it is very meaningful to do statistical analysis in the presence of within-subject correlation, which is one of the most popular topics in statistics over the past two decades. This project will focus on studying the generalized partially linear single-index models with high-dimensional and ultrahigh dimensional longitudinal data. Firstly, we aim to study the model identification, the estimation efficiency and variable selection for generalized partially linear single-index models with high-dimensional longitudinal data. In the spirit of generalized estimating equations, we propose an estimation procedure and establish the estimation efficiency of the parametric part of the model. Further, we propose a variable selection procedure to do parameter estimation and variable selection simultaneously. The variable selection consistency will be given and simulation studies will be carried out to evaluate the finite sample performance. Secondly, we will study the dimension reduction problem for the generalized partially linear single-index models with ultrahigh dimensional longitudinal data. We propose a screening method for feature screening. We will prove its sure screening properties and assess its finite sample performance via numerical studies. Finally, we propose a two-stage screen and clean method by combining above feature screening and selection methods. And we will apply the proposed two-stage method for real data analyses.
高维纵向数据在社会学、医学等领域中经常出现,其最大的特点是数据之间具有相关性。因此,如何在考虑数据相关性的前提下对其进行统计分析一直是近20年来统计学研究的热点课题之一,具有十分重要的意义。本项目将重点研究高维以及超高维纵向数据下的广义部分线性单指标模型。首先,本项目拟从模型的识别性、估计的有效性和变量选择这三方面对高维纵向数据下的广义部分线性单指标模型进行研究,拟借鉴广义估计方程的思想提出估计方法并研究其有效性,进而提出能同时进行参数估计和变量选择的方法,证明变量选择的相合性,并通过数值模拟研究其有限样本性质;其次,本项目拟探讨超高维纵向数据下广义部分线性单指标模型的降维问题,构建单指标系数变量的筛选准则,给出筛选方法的大样本性质,并通过数值分析来评估其有限样本下的表现;最后,本项目拟结合上述高维和超高维两种情况下所提出的方法,提出两阶段的特征筛选和选择方法并应用于实际数据进行实证研究。
纵向数据分析具有广泛的实际应用背景,是生物医学、经济学等领域研究的热点问题之一。与截面数据最大的区别在于每一个样本对应一组离散、稀疏的观测值,该组观测数据之间不是独立的,具有相关性。本项目着重利用纵向数据的固有特点,结合具体的实际背景对均值进行了半参数回归建模,从模型的识别性、估计的有效性和变量选择方面对相应的模型进行了研究。在广义部分线性单指标模型下,给出了指标系数的截面广义估计方程估计,并证明了当工作相关系数矩阵正确假定时,该估计是最优估计;利用正交技术分别估计了半参变系数模型下的参数向量、系数函数向量和协方差函数,使估计之间互不影响,从而提高了估计精度;当系数曲线存在变点时,基于系数曲线的一二阶导数提出了变点识别方法,并给出了系数曲线的估计,证明了当噪音比较小时,该估计能保留跳的结构。对于高维的纵向数据,利用正交技术提出了一种惩罚方法用于固定效应和随机效应的变量选择,证明了该方法具有Oracle性质,并能通过现有算法快速实现;利用惩罚思想和内点算法,提出了一类全新的Copula函数族来刻画变量之间的相关结构,为变量筛选服务。在实际应用方面,为了对原发胆汁性肝硬化病人进行合理分类开展精准医疗,本项目通过建立半参数混合回归模型,将聚类问题转化为混合回归模型的估计问题,提出了一种相合的惩罚方法来同时确定成分的个数以及估计混合比例和回归参数,并给出了一种迭代算法来进行无缝模型选择和估计;为了考察电子游戏的治疗方法对6到13岁具有痉挛性偏瘫的孩子的运动功能恢复的有效程度,提出了一种带方向的多重比较检验方法,来自动识别6到13岁之间基于电子游戏的治疗方法能显著提高孩子运动功能恢复的年龄段,并给出了显著性曲线动态展示治疗方法随时间的有效程度的变化情况,为康复师和实际工作者提供了一定的帮助。在项目资助下,我们在统计学知名期刊IME, CSDA, Stat Med, TEST等期刊发表了数篇高质量学术论文,并多次参与国内外相关学术会议汇报项目研究成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
缺失数据下部分线性单指标模型的经验似然推断
基于高维纵向数据边际模型的变量选择及理论研究
基于变系数半参数模型的高维数据统计分析
复杂纵向数据下半参数模型的统计分析