Inference for data under nonignorable missingness has been attracted many interests in recent several years. The estimation would be biased without any treatment on missingness. This project is devoted to the following two-fold studyies: one is to find the sufficient conditions under which several kinds of semiparametric model for nonignorable missing data are identifiable and develop the double robust estimating equations including generalized additive model, quasi-likelihood regression, longitudinal data model; the other is to construct confidence region for partly-identified model, for example, the survivor average causal effects (SACE). The proof of sufficient conditions for identifiability is based on the analytic property of propensity function; the optimal double-robust estimating equations is expected to obtain by projecting the score function into the space of double-robust estimating equations; confidence region of SACE is constructed based on empirical likelihood method. Finally, some related simulation studies and real data analysis are investigated. Due to the complexity of data under nonignorable missingness, our study is challenging. This project will greatly enrich theories of statistical inference for missing data.
不可忽略缺失数据是统计学学科近来研究的热点问题之一。如果不予处理的话,所得估计往往是有偏的。本项目致力于研究两方面的内容,一是不可忽略缺失情形下几类半参数模型的可识别性和双重稳健估计,包括:广义可加模型、拟似然回归、纵向数据模型;二是部分可识别模型的置信域(区间),如生存平均因果效应 (survivor average causal effects, SACE)。 对于第一方面,我们首先通过利用倾向函数 (propensity function) 的解析性质,给出上述模型可识别的充分条件;然后构造双重稳健估计方程空间,将得分函数向该空间上投影从而得到最优的双重稳健估计方程。对于第二方面,基于经验似然方法对SACE构造置信区间。最后进行数值模拟和实证分析研究。由于不可忽略缺失数据本身的复杂性,该项目的研究极具挑战性。本项研究将大大丰富不可忽略缺失数据的统计推断方法。
本项目主要在以下三个方面展开了研究工作:不可忽略缺失数据模型的可识别性和统计推断及其在教育收益率估计中的应用;高维数据模型的统计推断;几类半参数模型(泛函数据模型、有限混合模型、测量误差模型等)的统计推断。. (a) 对于响应变量存在不可忽略缺失的广义可加模型,解决了参数和函数的识别性问题,并给出了未知参数和函数的估计方法,将该模型应用于中国家庭收入项目研究的数据集分析。测度了珠江流域近30年的人类活动净氮输入(NANI),发现NANI的总量增加了2倍多,为制定流域氮管理综合策略提供了重要信息,其中缺失的数据处理采用了随机森林等填补方法。. (b) 提出了有超高维协变量变系数Cox模型和广义变系数模型的特征筛选方法,与SIS是不同的是,它依赖于潜在活跃协变量的联合似然函数,而不是一个边际筛选方法。该方法能够有效地识别出活跃协变量,特别是那些与因变量边际独立但联合相依的,且有sure screening的性质。研究了分位数可加模型的动态结构确定问题。基于惩罚回归提出了变系数模型的稳健估计和异常值识别。基于L1混合范数惩罚和再生核Hilbert空间框架,建立了有多个函数型预测变量分位数线性回归模型的估计和预测。提出了总体协方差的交叉验证线性收缩估计。对于大维均值向量情形,建立了经验似然检验统计量。基于邻接矩阵研究了两个随机模块模型产生的两个网络是否具有相同的连接结构。. (c) 提出了基于充分降维的部分函数半参数模型,并研究了降维方法和预测方法,以及线性部分的 相合性。对于部分函数型线性回归模型,提出了一种基于重现内核希尔伯特空间的替代框架,给出了非函数部分的渐近正态性。研究了预测损失中函数型主成分回归的收敛速度,分别考察了上下界的性质。对于半参数混合模型,概述了它们的估计方法、理论属性(如果适用)以及一些未解决的问题。对于混合回归模型中参数的估计,综合概述了最近提出的鲁棒混合回归方法。提出了多项式和有序对数模型的模型平均估计,通过最小化M折交叉验证准则选择权重。对于有测量误差的广义部分线性模型和单指标模型,研究了测量误差以非参数形式进入协变量情形,并建立了基于B样条的估计方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
拥堵路网交通流均衡分配模型
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
不可忽略缺失数据模型的统计推断方法研究
基于偏差估计的协变量不可忽略缺失数据敏感性分析研究
不可忽略缺失数据的工具变量方法研究
不可忽略缺失数据的若干理论研究及其应用