不可忽略缺失数据模型的可识别性和双重稳健估计

基本信息

批准号：11871173

项目类别：面上项目

资助金额：55.00

负责人：崔霞

学科分类：

依托单位：广州大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：杨广仁,Yanqing Sun,李庭辉,吕玉文,杜洁瑞,黄彩珠,文高

关键词：

双重稳健估计方程最优估计方程部分可识别模型可识别性不可忽略缺失

结项摘要

Inference for data under nonignorable missingness has been attracted many interests in recent several years. The estimation would be biased without any treatment on missingness. This project is devoted to the following two-fold studyies: one is to find the sufficient conditions under which several kinds of semiparametric model for nonignorable missing data are identifiable and develop the double robust estimating equations including generalized additive model, quasi-likelihood regression, longitudinal data model; the other is to construct confidence region for partly-identified model, for example, the survivor average causal effects (SACE). The proof of sufficient conditions for identifiability is based on the analytic property of propensity function; the optimal double-robust estimating equations is expected to obtain by projecting the score function into the space of double-robust estimating equations; confidence region of SACE is constructed based on empirical likelihood method. Finally, some related simulation studies and real data analysis are investigated. Due to the complexity of data under nonignorable missingness, our study is challenging. This project will greatly enrich theories of statistical inference for missing data.

不可忽略缺失数据是统计学学科近来研究的热点问题之一。如果不予处理的话，所得估计往往是有偏的。本项目致力于研究两方面的内容，一是不可忽略缺失情形下几类半参数模型的可识别性和双重稳健估计，包括：广义可加模型、拟似然回归、纵向数据模型；二是部分可识别模型的置信域（区间），如生存平均因果效应 (survivor average causal effects, SACE)。对于第一方面，我们首先通过利用倾向函数 (propensity function) 的解析性质，给出上述模型可识别的充分条件；然后构造双重稳健估计方程空间，将得分函数向该空间上投影从而得到最优的双重稳健估计方程。对于第二方面，基于经验似然方法对SACE构造置信区间。最后进行数值模拟和实证分析研究。由于不可忽略缺失数据本身的复杂性，该项目的研究极具挑战性。本项研究将大大丰富不可忽略缺失数据的统计推断方法。

项目摘要

本项目主要在以下三个方面展开了研究工作：不可忽略缺失数据模型的可识别性和统计推断及其在教育收益率估计中的应用；高维数据模型的统计推断；几类半参数模型（泛函数据模型、有限混合模型、测量误差模型等）的统计推断。. (a) 对于响应变量存在不可忽略缺失的广义可加模型，解决了参数和函数的识别性问题，并给出了未知参数和函数的估计方法，将该模型应用于中国家庭收入项目研究的数据集分析。测度了珠江流域近30年的人类活动净氮输入（NANI），发现NANI的总量增加了2倍多，为制定流域氮管理综合策略提供了重要信息，其中缺失的数据处理采用了随机森林等填补方法。. (b) 提出了有超高维协变量变系数Cox模型和广义变系数模型的特征筛选方法，与SIS是不同的是，它依赖于潜在活跃协变量的联合似然函数，而不是一个边际筛选方法。该方法能够有效地识别出活跃协变量，特别是那些与因变量边际独立但联合相依的，且有sure screening的性质。研究了分位数可加模型的动态结构确定问题。基于惩罚回归提出了变系数模型的稳健估计和异常值识别。基于L1混合范数惩罚和再生核Hilbert空间框架，建立了有多个函数型预测变量分位数线性回归模型的估计和预测。提出了总体协方差的交叉验证线性收缩估计。对于大维均值向量情形，建立了经验似然检验统计量。基于邻接矩阵研究了两个随机模块模型产生的两个网络是否具有相同的连接结构。. (c) 提出了基于充分降维的部分函数半参数模型，并研究了降维方法和预测方法，以及线性部分的相合性。对于部分函数型线性回归模型，提出了一种基于重现内核希尔伯特空间的替代框架，给出了非函数部分的渐近正态性。研究了预测损失中函数型主成分回归的收敛速度，分别考察了上下界的性质。对于半参数混合模型，概述了它们的估计方法、理论属性（如果适用）以及一些未解决的问题。对于混合回归模型中参数的估计，综合概述了最近提出的鲁棒混合回归方法。提出了多项式和有序对数模型的模型平均估计，通过最小化M折交叉验证准则选择权重。对于有测量误差的广义部分线性模型和单指标模型，研究了测量误差以非参数形式进入协变量情形，并建立了基于B样条的估计方法。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16285/j.rsm.2019.1280

发表时间：2019

DOI：10.11918/j.issn.0367-6234.201804030

发表时间：2019

DOI：10.12062/cpre.20181019

发表时间：2019

DOI：

发表时间：2022

DOI：10.11821/dlyj201810008

发表时间：2018

崔霞的其他基金

批准号：11471086

批准年份：2014

资助金额：68.00

项目类别：面上项目

批准号：41401472

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：30971619

批准年份：2009

资助金额：30.00

项目类别：面上项目

批准号：11871112

批准年份：2018

资助金额：55.00

项目类别：面上项目

批准号：10226026

批准年份：2002

资助金额：2.50

项目类别：数学天元基金项目

批准号：11026194

批准年份：2010

资助金额：3.00

项目类别：数学天元基金项目

批准号：51864035

批准年份：2018

资助金额：40.00

项目类别：地区科学基金项目

批准号：11271054

批准年份：2012

资助金额：68.00

项目类别：面上项目

批准号：31572140

批准年份：2015

资助金额：25.00

项目类别：面上项目

批准号：31271363

批准年份：2012

资助金额：85.00

项目类别：面上项目

批准号：11101442

批准年份：2011

资助金额：22.00

项目类别：青年科学基金项目

批准号：10501004

批准年份：2005

资助金额：14.00

项目类别：青年科学基金项目

相似国自然基金

不可忽略缺失数据模型的统计推断方法研究

批准号：11671349

批准年份：2016

负责人：唐年胜

学科分类：A0403

资助金额：50.00

项目类别：面上项目

基于偏差估计的协变量不可忽略缺失数据敏感性分析研究

批准号：11801542

批准年份：2018

负责人：殷鹏

学科分类：A0403

资助金额：26.00

项目类别：青年科学基金项目

不可忽略缺失数据的工具变量方法研究

批准号：11601156

批准年份：2016

负责人：方方

学科分类：A0402

资助金额：19.00

项目类别：青年科学基金项目

不可忽略缺失数据的若干理论研究及其应用

批准号：11871287

批准年份：2018

负责人：王磊

学科分类：A0402

资助金额：52.00

项目类别：面上项目

不可忽略缺失数据模型的可识别性和双重稳健估计

{{i.achievement_title}}

暂无此项成果

其他相关文献

粗颗粒土的静止土压力系数非线性分析与计算方法

拥堵路网交通流均衡分配模型

中国参与全球价值链的环境效应分析

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

崔霞的其他基金

高维生存数据的统计推断

基于多源遥感数据的高寒草地退化基准与评价研究

拟南芥去泛素化酶UBP12/UBP13调控植物发育和开花时间的机理研究

多介质辐射扩散问题的高精度快速求解方法

辐射扩散问题在非结构网络上高精度实用数值方法研究

协变调整回归模型的估计和检验

损伤容限型钛合金微细α+β片层结构形成及其对强韧性的影响

非规则网格上各向异性扩散问题的高性能计算方法

调控果实早期发育的TALE转录因子的功能及调控机制

组蛋白H3K27去甲基化酶REF6 JmjC和4 xzf-C2H2结构域调控开花时间及BR响应的机理研究

基于估计方程方法的若干半参数模型的统计推断

坐标变换下多维辐射扩散问题的实用数值方法研究

相似国自然基金