Missing data exists ubiquitously in many subjects. Nonignorable missingness is the most difficult type of nonresponse to handle, due to its missing mechanism depends on unknown data. It is very important to study the methods for analyzing nonignorable missing data, since the methods for analyzing complete dataset are not appropriate for analyzing nonignorable missing data, in addition, the methods for ignorable missingness are hard to be applied directly to nonignorable missingness. The inappropriate methods will result in unexpected bias. In this project, by constructing suitable nonignorable missing mechanism and propose the identifiable assumptions, we devote to study the quantile regression model with nonignorable nonresponse, and variable selection method in quantile regression model for high or ultrahigh dimensional nonignorable missing data. When auxiliary information exists, we study the over-identified quantile regression method. Furthermore, non-smooth estimating equations for nonignorable missing data are also studied based on quantile regression model. Meanwhile, we will develop related algorithms. The research results of our project are valuable for quantile regression and general non-smooth estimating equations for nonignorable missingness, besides, our results provide reliable references for making decision.
缺失数据普遍存在于各学科领域, 不可忽略缺失数据是其中最难处理的一类, 这是由于其缺失机制依赖于未知数据造成的。对不可忽略缺失数据统计推断方法的研究非常重要,因为完全数据的分析方法不再适用于缺失数据,并且处理可忽略缺失数据的方法通常很难通用或直接应用于不可忽略缺失数据中,若错误的使用统计推断方法可能会导致结果的极大偏差。本项目在不可忽略缺失机制下,通过建立恰当的响应机制模型和识别假设,重点研究不可忽略缺失数据的分位数回归估计以及在高维或超高维数据下的变量选择问题,并且当存在辅助信息时,研究过识别情形下的分位数回归估计,此外,以分位数回归模型为特例,研究不可忽略缺失机制下一般非光滑估计方程的统计推断。同时,我们还将研究相关的快速计算方法。本项目的研究成果对不可忽略缺失数据下分位数回归方法以及一般非光滑估计方程方法具有非常重要的现实意义和科学价值,并为实务部门的决策提供了可靠的参考。
缺失数据是经济和社会领域里常见的数据类型。从统计推断方法的角度来说,完全数据的分析方法不适用于缺失数据,并且处理可忽略缺失数据的方法通常很难通用或直接应用于不可忽略缺失数据中。本项目首先研究了不可忽略缺失数据下的广义估计方程方法。我们使用半参数Logistic回归模型来对响应概率建模,为了解决模型的识别性问题,我们使用了不响应工具变量对模型进行了调整,在可识别性假设下,利用核回归方法插补估计函数得到调整的估计函数,基于该估计函数使用广义估计方程法对感兴趣的参数和冗余参数同时进行估计。此外,我们还研究了估计的相合性和渐近正态性,发现估计未知冗余参数的代价是分布参数估计的方差增大,这在实际应用中比收集验证数据要更现实。模拟数值分析和数据实例也验证了方法的有效性。其次,研究了缺失数据分位数回归的扰动估计函数重抽样方法。我们在随机缺失的条件下,针对分位数回归模型提出了一种基于扰动估计函数的重抽样方法来计算分位数回归估计的渐近方差,证明了重抽样估计的条件分布与分位数回归估计的分布函数是渐近等价的,并且我们的方法可以用来处理更为复杂的响应变量和部分协变量同时缺失的情况,在多种设置下给出了数据分析结果和实例分析。再次,研究了缺失数据下的样本分位数估计。我们利用非参数核补法和局部多重插补法给出了响应变量缺失时样本分位数的估计,并利用经验过程等理论证明了由这两种方法得到的分位数估计的大样本性质,同时,使用重抽样方法给出了分位数估计的渐近方差的估计,模拟结果验证了这两种方法的有效性。最后,作为方法的部分应用,我们研究了半参数alpha策略的反转效应。基于时变的市场风险,我们建立了半参数alpha策略模型,提出了一种alpha套利策略。利用该模型策略可以选出合理的股票组合进行有效套利,同时对选出股票的反转效应进行了实证分析。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于LASSO-SVMR模型城市生活需水量的预测
缺失响应数据下高维稀疏分位数回归模型的变量选择
不可忽略缺失数据的工具变量方法研究
不可忽略缺失数据模型的统计推断方法研究
不可忽略缺失数据的若干理论研究及其应用