Data with corruption is one of the most important bottlenecks that impede the statistical inference in high dimensional cases, since the standard regularized methods such as Lasso will generate unstable, biased or even misleading results now. This project aims at to provide some unified correction approaches for the high dimensional varying coefficient partially linear model, in which the parametric covariate is carried with two types of contamination including measurement error or missing at random, along with the related theoretical analysis. Firstly, we integrate the two corrupted model structures into the same one model framework with additive errors, and then transform the new model into a high dimensional linear model for studying through orthogonality-projection procedure. Secondly, for the normal and non-normal model errors, we do some sparse inference based on the obtained parametric model via bias-corrected weighted least squares Lasso and weighted quantile Lasso methods, respectively. During the process, we will employ different skills including convex conditional Lasso and conic programming, to deal with the related non-convex regularized objective functions. Thirdly, we establish the consistency of model selection for the new methods under some regularity assumptions on sparsity, and then present the upper bounds of the estimate error in terms of different norms. Our proposed methods are suitable for high/ultra-high dimensional sparse model, so this work has great applications in the areas of big data like genomics, epidemiology and econometrics, for instance.
数据带污染现象是制约高维统计推断的重要瓶颈之一,此时标准的正则化方法如Lasso将产生不稳定、有偏甚至错误的结果。本项目旨在高维变系数部分线性模型下,针对参数部分协变量带有测量误差和随机缺失两种污染情形,提出统一的矫正方案并进行理论分析。第一,将两类污染的模型整合到同一个可加误差模型框架下,进而利用正交投影方法将新模型转换成高维线性模型进行研究;第二,针对正态和非正态模型误差,分别基于偏差矫正的加权最小二乘Lasso和加权分位数Lasso方法对参数模型进行稀疏推断,其中我们将利用凸条件Lasso和锥规划等技巧对非凸的正则化目标函数进行凸化处理;第三,在常见的稀疏性假设下建立新方法模型选择的相合性,并借助各类范数建立估计误差的上界。我们的方法适用于高维/超高维稀疏模型,因此该项工作在基因组学、流行病学和计量经济学等大数据领域具有重要的应用价值。
生物统计、医学统计以及经济金融统计等交叉学科是当代统计学领域研究的焦点,其丰富的实际背景为统计学的研究提出了许多新的模型和问题。同时,这些交叉学科通常涉及庞大的数据信息和复杂的数据结构,极大地拓宽了统计模型选择方法的研究和应用价值。针对这些高维数据环境下的实际问题,简单的参数模型通常无法刻画响应变量和协变量之间的依赖关系,非参数模型会遭遇“维数祸根”的现象。因此,如何建立合适的高维半参数模型,进而寻求创新性的解决方法和工具,特别是稳健且有效的统计推断方法,显得十分有意义。.本项目主要基于分位数回归、众数回归、秩回归等稳健且有效的统计分析方法,结合正则化罚函数思想,研究了几类高维半参数模型的稳健估计、变量选择以及结构识别问题。理论上证明了所得估计量的渐近正态性与变量选择的相合性,并推导出新方法相对已有方法(如:最小二乘方法、分位数方法)的渐近相对效率,进而通过大量的数值模拟验证了新方法的稳健性和有效性。最后,将我们的方法应用到人体脂肪含量影响因素分析、城市住房价格影响因素分析、大气污染与气象因素关联分析等多个生物、医学、经济与环境领域的实例中,所得结果表明新方法相比现有统计分析方法具有更高的预测精度、更好的稳健性与可解释性。此外,针对空间相依型数据,我们借助广义矩估计思想和工具变量法研究了高维半参数空间自回归模型的稳健估计和变量选择问题,并建立了估计量的大样本性质。最后,将所提方法应用到居民住房价格数据分析中,所得结果与现有文献结果相比具有更强的解释性。在流行病与脑科学研究、房价分析与预测、区域经济发展等具有空间相关性的大数据实际问题中,我们的方法具有较高的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
协变量随机缺失和有测量误差数据下影响诊断精度的半参数模型研究
核实数据帮助下测量误差回归模型的校准分析
缺失响应数据下高维稀疏分位数回归模型的变量选择
测量误差回归模型下的经验似然估计及其应用