含有缺失的散度偏大计数数据的有限混合建模研究

基本信息
批准号:11201200
项目类别:青年科学基金项目
资助金额:23.00
负责人:付英姿
学科分类:
依托单位:昆明理工大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:戴琳,付光辉,柳士锋,陈异,寇鹏
关键词:
缺失数据散度偏大统计推断计数数据混合模型
结项摘要

The count data are commonly encountered in a wide variety of disciplines, such as biomedical, ecomometrics, public health and insurance, etc. In this project, the overdispersed count data with missing values are studied based on finite mixture modeling approach. To be specific, by fully analyzing the causes for overdispersion of count data, a finite mixture regression model is established for accounting for the "heterogeneity" and "overdispersion" inherent in the data. And then, with different missingness mechanisms considered, several important issues, namely, mixture components estimation, parameter estimation, statistical inference, local inference analysis as well as model selection related to the above models are investigated. An efficient estimation algorithm and an appropriate diagnostical measure as well as a model selection criterion are to be developed both for likelihood-based method and Bayesian approach respectively. Our research is the natural extension and generalization of the hot issues in modern statistics. The corresponding results not only provide the necessary support for complex count data analysis and finite mixture modeling theoretically and methodologically, but also can be used for reference for practical workers in large. The expected research results include 6-9 papers which are to be published in well-known academic journals.

本项目以生物医学、经济学、公共健康以及保险等领域中广泛存在的计数数据为研究对象,拟基于有限混合模型对含有缺失的散度偏大计数数据展开统计推断研究。具体而言,通过全面分析导致计数数据散度偏大成因,建立起上述数据的有限混合回归模型,以合理刻画数据的"非同质性"和"散度偏大"等特征;在此基础上,结合不同的缺失数据机制,拟分别从似然和Bayesian分析的角度进一步深入研究上述模型在混合个数估计、模型参数估计、统计诊断、局部影响分析以及模型选择方面的理论方法,希望建立有效的估计算法、合理的统计诊断度量以及模型选择标准。本项目的研究是当代统计学中热点问题的自然结合和推广,其相关研究不仅为复杂计数数据的有限混合研究提供理论和方法上的支持,还可能为实际工作者提供技术上的参考。其预期研究成果为论文,预计在国内外重要学术刊物上发表论6-9篇。

项目摘要

本项目以现实生活中广泛存在的零点膨胀计数数据为研究对象,并借鉴了近年来计数数据分析方面的新思路和新方法,得到如下四个方面的研究成果:(1) 具有零点膨胀的不完全计数数据的有限混合建模,并研究上述模型中混合个数的选择方法和模型参数的估计方法。 具体的,本研究重点考虑了不可忽略缺失数据下泊松分栏回归的有限混合建模以及随机EM算法的问题,其基本思想为通过对“决定性”的估计程序引入一“随机扰动”机制,则该算法有望跳出局部极大的“陷阱”从而找到全局极大。其中,随机步可分解为三个子步骤,以分别对混合比例、缺失数据以及添加的潜在变量实施抽样,基于抽取的样本可得到完全数据集。基于完全数据集, E步和M步的计算时相对直接且容易的。(2) 对具有测量误差和偏斜分布的集群计数数据的贝叶斯分析。本研究将零点膨胀泊松混合效应模型推广到了具有测量误差以及偏态T分布的零点膨胀层次回归模型上,为了解决模型结构的复杂性为贝叶斯后验模拟造成的困难,本项目将上述模型分解为三个层次的子模型并采用Winbugs软件进行参数估计;在此基础上,利用了贝叶斯卡方拟合优度统计量来评估数据对于模型的拟合好坏并采用了DIC 准则以进行模型之间的比较和选择。(3) 不可忽略缺失机制下广义泊松有限混合回归模型的贝叶斯后验推断。本研究重点考虑了不可忽略缺失机制下广义泊松有限混合回归模型的贝叶斯后验推断问题。在适当的先验假设下,通过数据添加方法并借助于Gibbs抽样技术以及MH算法以得到模型参数的贝叶斯估计,对于有限混合建模研究的核心问题—如何确定混合成分的个数,则建立起了基于加权K-L距离的贝叶斯检验方法,在此基础上还考虑了贝叶斯拟合优度检验以进一步评价模型的合理性。(4) 含有空间效应计数数据的贝叶斯后验推断。本研究以云南省吸毒人群中艾滋病感染者为主要研究对象,建立起以受瘾程度为响应变量的分栏泊松回归模型,并进一步研究响应变量与个体自身因素、吸毒相关因素、以及生活方式因素之间的关系。其中,采用了多种策略以定义空间随机效应分布,计算相对风险并评估不同因素对受瘾程度的影响。.本项目的研究是当代统计学中热点问题的自然结合和推广,适应了实际问题中对复杂数据分析的需要。其相关研究成果不仅为计数数据分析提供理论和方法上的支持,还可能为广大实际工作者提供技术上的参考。本项目如期完成预期目标,发表论文7篇,培养硕士研究4名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020

付英姿的其他基金

相似国自然基金

1

不可忽略缺失数据非线性再生散度随机效应模型的贝叶斯影响分析

批准号:11426197
批准年份:2014
负责人:赵慧
学科分类:A0403
资助金额:3.00
项目类别:数学天元基金项目
2

含有缺失值的纵向数据回归模型的稳健推断

批准号:11371100
批准年份:2013
负责人:秦国友
学科分类:A0403
资助金额:55.00
项目类别:面上项目
3

高维大数据可视化的散度模型、算法及评价

批准号:61572317
批准年份:2015
负责人:严京旗
学科分类:F0214
资助金额:65.00
项目类别:面上项目
4

一类含有缺失数据的零点膨胀层次回归模型的贝叶斯分析

批准号:11126310
批准年份:2011
负责人:付英姿
学科分类:A0403
资助金额:3.00
项目类别:数学天元基金项目