Complexly correlated data appear frequently in the areas of biomedicine, medical and public health studies, epidemiology, ecology, economics, actuarial science, environmental science. Although there is vast literature in the analysis of multivariate normal data; modelling multivariate non-normal data with complex covariance structure remains very challenging. Current approaches to complexly correlated data, such as multivariate non-normal data, in the literature are generally two main limitations. Almost all these methods imply positive covariance structure, and thus are impractical for multiple species occur in competitive environment. Another disadvantage of existing methods is their technical complexity in model construction and estimation. Thus, this project will introduce two new models, namely multivariate Tweedie mixed models and multivariate Tweedie mixed dynamic models, for complexly correlated data by incorporating multivariate random effect into Tweedie regression model. The estimation problem of unknown parameters and random effects of the proposed models will then be studied. Otherwise, the application of the complexly correlated data including ‘outliers’may lead to biased statistical results. Therefore, based on the estimation theory, this project will study the influence analysis in the proposed models.
在生物医学、公共卫生学、流行病学、生态学、经济学、保险精算、环境科学等众多领域,都存在大量的复杂相关数据。尽管已出现大量文献对多元正态数据进行分析,然而如何对具有复杂协方差结构的多元非正态复杂相关数据建模仍然是一个挑战性的课题。目前,对多元非正态复杂相关数据建模的方法主要存在两点不足:第一,多元变量间大多只存在正相关关系,这对刻画多个物种之间的竞争是不切实际的;第二,建模过程和参数估计方法非常复杂。为此,本项目在Tweedie回归模型中引入多元随机效应,提出两类新模型:多元Tweedie混合效应模型和多元Tweedie混合效应动态模型来分析各种复杂相关数据。针对这两类模型中回归参数、随机效应部分估计理论的研究也将展开。另外,在复杂相关数据集中可能存在异常点或强影响点,则基于这组数据集得到的统计推断结果就有可能偏离实际。因此,本项目在估计理论的基础上拟研究此类模型的影响分析问题。
项目组围绕项目申请书和计划书开展了一系列创新性研究,在下列方面取得了多项研究成果和阶段性成果:给出了多元Tweedie混合效应模型和多元Tweedie混合效应动态模型的估计理论和算法实现以及在各种场合中的应用。第一,利用多元Tweedie混合效应模型的一类特殊模型-多元泊松混合效应模型来分析各类散度偏大且具有灵活结构的多元计数数据;另外,在多元泊松混合效应模型的基础上,构造出另一类等价的模型:基于多项式分布的logit混合效应模型;两类模型具有等价的似然函数,并用来分析在生态环境中不同根瘤菌菌株物种竞争情况的数据。第二,给出不同时间相依结构的随机效应的多元Tweedie混合效应动态模型,并对它的两类特殊模型进行统计推断和应用,首先把具有时空相关结构的伽玛随机效应模型用来分析加拿大安大略省某水域中硫酸盐沉淀含量的水污染数据,并进行预测;其次,利用多元泊松状态空间模型以及它的一类等价模型:基于多项式分布的logit状态空间模型用来分析加拿大斯科舍省老年人服用不同剂量的辛伐他汀药物的多元时间计数数据。上述工作均可推导出响应变量的协方差结构具有简单的解析表达式,根据这些协方差结构可构造出不同的最佳线性无偏预测表达式去估计模型的随机效应部分;此外,根据构造出的不同模型的部分观测联合对数似然函数,可得到回归参数的最优估计方程,并分别利用牛顿得分迭代公式估计出模型回归参数和利用矩估计方法估计随机效应的方差分量参数及其模型的散度参数。第三,把Tweedie分布族推广到更一般的再生散度分布族,并分别给出了这两类模型-半参数再生散度非正态随机效应部分线性模型和带有异质散度结构的半参数单纯形分布广义部分线性模型的联合贝叶斯估计,同时还研究了它们的统计诊断问题。依托上述成果,项目组在Environmetrics、JSCS等SCI源期刊上发表论文3篇,另外被EI检索1篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
复杂相关数据半参数混合效应模型基于全局似然的统计推断
偏正态纵向数据混合效应模型的统计推断及应用
复杂数据下结构突变模型的统计推断及应用
基于复杂数据的回归模型统计推断及其应用