The cure rate model has been widely applied in survival analysis, especially for the evaluation of the therapeutic interventions for diseases like cancers. In recent years, nonparametric and semi-parametric statistical models have been hot and difficult research topics. Since semi-parametric statistical models are more flexible, the semi-parametric cure rate model is appropriate for complicated structured survival data analysis. On the other hand, with the appearance of the biological medical high dimensional data, corresponding variable screening methods are in urgent need for fast and effective modeling. variable screening methods, which can meet the needs of fast and efficient modeling, has been rapid developed. However, the statistical analysis methods of complex models for high-dimensional survival data are not perfect and are needed for further research. Based on this, the project intends to conduct the study from the following three aspects: 1) high-dimensional data variable screening methods based on the cure rate model; 2) efficient estimation methods of the semi-parametric varying coefficients cure rate model particularly for the general form interval-censored data; 3) model selection and related hypothesis testing for the semi-parametric varying coefficients cure rate model. This project aims to implement fast and effective statistical analysis for high dimensional biological and medical survival data based on variable screening methods for high dimensional data and the semi-parametric cure rate model.
治愈率模型已广泛应用于生存数据的分析之中,尤其是对疾病,比如癌症,的治疗干预方式的评价中。近些年来,非参数和半参数统计模型成为研究的热点和难点。由于半参数统计模型更加灵活,半参数治愈率模型更加适用于复杂结构生存数据的分析。另一方面,随着生物医学高维数据的产生,满足快速有效建模需求的变量筛选方法得到迅猛的发展。然而,针对高维生存数据复杂模型的统计分析方法尚不健全,需要更深入的研究。基于此,本项目拟从以下三个方面展开研究:1)基于治愈率模型的生物医学高维数据变量筛选方法;2)针对一般形式区间删失数据的半参数变系数治愈率模型的高效估计方法;3)半参数变系数治愈率模型的模型选择与相关的假设检验。本项目旨在基于高维数据变量筛选方法和半参数治愈率模型,实现对高维生物医学生存数据复杂模型进行快速有效的统计分析。
本课题使用非参数统计方法对区间删失数据半参数治愈率模型进行了基础理论和应用的研究。一方面,使用样条函数逼近模型中非参数部分的未知函数,使得模型求解参数化。另一方面,使用EM算法配合自助法(bootstrap),对复杂治愈率模型进行求解和统计推断。进一步应用非参数统计方法对生物医学高维数据的变量筛选方法进行了研究。完成基于非参数检验的RNA-seq数据统计分析和基于半参数模型的miRNA数据统计分析的研究。针对RNA-Seq数据,通过广义线性混合模型构建卡方统计量进行得分检验来筛选差异表达基因。因检验统计量渐进理论分布效果不理想,使用非参数统计方法进行置换检验。该方法可以作为经典差异表达基因筛选方法的针对低效应和混杂同种型(isoform)效应基因筛选的有效补充。基于miRNA数据,针对基因及其交互作用对二元性状的影响,建立半参数logistic回归模型并构造了有效的联合检验。考虑到方差成分检验和核机器功能之间的联系,基于garrote核函数的得分检验得以建立。该方法与传统似然比卡方检验进行比较,尤其是在检验复杂非线性交互效应方面,有更好的性能。项目资助发表SCI论文1篇,投稿中论文1篇。项目投入直接经费18.00万元,支出11.40万元。剩余经费6.60万元,剩余经费计划用于本项目研究后续支出。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
含指标项半参数生存模型的估计和变量选择
混合半参数模型下生存数据的亚组分析
纵向数据与生存数据的半参数联合模型
基于变系数半参数模型的高维数据统计分析