基于纵向数据的时间相依型结局变量的预测模型

基本信息
批准号:81703325
项目类别:青年科学基金项目
资助金额:20.00
负责人:陈方尧
学科分类:
依托单位:西安交通大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:赵亚玲,李超,刘蓓,李姗姗,张小凤,刘蓉
关键词:
Bayes统计预测模型纵向数据时间相依性混合模型
结项摘要

Predict model has been widely used in the prediction of prognostic outcome or disease status and the exploratory studies of potential influential factors. It has obtained great importance in cohort study and the analysis of longitudinal data. However, when both the interested outcome variable is time-dependent and the main influential factors change overtime, existing methods may yield non-negligible bias in parameter estimation and outcome prediction. The situation occurs in studies about chronic progressive disease like birth defects, pervasive developmental disorder, cancer, mental disease, tumor and studies about health related quality of life. To solve this problem, in this study we will propose a novel linear mixed predict model for time-dependent outcome variable based on complicated longitudinal data with linear model, machine learning algorithms and Bayesian algorithms. The model will achieve a full use of the latest follow-up and historical data. Monte Carlo simulation and a series of empirical studies based on real longitudinal data will be conducted to evaluate the statistical performance of the model we proposed. The new model will be a novel, reasonable and efficient statistical tool for the prediction of time-dependent events in cohort studies and a methodological reference for the analysis of longitudinal data.

预测模型被广泛应用于预后结局或患病状态的预测及兴趣事件影响因素的探索和研究中,在队列研究和纵向数据分析中具有重要的作用。然而,在研究关心的结局变量具有时间相依性,影响结局变量状态的主要因素也随着研究的进展不断发生变化的情况下,现有的统计分析方法在参数估计和预测结果中都存在较大偏倚。这种情况常出现在出生缺陷、广泛性发育障碍、肿瘤和心理疾病等慢性进展性疾病及生存质量相关的纵向研究中。针对此问题,申请人以线性模型为基础,采用机器学习算法和Bayes算法解决模型参数估计问题,充分利用纵向研究中最新收集到的信息并结合历史随访数据,构建基于复杂纵向数据的时间相依型变量的混合线性预测模型;通过Monte Carlo模拟和基于真实纵向数据的实证研究,评估所提出模型的统计性能。本研究所提出的新模型将为纵向数据中时间相依事件的预测和分析提供新的、高效合理的统计分析工具,为纵向数据的分析提供方法学支持。

项目摘要

在队列研究中,研究关心的结局事件的发生往往存在时间相依性,研究中感兴趣的暴露因素或干预因素的水平与其效应,在研究的不同随访阶段,往往也并非是一成不变的。如何在数据分析中充分考虑数据的时间相依性,充分利用所获得的随访数据,提高建模的准确性,是纵向数据分析中的重要问题。针对此问题,本项目采用机器学习与传统统计模型相结合的思路,采用集成学习算法,充分考虑纵向时间相依型数据的统计学特点,建立了相关预测模型,并应用于实际数据分析。本研究执行期内,完成了以下工作:(1)基于集成学习算法和传统统计模型建立时间相依型纵向数据模型,基于Monte Carlo方法对模型的I/II类错误进行了模拟研究。模拟研究发现,基于TMLE或Super Learner算法的时间相依性数据预测模型具有良好的统计学性质。在充分考虑数据的时间相依性后,模型的I类错误控制更加稳健,在同等I类错误水平下,模型检验效能更好。与此同时,由于TMLE算法与倾向性评分之间的方法学关联,采用TMLE方法进行参数估计时,在处理时间相依型问题的同时解决了观察性研究中混杂控制的问题。(2)对分析中模型变量筛选中常用的正则化方法和策略进行了研究,并考虑了关联性对变量筛选的影响,在变量间独立和关联的假设下进行了模拟研究,评估了不同方法在变量筛选中的效果,提出了相关策略。(3)将申请人所在教研室收集的出生缺陷队列数据和公开数据库中的环境数据相结合,测试了所提出的模型,并建立了儿童先天性心脏病的预测模型,研究结果发现母亲孕期环境高温暴露与子代特定类型的先天性心脏病的发生具有关联性,且这种关联性在陕西省境内具有地理空间上的一致性。(4)基于公开的肿瘤随访数据库测试了所提出的模型,筛选了与相关肿瘤复发和生存结局有关的影响因素和预测因子,并建立了预测模型。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
5

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019

陈方尧的其他基金

相似国自然基金

1

基于高维纵向数据边际模型的变量选择及理论研究

批准号:11871390
批准年份:2018
负责人:付利亚
学科分类:A0402
资助金额:52.00
项目类别:面上项目
2

纵向数据中混合效应模型的估计和变量选择问题

批准号:11101157
批准年份:2011
负责人:武萍
学科分类:A0402
资助金额:20.00
项目类别:青年科学基金项目
3

纵向数据线性混合效应模型的统计推断及其变量选择

批准号:11171011
批准年份:2011
负责人:吴密霞
学科分类:A0402
资助金额:43.00
项目类别:面上项目
4

基于医疗大数据的多病共存老年人临床结局的风险预测模型研究

批准号:81703304
批准年份:2017
负责人:许蓓蓓
学科分类:H3010
资助金额:18.00
项目类别:青年科学基金项目