整合高维基因数据和临床特征的生存预后模型构建

基本信息
批准号:81473073
项目类别:面上项目
资助金额:85.00
负责人:王彤
学科分类:
依托单位:山西医科大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:仇玉兰,张巧花,郭睿,王列样,李建明,王慧,张海霞,赵俊琴,崔燕
关键词:
潜变量变量选择生存分析高维数据
结项摘要

Predicting the outcome of a disease or some disease related phenotype based on microaaray or other high-throughput data is an important application of genomic data. One particular instance of this problem is the prediction of time to some disease specific event like death or relapse, often referred to by the term survival time. Common strategies for analysis of genomic data are limited by their features, such as high dimension, strong correlation and small samples. Meanwhile, outcome of a disease such as patients' survival durations also depend on some important clinical features. It is repoerted that combining high-dimentional genomic data and important clinical features may lead to better prediction than what can be achieved using the data seperately. In addition, results will be more explicable and practical in clinic if high-dimentional genomic data is combined with prior biological knowledge. This study will take prognosis analysis of diffuse large B cell lymphoma patients as an example to illustrate our trateges for survival prediction model building based on integration of high-dimensional gene data and clinical features. First, The better ultra-high dimensional variable selection method will be determined by simulation study, then it will be used to select candidate genes by partial penalty with the important clinical feature, IPI, entered into the Cox model. Then different kinds of certain latent variables will be constructed in terms of the similar function and/or the common information pathway of candidate genes, and goodness-of-fit tests of alternative models with IPI and latent variables will be evaluated according to the latent Cox regression. Finally, time-dependent ROC curve method will be used to determine the best model by comparing predictive accuracy of candidate models in an independent validation dataset, and in an independent test dataset the predicted survival duration and actural survival duration will be compared to test the predictive accuracy of final model. This stategy based on integration of high-dimensional gene data and clinical features will improve the predictive capability of survival model.

从基因水平研究患者的生存预后倍受重视,但基因数据的高维度、强相关、小样本特点令传统的生存分析方法面临挑战;研究表明同时考虑临床特征和高维基因数据构建生存预后模型较之单独考虑其中一个方面的自变量建模有更好的预测效果,而将高维基因数据结合已有的生物信息学知识可使得模型更具解释性和临床实际应用价值。本研究以弥漫大B细胞淋巴瘤患者的预后分析为例,提出一个整合高维基因数据和重要临床特征的建模策略。首先通过模拟研究找出目前超高维自变量选择方法中性质较好者,然后采用较优的变量选择方法和部分惩罚思想,在保留重要的临床特征变量IPI进入模型的条件下筛选出预后基因,之后根据候选基因的功能和/或信息通路将其构建为不同的少数几个潜变量,用同时含潜变量和IPI的Cox回归评价不同备选模型的拟合优度,最后通过前瞻性随访研究得到独立的验证数据,用时依ROC曲线比较备选模型的预测准确性,测试所构造潜变量及模型的预后效果。

项目摘要

惩罚回归方法常用于解决高维数据变量选择问题。本研究对SIS、LASSO、SCAD、MCP及SIS+LASSO、SIS+MCP、SIS+SCAD等方法在不同数据结构下的降维效果进行了模拟评价。模拟结果表明,不同惩罚类方法正确选择变量的能力与自变量间的相关程度有关,如果相关较高,LASSO或EN的结果较好,而在相关较低时,MCP或SCAD结果较好。结合SIS的方法倾向于少选变量,误选率低,但敏感度也低,而LASSO、MCP、SCAD选择变量较多,误选率高,但敏感度较高。当自变量间低度相关时,SIS的三种方法结果非常接近,但相关较高时,SIS+LASSO的结果表现较好,研究者可以根据实际需求选择相应的方法。考虑到LASSO类方法存在较高的假阳性问题,课题组基于LASSO-Cox模型,通过模拟研究比较了交叉验证法、pcvl 法、EBIC准则和平稳选择法四种方法在控制Ⅰ类错误方面的表现。综合分析发现,基于LASSO-Cox模型的高维数据生存分析中平稳选择法将FDR(false discovery rate)控制在低水平的同时仍使PSR(positive select rate)保持在可接受水平。因此,在实际研究中我们推荐使用平稳选择法。基于有限样本建立的模型的可靠性和稳定性的估计,需要进行统计推断,而在高维数据的统计推断领域还未有公认的好方法,针对这一问题,课题对LASSO-惩罚计分检验、多重样本拆分、稳定选择、低维投射、协方差检验这五种基于LASSO的统计推断方法进行了模拟比较。结果显示,在常见复杂高维数据中Lasso-惩罚计分检验和多重样本拆分是两种较好的高维线性回归模型统计推断方法,两者相对而言前者较宽松,后者较保守。..本课题以弥漫大B细胞淋巴瘤(DLBCL)的预后分析为例说明前述方法的应用。采用惩罚Cox模型对DLBCL的基因表达谱及microRNA表达谱进行分析,发现磷酸二酯酶4B(PDE4B)基因的过表达及mir-27a的低表达与DLBCL的不良预后有关,且时点/动态ROC曲线分析法显示,结合PDE4B基因或mir-27a能提高DLBCL的预后准确性。此外,课题组还采用meta分析的分析发现miR-21的低表达、miR-155的高表达、miR-222的高表达与DLBCL的不良预后有关,这些发现为DLBCL分层及实现个体化治疗提供了依据。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

王彤的其他基金

批准号:31800299
批准年份:2018
资助金额:24.00
项目类别:青年科学基金项目
批准号:60872140
批准年份:2008
资助金额:26.00
项目类别:面上项目
批准号:81670306
批准年份:2016
资助金额:57.00
项目类别:面上项目
批准号:81672258
批准年份:2016
资助金额:57.00
项目类别:面上项目
批准号:81171851
批准年份:2011
资助金额:58.00
项目类别:面上项目
批准号:61301249
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目
批准号:81872715
批准年份:2018
资助金额:58.00
项目类别:面上项目
批准号:11671203
批准年份:2016
资助金额:48.00
项目类别:面上项目
批准号:61372133
批准年份:2013
资助金额:72.00
项目类别:面上项目
批准号:50975069
批准年份:2009
资助金额:39.00
项目类别:面上项目
批准号:81072385
批准年份:2010
资助金额:30.00
项目类别:面上项目
批准号:51901037
批准年份:2019
资助金额:24.00
项目类别:青年科学基金项目
批准号:51303171
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:50105003
批准年份:2001
资助金额:21.00
项目类别:青年科学基金项目
批准号:81371683
批准年份:2013
资助金额:65.00
项目类别:面上项目
批准号:50776056
批准年份:2007
资助金额:34.00
项目类别:面上项目
批准号:71801152
批准年份:2018
资助金额:19.00
项目类别:青年科学基金项目
批准号:30671018
批准年份:2006
资助金额:8.00
项目类别:面上项目
批准号:81702992
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:81270213
批准年份:2012
资助金额:70.00
项目类别:面上项目
批准号:51276108
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:81141075
批准年份:2011
资助金额:10.00
项目类别:专项基金项目
批准号:60402039
批准年份:2004
资助金额:20.00
项目类别:青年科学基金项目
批准号:31871036
批准年份:2018
资助金额:59.00
项目类别:面上项目
批准号:81070125
批准年份:2010
资助金额:31.00
项目类别:面上项目
批准号:51407071
批准年份:2014
资助金额:22.00
项目类别:青年科学基金项目

相似国自然基金

1

基于贝叶斯方法整合临床与基因数据的类风湿关节炎预后风险模型研究

批准号:81673246
批准年份:2016
负责人:付凌雨
学科分类:H3010
资助金额:65.00
项目类别:面上项目
2

多组学数据整合分析癌症细胞生存必需基因

批准号:31801110
批准年份:2018
负责人:梅胜林
学科分类:C0608
资助金额:27.00
项目类别:青年科学基金项目
3

基于量子进化算法和模型组合的高维数据特征选择

批准号:61572109
批准年份:2015
负责人:杨国武
学科分类:F0210
资助金额:65.00
项目类别:面上项目
4

高维遗传数据预测模型构建中组群结构信息整合的新方法及其应用研究

批准号:81773541
批准年份:2017
负责人:汤在祥
学科分类:H3011
资助金额:55.00
项目类别:面上项目