Based on the well-prepared baseline metabolomics data of esophageal precancerous lesion, this project aims to follow-up these baseline samples to obtain the repeated measurement of dynamic spectrum from dysplasia to esophageal squamous cell carcinoma (ESCC) progression, so as to establish a longitudinal cohort based dynamic metabolomics study of ESCC. The challenges of high-dimensional dynamic metabolomics data analysis are how to adjust for the time-dependent confounders, high-dimensional data modeling and variable selection, causal inference of metabolic pathway by taking advantage of dynamic data. However, there is still a lack of effective statistical methods right now. In this study, inverse probability weighting (IPW) is used to construct marginal structural model by adjusting for the time-dependent confounders; Then, a random marginal structural forest (RMSF) is proposed for high-dimensional longitudinal data analysis, by defining IPW tree segmentation criteria, two-level bootstrap resampling strategy, model and variables importance evaluation index; Cross-lagged path analysis is further proposed for causal inference of metabolic pathway. The objectives of this project are to build powerful method for high-dimensional dynamic metabolomics variable selection and causal inference, and then discover and identify the potential dynamic metabolic biomarkers and pathways for the early diagnosis and progression of ESCC. This project will provide new idea of metabolomics study design and statistical methods, and has important practical significance on the early intervention and prevention of ESCC in high-risk populations.
本项目将在前期获得的基线食管癌前病变代谢组学数据基础上,继续随访采集由不典型增生到食管癌变过程中的动态图谱,建立纵向队列设计的食管癌动态代谢组学研究。数据分析难题在于如何处理依时混杂因素的干扰、高维纵向数据下建模和变量筛选、以及如何利用动态数据优势推断代谢物因果关系,目前仍缺少有效的分析方法。本项目基于逆概率加权(IPW)建立边际结构模型,校正依时混杂因素对因果效应估计的影响;高维纵向数据建模上,通过定义IPW树切分准则、双层重抽样策略、模型和变量重要性评价指标,构建随机边际结构森林的组合模型;进一步建立代谢物因果关系推断的Cross-lagged通径分析。预期目标是构建适合高维动态代谢组学数据的变量筛选和因果推断方法,确定食管癌前病变阶段动态变化的代谢组标记物和代谢通路。项目为高维动态代谢组学数据统计分析提供新的研究思路和方法,而且对于食管癌高危人群的早期干预和预防具有重要的实际意义。
本项目主要完成如下工作:(1)建立了食管癌代谢组学平台和生物标本库,获取了血清代谢组学数据,完成了队列3次纵向随访。(2)基于1100例的食管癌高发区人群队列,筛选出14个食管癌筛查的代谢组标记物,并构建适合高发区人群推广的食管癌筛检模型(高发区人群验证AUC=0.81,临床验证AUC达到0.98)。基于高维中介分析模型,确定谷氨酸、组氨酸和胆酸是吸烟暴露所致食管鳞状病变的中介代谢物,中介效应达到50%以上。(3)通过统计模拟试验和实例分析,对现有高维动态组学数据统计方法进行总结,研究了FCM、MSCA、MPLS-DA等统计建模的适用范围和特点。(4)基于106例局部进展期直肠癌患者,通过FCM和MSCA探索代谢组在新辅助放化疗过程中的动态变化规律,筛选30个动态差异代谢物,通过Cross-lagged路径模型确定了22对代谢物在化疗敏感组间存在显著的代谢调控路径差异。(5)通过模拟试验和实例研究,评价潜在类别混合模型(LCMM)的轨迹分组和参数估计的准确性。(6)描绘了儿童期BMI和血压增长轨迹特征,识别青春期是心血管病防治的关键期。描绘了我国成人BMI、血脂和血红蛋白的增长轨迹,证明20-30岁是控制体重、血脂和血红蛋白过快增长、预防心血管病的关键期。研究成果为心血管病的病因预防方法和早期干预最佳时机的识别提供了科学依据。(7)首次绘制了围手术期血清癌胚抗原(CEA)的动态轨迹,确定CEA轨迹是结直肠癌预后的独立预测因子,为结直肠癌术后CEA检测临床方案提供了新的见解。(8)基于cross-lagged和mediation研究代谢性危险因素时序和因果路径,阐明了儿童期BMI→胰岛素的时序关系及其对成年期心血管病风险的作用,证实了生命早期的超重与成年期左心室肥厚的关联是通过成年体重和血压的中介效应起作用,首次确定26个BMI→CpG的因果时序DNA甲基化位点,探索了围绝经期女性血脂指标和胰岛抵抗间因果时序关系,研究成果为心血管病预防和危险因素的因果路径研究提供了重要参考。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
转录组与代谢联合解析红花槭叶片中青素苷变化机制
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
结核性胸膜炎分子及生化免疫学诊断研究进展
生物炭用量对东北黑土理化性质和溶解有机质特性的影响
广义提升模型和机器学习下基于逆概率加权的纵向数据因果推断研究
基于筛查队列和高维代谢组数据的食管癌前病变动态进展的风险预测研究
高维不完全观察数据上的因果关系推断及其应用
基于随机森林的高维生物医学数据因果推断方法研究