DNA methylation is closely related to the complex diseases such as coronary heart disease, and it is significant to predict disease risk using DNA methylation level (data) of human tissues. Unfortunately, it is difficult to obtain samples from pathological tissues in many cases. In this investigation, we avoid obtaining samples directly from human tissue and apply easy-to-access peripheral blood samples as surrogate tissue to detect heart disease risk. We use statistical genetics methods to study models of high throughput DNA methylation data and disease risk prediction. (1) Analyze the complex biological networks constructed by DNA methylation data of different human tissues, understand interactions and effects among genes and develop the methods to extract the features from high throughput data; (2) Study the approaches to model and predict high throughput methylation data integrating PCA and multiple CPG sites; (3) Build the disease association study models and predict disease risk by SVM and identification algorithm for complex disease genetic susceptibility loci; (4) Develop a computational platform including the above mathematical models, prediction methods and share these resource by internet. The results of our project will not only be applied to predict heart disease risk on the early stage, but also provide theoretical evidences for large scale non-invasive epidemiology screening and clinical therapy of multiple genes complex disease.
DNA甲基化与冠心病等复杂疾病密切相关,获得人体器官的DNA甲基化表达数据对预测该器官的患病风险有重要意义。但在多数情况下,很难直接对人体病变器官采样。本项目的研究避免直接在病变器官上取样,而是利用易于取样的外周血作为替代器官组织来探测心脏的患病风险。本项目运用统计遗传学方法,研究人体器官高通量DNA甲基化数据建模和疾病风险的预测。(1)挖掘不同人体组织器官甲基化数据构成的复杂生物网络,研究基因间相互作用以及高通量数据特征的抽取方法;(2)研究结合PCA和多CPG位点等特征的高通量甲基化数据建模与预测方法;(3)结合复杂疾病遗传易感位点定位算法和SVM建立疾病关联模型并预测疾病风险;(4)开发包含上述数学模型和预测算法的生物信息计算平台,通过互联网实现资源共享。本项目的成果不仅可用于心脏疾病的早期探测,还将为采用非侵入式手段的大规模流行病筛查和多基因复杂疾病的临床治疗提供理论依据。
人体组织的DNA甲基化与复杂疾病密切相关。大规模流行病研究很难获得大量组织(目标组织)的样本,而血液(替代组织)样本的获取相对容易。本研究发现在不同人的组织间CPG位点上甲基化水平差异具有较高一致性。据此,我们提出基于机器学习的统计模型,利用替代组织中的甲基化数据预测目标组织中的甲基化数据。本研究收集了1个公共数据集和3个独立数据集来验证该方法,这些数据均由Illumina BeadChips测量获得,其中3个独立数据集包括:1套测量了儿童哮喘患者的外周血白细胞(PBL)和类成淋巴细胞系(LCL)的甲基化数据;1套测量了术后心房纤颤患者的外周血、心房和动脉的甲基化数据;1套测量了新生儿脐带血和胎盘的甲基化数据。研究表明:(1) 该方法可以利用替代组织中的甲基化数据预测目标组织中的甲基化数据;(2) 大样本能够提高预测的准确性;(3) 在变异较大的位点,结合多个CpG位点信息能够进一步提高预测精度;(4) 在全基因组尺度上,组织间预测模型在样本的聚类分析方面能够改善替代组织的可用性;(5) 在单CpG位点上,前3套数据集预测的效果较好,脐带血和胎盘数据集预测性能有所下降,主要是差异甲基化区域(DMR)影响胎盘低甲基化,使得胎盘和脐带血相关性较其它组织低,因此预测准确性下降; (6) 胎盘和脐带血数据集中仍有一些位点具有较高相关性,使用组织间预测模型可以获得较高预测精度,我们提供了1012个支持向量机模型供其他研究人员使用; (7) 在KEGG富集性分析中,1012个预测良好的CpG位点共享了143条与生物过程相关的通路,可用于相关的疾病分析;(8) 结合DNA甲基化和其它多组学数据建立了用于疾病风险预测的统计模型;(9) 运用机器学习方法识别复杂疾病的预后关键基因并能有效提高预后预测的准确性; (10) 开发包含上述数学模型和预测算法的生物信息计算平台,通过互联网实现资源共享。本项目研究的组织间甲基化预测模型和疾病风险预测方法为大规模流行病的早期筛查、预后预测和精准医学的研究提供重要的理论依据和指导。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
复杂疾病高通量数据的多尺度建模与网络分析
整合遗传高维数据的贝叶斯多水平疾病风险预测模型构建方法与应用研究
尿沉淀细胞DNA甲基化高通量检测方法的研究
孕妇外周血液中胎儿DNA甲基化高通量检测方法的研究