Mining multi-source omics data to establish tumor risk assessment model is important for early diagnosis and treatment of cancer. To address the low reproducibility and missing heritability of traditional methods based on individual molecular biomarkers, we intend to identify the key sub-network biomarkers with high stability and rich biological meaning for integrating multi-source omics data. The polymorphisms of DNA sequence is an important factor of tumor development and progress. Integrating other level omics data of tumor on the basis of mining SNP data in depth is the key idea of this application to enhance the ability of cancer risk assessment. This study includes three major aspects: Firstly, based on cloud computing platform, improve a multi-objective optimization algorithm to identify susceptibility loci directly related to the tumor and propose multivariate regression model to describe the relationship between expression quantitative trait loci (eQTL) and the pathogenic gene. Secondly, combine protein interaction network and biological pathway and other information to build an interaction network which includes susceptibility loci and eQTL. Then, these significant sub-network features are identified by random walk algorithms. Lastly, we utilize bayesian network to fuse these significant sub-network features extracted from different levels of biological omics data for tumor risk assessment which will be validated by medical records. This project will not only help cancer early diagnosis and treatment, but also provide fundamental support for comprehensively understanding the pathogenesis of tumor and personalized medicine.
挖掘多源组学数据建立肿瘤风险评估模型对癌症的早期诊疗具有重要意义。传统基于单个分子标记的方法存在重现性低、遗传力缺失等不足,申请人拟从提取稳定度高、生物含义丰富的关键子网标记着手,开展多源组学数据融合方法研究。DNA序列层次多态性是肿瘤发生、发展的重要因素之一,在肿瘤SNP数据深度挖掘的基础上,进而融合其它层次组学数据是本课题提升肿瘤风险评估能力的关键思路。本课题主要包括三个方面内容:1)在云平台上改进多目标优化算法以识别肿瘤易感位点,设计多元回归模型识别与先验致病基因相关的表达数量性状位点(eQTL);2)采用蛋白质相互作用网络、生物通路等信息构建肿瘤易感位点及eQTL的相互作用网络,基于随机游走等算法识别关键子网特征;3)利用贝叶斯网络融合多层次生物数据的关键子网特征,用以肿瘤风险评估并结合医疗数据加以验证。本项目研究不仅有助于癌症早期诊疗,也是理解肿瘤致病机理及个体化医疗的准备工作。
复杂疾病的致病过程同时存在两种复杂的现象,即上位性及异质性,上位性是指致病因素之间的非线性关系,而异质性是指患病样本中存在多亚型样本。深刻理解该现象,有助于开展复杂疾病的精准医疗计划。项目实施过程中,严格按照项目计划书重点研究了三个内容:上位性分析、相互作用网络构建及复杂疾病分类方法。具有研究成果有:(1)一种基于多目标优化的高阶上位性分析方法,该方法首先分别基于互信息及贝叶斯方法,构造多目标的打分准则,以从不同角度评价致病基因型;同时,为了提高算法的效能,提出一种快速的多目标组合空间搜索策略,该算法的时间复杂度仅为O(k*M*N),一定程度上降低了穷举搜索算法的负担;在此基础上,进一步提出'以空间换时间'、'计算共享'及'并行计算'等计算效率优化手段,进一步提高穷举算法的效率。(2)提出一种基于融合基因表达谱及基因注释数据等先验信息的关键蛋白预测方法。将该方法用于酵母菌的PPI网络分析,实验结果表明该方法在准确度、召回率、鲁棒性等指标上取得了更好的性能。该研究结果表明将拓扑性质与其它生物信息加以融合将有利于关键蛋白的识别。(3)提出一种基于深度学习的复杂疾病分析方法,该方法的主要创新体现在:首先基于信息熵原理,构建了最大偏差-最大一致性的评价准则,以合理地估计基因型组合的风险程度;针对该评价准则,改进蚁群算法以搜索基因型组合空间,并通过设计有效的启发式信息,以提升解空间搜索的效率;鉴于不同亚型的致病模式可能存在多样性,该方法充分结合基因型频率以剔除噪声及假阳性,从而提高算法的效能。将该方法运行于真实数据集上,发现该方法能有效探查多组风险基因型。(4)系统概述复杂疾病SNP数据分析的生物信息学方法,从计算机学科角度可大致可归结为:全基因组SNP数据中包含有上百万个位点,对生物信息处理中计算方法及硬件资源带来巨大挑战,难以深入挖掘;对肿瘤等复杂疾病缺乏系统、完整的认知,导致其定义存在模糊性甚至歧义性,使得病例样本中呈现异质性,一定程度上掩盖了遗传变异与肿瘤不同亚型之间相关性 ;肿瘤发生、发展涉及多种生物分子相互作用,仅分析某一层次组学数据将加剧偏离真实疾病模型,从而难以发现真实完备的风险因素,导致遗传力缺失。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于多源数据融合的出行特征挖掘和需求预测建模
多源视觉场景下基于深度多特征数据表示的视频事件检测
基于深度神经网络的动态多模态数据特征提取及其应用研究
跨网页多源异构数据社会关系挖掘方法及应用研究