In the last few years, huge amounts of high-throughput sequencing multi-omics data have been generated to investigate the mechanism underlying occurrence and developpment of cancers. Study of mutation sites in cancer genomes is a hot and difficult problem. Conventional methods are mainly based on primary DNA sequence, and ignore the contribution of DNA three-dimensional structure. In this project, we integrate various types of DNA three-dimensional structures and high-throughput multi-omics data into the study of cancer mutation sites by developing effective computational methods. Firstly, based on hidden variable decomposition model, we will study the reduction of noise in various types of DNA three-dimensional structures data. Secondly, based on ant colony algorithms in network clustering, we will develop new approaches for identifying subtypes of DNA three-dimensional structural mutation in cancers. Finally, by integrating DNA three-dimensional structures and high-throughput multi-omics data, we will identify critical mutation sites in cancers based on Bayes network. We will validate these sites using biological experiments based on mouse model to explore cancer markers. The outcome of this project will be helpful for exploiting the mechanism underlying occurrence of cancers, and provide further theoretical support for the precise diagnosis and treatment.
近年来,高通量测序产生了海量的组学数据,用于研究癌症的发生和发展机理。癌症基因组的突变位点研究是其中一个热点和难点,传统的研究方法主要是基于DNA一维序列,而忽略了DNA三维结构的贡献。本项目研发计算方法整合DNA三维结构和多组学数据到癌症基因组的突变位点研究。首先,基于隐变量分解模型,研究多种DNA三维结构性质数据的去噪方法。然后,基于蚁群算法的网络聚类,提出识别癌症DNA三维结构变异亚型的手段。最后,整合DNA三维结构和多组学数据,基于贝叶斯网络识别癌症发生的关键突变位点,并通过小鼠模型进行生物实验验证,探索癌症的生物靶点。本项目成果将有助于探索癌症的发生机理,为精准诊断和治疗提供理论支持。
癌症目前严重威胁我国国民健康,缩短国民寿命,癌症的诊断和治疗水平仍然有较大进步空间。癌症的发生发展机制比较复杂, 人们对癌症的认识尚不全面, 特别是对癌症关键分子机制还缺乏了解。融合癌症多组学数据可以从多角度对癌症发生发展机制形成更加系统全面的认识,促进癌症的预防和治疗。本项目主要使用多种癌症的多组学数据从两方面研究癌症。第一、癌症端粒长度维持机制研究。设计算法识别端粒长度维持机制的分子特征和关键因子,通过生物敲除实验验证关键因子。另外,基于随机森林方法识别了两种癌症亚型,并通过患者存活率数据验证。第二、癌症长非编码RNA融合识别研究。设计统计学习算法识别了30000多个癌症特异性长非编码RNA融合体,并通过生物实验阐明了融合机制。这项研究使得对癌症基因融合的认识更为全面,丰富了长非编码RNA在癌症发生发展中功能的认识。另外,本项目用到了基因编辑CRISPR系统。该系统的gRNA设计是影响编辑效率的一个关键因素。提出了一种基于gRNA序列预测编辑效率的深度学习算法,该算法在预测准确率及泛化性能上都优于现有的预测算法,且在时间复杂度上具有较大的优势。
{{i.achievement_title}}
数据更新时间:2023-05-31
神经退行性疾病发病机制的研究进展
智能煤矿建设路线与工程实践
混凝土SHPB试验技术研究进展
肺部肿瘤手术患者中肺功能正常吸烟者和慢阻肺患者的小气道上皮间质转化
血管内皮细胞线粒体动力学相关功能与心血管疾病关系的研究进展
建立整合计算模型鉴别基因组中功能相关的突变位点
基于数据整合的计算癌症基因组学研究
整合高通量基因、代谢子和通路结构信息的癌症风险代谢通路区域系统识别
融合DNA三维结构信息的真核转录调控研究