Large numbers of functional genomics and genome-wide association studies (GWASs) have revealed that most of functional genetic variants locate in the noncoding genomic region. Therefore, accurate identification of regulatory variant affecting gene transcription and expression is an important topic in current genetics research. Many computational methods can be used to predict and prioritize regulatory variants in current stage, however, inconsistent predictions and limited consideration of tissue/cell type specificity are existed among current regulatory prediction methods. In this proposal, we will integrate multidimensional genomic and epigenomic data to develop bioinformatics method for predicting tissue/cell type-specific regulatory variant. We will introduce a combinatory strategy and design effective statistical model to improve the overall performance of regulatory variant prediction by simultaneously considering complementarity of existing algorithms, specificity of cellular context and feature of DNA sequence. In addition, to help researcher efficiently identify regulatory variants, we will also develop a set of bioinformatics software and tools using our collected dataset and designed algorithm. This project will provide a useful computational solution to search disease-causal variants from GWAS result in the nocoding genomic area.
大量功能基因组学和全基因组关联分析(GWAS)研究表明,绝大多数功能遗传位点都处于非编码基因组区域。因此,准确的鉴定影响基因转录和表达的调控变异是当前遗传学研究的重要内容。目前已有多种计算方法能够较好的预测和排忧化调控变异,但是这些调控变异的预测方法存在广泛的预测不一致性并且缺乏对特定组织细胞调控环境的考虑。在本项目中,我们将结合多维的基因组学和表观遗传组学数据,开发生物信息学方法预测组织细胞特异的调控变异。该方法利用整合策略同时考虑现存算法的互补性、基因调控细胞环境特异性和变异位点的序列特征,设计有效的统计模型,提高预测组织细胞特异的调控变异的整体性能。另外,我们还将利用本项目的数据和统计方法,设计和开发一系列生物信息学软件和工具辅助研究人员鉴定功能调控变异。本项目的成功实施将为从全基因组关联分析结果中寻找非编码区的致病因果变异提供了有力的计算手段。
预测人类非编码基因组中的功能性或致病性调控变异有助于解释许多疾病的遗传发病机制。尽管有许多预测方法可用,但它们的性能不一致或仅限于特定任务,这增加了对这些方法进行全面集成的需求。在这个项目的开始阶段,我们编译了包含目前最大的预测调控变异能力的全基因组单碱基分数聚合数据集regBase。随后,基于不同的因果关系假设,我们训练了三个复合模型来分别对功能,致病和癌症驱动非编码调控变异进行预测。我们使用独立的基准展示了我们模型的优越和稳定的性能,并成功地将我们的模型用于特定的因果调控变异精细映射任务中。另一方面,全基因组关联研究已经在全基因组范围成功鉴定了数千个复杂疾病易感基因座,但是对于大多数这些位点,真正的因果变异仍然未知。组织/细胞类型特异性的预测和非编码调控变异的优先级排序将有助于确定因果变异和特定复杂疾病潜在致病机制。通过利用最新的大规模功能基因组学/表观基因组/三维基因组学数据,我们开发了一个能够预测和排优化组织/细胞类型特异的调控变异生物信息学工具,GWAS4D,主要用于系统地从GWAS信号中识别特定于上下文的调控变异及注释其调控靶基因。该工具包括六个主要功能:(1)使用了我们的新组织/细胞特异调控变异预测算法用于排优化;(2)纳入了127个组织/细胞类型特异性表观基因组数据;(3)整合来自13个公共资源的1480个转录因子的基序;(4)统一处理Hi-C数据,并在60种组织/细胞类型中以5 kb的分辨率注释显著的相互作用;(5)添加全面的非编码变异功能注释;(6)配备了高度互动的可视化功能,用于SNP与其潜在调控位点的互动。使用GWAS精细映射集的161个冠状动脉疾病风险位点,我们证明了GWAS4D能够有效地区分疾病致病性调控变异。因此,我们认为这些生物信息学工具、数据集合和三个复合预测模型将在人类遗传研究的不同领域中发挥重要作用,包括基于注释的调控变异精确定位,致病性变异鉴定以及癌症驱动突变识别等。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
新型的基因组结构变异检测和显示工具的开发
整合常见和罕见变异进行肺癌风险预测的统计方法研究
虚拟量仪理论和开发工具研究
病原细菌转录因子生物信息学预测与整合分析平台的搭建