All cancers arise as a result of genetic and epigenetic changes in the genomes of cancer cells. The rapid accumulation of caner genomics data in recent years has been nothing short of astonishing, yet it remains a significant challenge to identify cancer-driving genes, since most genetic alterations are neutral for cancer development and are considered “passenger mutations”. The Cancer Genome Atlas (TCGA) project and an International Cancer Genome Consortium (ICGC) has examined a large number of human tumors to catalogue multidimensional molecular aberrations, presenting unprecedented opportunity to uncover cancer driver genes. Here, we plan to launch pan-cancer genome-wide analyses to investigate the driver genetic changes in cancer initiation and progression. First, we will determine the most reliable features for predicting oncogenes, tumor suppressers and essential cancer genes in multidimensional space of DNA, RNA, and epigenetic characteristics. Then, we will systematically evaluate a wide array of statistical models for their performance and relative contributions from selected molecular features. Leveraging the tremendous data volume of the TCGA and ICGC datasets, we will rank the potential cancer-driving genes and analyze their distribution in various cancer types and the association with cancer clinical features and prognosis. In addition, we will experimentally validate selected putative driver mutations and perform functional analysis of novel drivers in relevant cancer cell lines, in part to test our bioinformatics algorithms. We believe that our approach will reveal valuable clinical and biological relevance of the molecular changes in cancer, and we will produce reusable bioinformatics tools for pan-cancer profiling and cancer gene discovery.
所有癌症的发生和发展源于癌细胞中基因组改变的积累。但是在患者个体中大量的体细胞变异及其基因只有一部分在各种癌症中起到驱动性作用,如何将其区分出来是当前肿瘤基因组学研究的一个重点。国际上广泛开展的肿瘤基因组研究对大规模的癌症患者队列积累了大量的“组学”数据。在本课题中,我们将利用美国TCGA和国际ICGC的肿瘤基因组数据,进行泛癌症基因组分析。对DNA、RNA和甲基化的变异以及几个分子层面之间具有相关性的变异进行序列特征的分析,筛选出包括原癌基因、抑癌基因在内的癌症驱动基因的特征类别,开发信息学方法,发现未知的癌症驱动基因,探索其与癌症病理类型和预后的关系,并从生物学通路和表达网络等角度分析其生物学特征。我们在本课题中开展的泛癌症基因组学分析,将更全面的利用学界已经积累的多“组学”数据,为癌症生物学研究提供新的分子靶点,进而为临床转化研究开辟新的方向。
高通量测序技术的出现推动了癌症基因组学数据的快速积累,这些组学数据被广泛应用于癌症生物学研究和癌症靶点发现中。TCGA(The Cancer Genome Atlas)项目和GTEx(The Genotype-Tissue Expression)项目提供了来自33种癌症与53类正常组织,约20,000个癌症以及癌旁、正常组织样本的转录组表达量数据。这些数据为我们从泛癌症(Pan-cancer)角度寻找癌症潜在药物靶点、癌症预后相关基因提供了机遇。同时,如何对数据进行整合并开发数据挖掘的可视化工具,是亟待解决的技术问题。我们开发了癌症大数据可视化分析工具GE-mini与GEPIA。通过整合不同的表达量数据集并结合主从式架构的设计思路,我们开发出首个癌症大数据智能手机应用GE-mini,为研究人员随时查阅基因提供了便捷。在此基础上,我们进一步开发了网页端交互式分析平台GEPIA和GEPIA2,为实验生物学家和临床医生提供在单癌种、多癌种或不同癌症亚型中进行基因、转录本和基因表达量特征(Gene expression signature)分析提供了便利。其中,分析平台核心功能包括了差异表达分析、生存分析、相关性分析和降维分析等高级生物信息学分析手段。基于以上开发的工具与数据分析,我们从泛癌症的角度鉴定差异表达基因。找出特异性强,副作用低的潜在癌症药物靶点。这些基因富集了表观调控因子和转录因子。同时,我们鉴定了在多个癌症种类中显著低表达的基因,这些基因富集了分泌蛋白基因,且在这些低表达的分泌蛋白基因中,约1/4被报道存在抑癌功能。本工作还从转录本的角度发现了一些特殊癌症预后相关转录本TAPP(Transcripts Associated with Patient Prognosis)。这些转录本的表达量与病人预后显著相关,而其宿主基因与病人预后无显著相关性。包含TAPP的蛋白编码基因富集了癌症驱动基因。在包含编码TAPP的基因中,部分基因的TAPP与基因经典转录本(canonical isoform)在蛋白功能域结构上有差别。在本课题的资助下,我们的研究成果将丰富癌症药物潜在靶点和疾病诊断标志物,所开发的工具将帮助研究者更好地挖掘癌症基因组大数据的价值,并理解癌症发生、发展的机理。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
监管的非对称性、盈余管理模式选择与证监会执法效率?
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
癌症基因组测序分析鉴定驱动基因及其路径的方法研究
应用深度卷积神经网络算法预测癌症基因组水平的“合成致死”基因网络
基于参考基因组的转录组拼接算法研究及其在癌症中的应用
面向癌症预后预测的基因影像学分析方法研究