Advances of high-throughput microarray and next-generation sequencing technologies make it possible to simultaneously measure a broad range of genome-wide alterations, including gene expression, DNA copy number and DNA methylation data. It is known that these genome-wide alterations are related to tumorigenesis and treatment response in a complex way. As a result, integrative analysis of these alterations may lead to greater power in detecting tumor sub-types with important biological therapeutic differences. In spite of their successes, existing approaches based on joint latent variable models require stringent distributional assumptions and may suffer from unbalanced scales (or units) of different types of data and extremely heavy computation in high-dimensional situations And what's more, existing approaches focus on integrating data from multiple platforms, not considering some very useful structural information (interaction network) of the variables of each data platform of each data platform, which is provided by Biology experts. To simultaneously integrate data information and its structural information of each data platform, in this project we aim to propose a structure-based integrative analysis through a novel framework of integrative low-rank matrix approximation with structural regularization. We believe that this will a promising project, which will provide a more general framework simultaneously utilizing more types of useful information. Based on this framework, we expect to uncover better tumor sub-types associated with more distinct patient survival patterns.
随着基因芯片技术和新一代测序技术的高速发展,生物学家们获得了越来越多不同平台的全基因组数据。大量研究发现这些全基因组变量与肿瘤的形成和治疗有着复杂的关联。因此利用整合分析来整合多平台的全基因组数据将更可能发现能够反映治疗差别(生存率和治愈率差别)的肿瘤子类。现存的方法已取得很大进展,然而问题依然存在,现存的许多最流行的整合分析方法都基于潜在变量模型,从而过度的依赖对潜在变量及观测变量的概率分布假设,难以处理不同平台间比例失衡的情况,以及难以应付高维情况下极其繁重的计算任务;更重要的是,现存的方法只考虑到多平台数据之间的融合,却没能考虑到还需再融合各平台数据中观测变量之间的结构信息。为了整合多平台的数据信息及结构信息,本项目旨在提出一种新的基于结构的整合分析框架,拟利用整合的低秩矩阵近似方法和结构正则化来构建。基于这个能整合更多信息的新框架,我们期待发现更有临床价值的肿瘤子类。
随着基因芯片技术和新一代测序技术的高速发展,生物学家们获得了大量多平台的基因组数据。研究发现利用整合分析来融合多平台的全基因组数据将更可能发现能够反映治疗差别(生存率和治愈率差别)的肿瘤子类。项目开展之前的许多现存方法基于潜在变量模型,过度依赖对潜在变量及观测变量的概率分布假设,难以处理不同平台间比例失衡的情况,以及难以应付高维情况下极其繁重的计算任务;更重要的是,这些方法只考虑到多平台数据之间的融合,却没能考虑到各平台数据中观测变量之间的结构信息。为了整合多平台的数据信息及结构信息,本项目提出了一些新的整合分析框架,基于这些新框架,我们发现了一些更有临床价值的肿瘤子类。具体内容如下。1. 我们提出了irGTM方法,该方法采用非线性联合潜变量模型对多种类型的数据同时进行降维,且对每种数据类型分别进行特征选择。2. 提出了irPCA方法,该方法是一种基于综合正则化主成分分析的无分布、计算效率高、抗不平衡尺度的方法。该方法对多种类型的数据同时进行降维,寻找数据的自适应稀疏性和尺度。除了对每一类数据进行特征选择外,还实现了整合聚类。3. 我们基于覆盖和互斥的概念设计了新方法MCSS用来发现癌症中的突变驱动通路。该方法建立在非凸规划和非凸正则化的基础上,比现有的蒙特卡洛搜索和其他已应用于癌症基因组阿特拉斯(TCGA)项目的算法更有效、更有效和更具可扩展性。此外,利用该方法,我们可以对突变数据和基因表达数据进行整合分析。 4.为了探索数据中潜藏的结构信息,我们还提出了一些高维数据检验方法和大规模网络的社区结构探测方法。这些研究结果加强了多源数据融合分析的多样化、提高了多源数据融合分析的效率。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于mRNA结构信息挖掘及多机器学习方法融合的SiRNA设计算法研究
面向多模态信息有效利用的机器学习方法研究
基于图结构的数据表示和深度学习方法
基于机器学习方法的金属玻璃结构-性能研究