Cancer is a complex genetic disease and its occurrence is relating to variation of DNA sequence and epigenetic features in cells. However, researchers know few about cancer pathogenesis, prediction of clinical observations and drug sensitivity, etc. As the progress of large-scale projects like "The Cancer Genome Atlas", huge amounts of data are being generated. Thus how to effectively analyze and use these data is becoming a key issue in bioinformatics. The huge accumulation of multi-level omics data enables integrating multiple types of data to study cancer related basic problems accurately become possible. In this project, we will employ computational methods in pattern recognition, statistical machine learning, optimization, graph theory to study how to integrate multiple types of high-throughput cancer genomic data to explore four basic issues including the identification of driven pathways, cancer subtype identification problem and its pathogenesis analysis, cancer clinical observation prediction and evaluation of its prediction effect, and drug sensitivity prediction in cancer cell lines. In this project, we mainly focus on proposing sound data integration model and effective algorithms for large-scale problems, and revealing related biological mechanisms. The objective of the study can not only provide the reliable computational methods and efficient software to biologists, but also bring forward the research in computational theory and algorithm design.
癌症是一种复杂的基因疾病,其发生与细胞内的DNA序列以及表观特征的变异有关。但是目前对癌症的致病机理、临床指标和药物敏感性的预测等方面,仍然认识有限。随着"肿瘤基因组计划"等大型工程的进行,海量数据正不断产生,如何有效地分析和利用这些数据,已经成为生物信息学的核心问题。不同层次癌症组学数据的大量积累,使得整合多重数据来更准确地研究癌症相关的基本问题已经成为可能。本项目将利用模式识别、机器学习、最优化、图论等方法,研究如何整合多重不同属性的癌症高通量数据来探讨癌症基因组学领域的四个核心问题:驱动通路识别问题、癌症亚型识别问题及其致病机理的异同分析、癌症临床指标预测及预测效果的评估研究和癌细胞系药物敏感性预测问题。研究重点是,提出合理的数据整合模型和有效的大规模求解算法,揭示相关的生物学机理。本项目的研究不仅可以为生物学家提供可靠的计算方法和高效的软件,而且可以推动计算理论和算法设计等的研究。
癌症是一种复杂的基因疾病。目前对癌症的致病机理、临床指标和药物敏感性的预测等方面,仍然认识有限。随着"肿瘤基因组计划"等大型工程的进行,海量数据正不断产生。如何有效地分析和利用这些数据,已经成为生物信息学的核心问题。本项目的主要研究内容是利用模式识别、机器学习、最优化、图论等方法,探索如何整合多重不同属性的癌症高通量数据来探讨癌症基因组学领域的四个核心问题:驱动通路识别问题、癌症亚型识别问题及其致病机理的异同分析、癌症临床指标预测及预测效果的评估研究和癌细胞系药物敏感性预测问题。本项目顺利进行,发表SCI论文25篇,多篇文章投稿中。两篇工作发表于重要期刊Nucleic Acids Research (2016年影响因子为10.16);三次被邀请在Springer出版的Methods in Molecular Biology撰写关于癌症基因学主题的综述和方法推介。..本项目取得一系列进展,比如提出了一种新的优化模型,能快速找到在癌症基因组上同时变异的多个通路,为研究多个驱动通路在癌症的发病过程中可能起协同作用提供了一种有效的手段。提出了两种优化模型,以重新发现多种癌症类型的常见驱动基因集合和一种或多种癌症类型的特定驱动基因集合。研究了癌症细胞系表达谱与药物敏感谱数据中的药物-基因协同模式,开发了基于稀疏-网络正则化的偏最小二乘模型和算法来识别药物-基因协同模式。深入研究了不同细胞系的DNA甲基化数据的分析和针对癌症异质性,结合DNA甲基化数据的Pan-cancer数据分析,揭示了非常丰富的生物学特征。..项目主持人获得多项荣誉或奖项以及项目的支持,其中包括国家自然科学基金“优秀青年”基金(2014年8月);中国科学院“卓越青年科学家”项目(2014年8月);钟家庆运筹学奖(2015年7月)、中科院前沿科学研究重点计划--拔尖青年科学家项目(2016年8月)、国家自然科学基金中新国际合作与交流项目(2016年12月)、国家万人计划青年拔尖人才计划(2017年10月); 教育部自然科学二等奖(排名第三)(2017年11月)。.
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
物联网中区块链技术的应用与挑战
一种改进的多目标正余弦优化算法
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
基于多组学数据整合的癌症驱动突变识别
基于多组学数据整合与深度学习的癌症驱动基因研究
多组学数据整合分析癌症细胞生存必需基因
癌症系统表观基因组学新型生物信息统计算法研究