With the fast development of systems biology, a great challenge to omics (such as proteomics and metabonomics) is to mine and analyze the high dimensional data from modern instruments like MALDI-TOF MS, 2-D LC/MS/MS and high resolution NMR spectrometer etc. Based on the data from our experiments, the Key Lab Canc Prote in Central South University and other public libraries, (such as Pubchem of NIH, UniProt of Europ and KEGG of Japan), we are going to make an intensive study on statistical methods to deal with the high dimensional proteomic and metabonomic data. Our aim is to develop the novelty statistical learning methods to mine these complex data. 1) Based on the sure independence screening (SIS), we are going to develop some new stable methods for variable selection. The variables selected are expected to be more reliable and easier to be interpreted. Moreover, further efforts will be put on presenting the novelty methods to identify the biomarkers from these selected variables. 2) To study the methods to establish the model to recognize the pattern of diseases, and also to find biomarkers/biomarker. The model will be built on -omic data and clinical data. The differnce among the models will be studied. 3) We are going to apply canonical correlation technique to propose the new methods to explore the relationship between proteomic and metabonomic data. It is expected that the deep relationship between the two differnent type of data will be explored. And the diseases will be analyzed from different aspects according to their patterns in different omic data. . The top goal of this project is to set up an advanced statistical platform to analyze the complex omic data. These statistical learning methods include screening the informative variables , finding biomarker(s) in high dimensional data, building the disease pattern models and the other reliable approaches for data analysis and clinical diagnosis.
本课题研究将以湘雅医学院卫生部肿瘤蛋白质组学重点实验室提供数据和我们自己实验获得的高通量的血浆代谢组数据为基础,辅助利用美国生物信息学中心的Pubchem数据库,欧洲生物信息学中心的UniProt蛋白质数据库和日本京都大学建立的KEGG代谢网络数据库等, 针对目前系统生物学组学复杂数据的分析和处理新方法进行系统深入的研究,其中特别某些疾病代谢特异性生物标记物的筛选, 建立可靠具有代表性的健康人和病人的数学判别模型。发展基于可靠独立筛选以及模式分布分析的重要变量筛选的学习方法;研究疾病的代谢组与蛋白组相互关系,整合、挖掘、统计分析不同组学的数据信息,寻找健康人蛋白组与代谢组之间的相关规律。本项目将完成组学的复杂数据分析、生物标记物的筛选和建模的系列方法,为组学研究者提供有效的数据分析手段,为临床诊断提供新的途径,促进现代统计学习方法在生命科学研究中的应用。
数据科学时代,由于数据的海量和高维复杂,经典统计分析和建模方法已经远远不能适应,迫切需要新的统计理论和方法来应付这个巨大挑战。本项目针对目前系统生物学组学复杂数据的分析和处理的各个方面,根据数据的特点,(如蛋白质组、代谢组学和中药植物组学数据等数据),进行系统深入的研究,提出相应的分析和建模系列方法,寻找隐藏在海量复杂数据中的各种模式和规律。具体在以下几个方面获得系列成果:.1. 对于高维数据的两个最重要的方法主成分回归和偏最小二乘回归我们取得重要结果,在充分降维的前提下,证明两种方法的估计参数都落在线性模型参数的中心子空间,从而证明了两种方法是等价。.2. 提出了组学数据预处理的形态学方法,对于基于光谱仪以及色谱联用仪器产生的数据的各种背景扣除效果好于现有的经典方法; 为有效分析和研究组学中蛋白质和多肽的序列、功能结构预报以及其表达和相互作用,我们连续开发了三个Python 和R语言的工具包,能以氨基酸序列为基础,计算蛋白质和多肽的结构和物理化学特征,并且能计算PseAAC 描述子,受到许多研究者的欢迎。.3.我们针对复杂组学数据提出系列统计学习方法,如基于子空间的Boosing方法,基于排序的流形和基于树核的学习方法等, 对于复杂数据回归问题、监督和半监督的分类问题等,改善了传统学习算法,提高模型预测能力;对于重要标志物(变量)的筛选,提出了多种的筛选方法, 针对多变量模型,能有效提取重要变量,提高模型精度和解释性。.4. 将我们自己提出的方法用于若干实际问题,如II型糖尿病的代谢特异性生物标记物,我们基于动物(老鼠)代谢高效气相-质谱指纹图谱数据, 我们建立模型,成功的将健康和疾病组分开,同时通过重要变量排序方法,找到有实际意义的代谢物,取得了初步成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
祁连山天涝池流域不同植被群落枯落物持水能力及时间动态变化
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
基于转录组数据的糖尿病肾病系统生物学研究
基于生物学调控网络的肺癌多平台组学数据的整合分析方法研究
药物代谢组学中数据分析技术规范的构建
基于化学计量学方法的生物组学数据整合分析