Disease-related biomarker identification based on biomedical big data is the forefront research direction in Bioinformatics, and it is one of the most important challenges for the basic theories and applications that human facing. The program will exploit sparse regularization and graph-constrained regularization as the mathematical tools, deal with the biological omics data and biological networks data as the experiment subjects, and study the variable selection model with the full integration of various biological data for biomarker identification. This project focuses on the following two problems: constructing the stable variable selection model for biological omics data; exploring the complex relationship of biological components in biological networks as prior information for the variable selection model. Different from the traditional variable selection models that focus on discriminating ability, the program takes into account all of the three aspects: the stability of the variable selection, the stability of the relations between the variables in biological networks, as well as the stability of the model selection process, probes deeply into the coordinate between the various biological components through graph theory for signed graph and undirected graph model, detects the network biomarkers with high discriminating ability, high reproducibility and clear biological interpretation, and provides new tools for the diagnosis, treatment, prognosis, and drug design of the complex disease.
以生物医学大数据为基础的疾病相关生物标志物检测是生物信息学领域的前沿研究方向,也是人类在基础理论与应用研究中面临的重要挑战之一。本项目以稀疏正则化、图限制正则化为主要数学工具,以生物组学数据和生物网络数据为主要实验对象,致力于研究能充分融合多类型数据的变量选择模型,用于疾病相关生物标志物的检测。本项目重点研究内容包括:构建面向生物组学数据的稳定变量选择模型;探索生物网络中生物成分的复杂关系作为变量选择的先验信息。不同于传统仅重点关注判别能力的变量选择方法,本项目的创新之处在于从变量选择模型自身的稳定性、生物网络中变量间关系的稳定性、以及模型选择过程的稳定性三个方面入手,利用带号图图论和无向图模型深入研究各个生物成分的协调关系,获得同时具备高判别能力、较高可重复性和明确生物解释的网络生物标志物,为复杂疾病的诊断、治疗、预后和药物开发提供新的手段。
随着信息技术的发展,生物、医学、金融、经济等各领域中的数据被大量的生产,进而推动了统计学习方法在大数据知识发现等方面的应用。这些海量的数据一般具有维数高、冗余度大、稀疏程度高的特点。此外,现有数据中的变量通常具有复杂的相互作用关系,并以复杂关联的数据网络这种独特的形式存在,例如,人际社交关系、证券市场各种因子的相互关系、基因相互作用关系等。相比于单个变量,变量间的相互作用及网络结构也起着至关重要的作用。以生物医学领域产生的高维基因组数据为例,由于大部分细胞成分不会单独工作,而是需要互相协调、互相作用去完成一项或几项生物功能,生物标志物检测的目标不仅可以为单个基因,也可以为基因间的相互关系或者为由多个基因组成的网络。通过融合生物网络而获得的相互作用标志物或网络标志物,一方面涵盖了生物调控的各个层次,能为生物系统提供更加全面的解释,另一方面从本质上揭示了各种生物成分的生物学路径。本项目基于高维数据的稀疏特性以及网络的无标度、小世界、层次、模块及基序等拓扑结构特征,在惩罚模型的框架下,提出了多个网络模块识别、相互作用标志物及网络标志物选择方法,并应用于高维生物组学和生物系统网络数据,获得了具有生物意义的疾病相关标志物,为复杂疾病的诊断、治疗、预后和药物开发提供了新的手段,具有重要的社会和科学意义。以上成果已形成8篇科研论文,并在国际重要期刊《BMC Bioinformatics》, 《BMC Genomics》,《Genetic Epidemiology》,《Statistics in Medicine 》以及《The Annals of Applied Statistics》上发表。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
跨社交网络用户对齐技术综述
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
面向云工作流安全的任务调度方法
基于高通量生物检测技术的疾病标志发现的可重复性
顾及多类型数据无缝融合的全球离散格网自适应建模
基于多视角蛋白质相互作用网络的多层次生物标志物检测
基于贝叶斯数据融合的车载多类型障碍物探测和辨识方法研究