基于稀疏表达模型的多组学数据融合研究及其在拷贝数变异相关疾病的应用

基本信息
批准号:61771381
项目类别:面上项目
资助金额:62.00
负责人:段君博
学科分类:
依托单位:西安交通大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:马春排,王宇莹,闫菡,柏晨,崔智炜,纪美伶,张馨予
关键词:
稀疏表达模型生物标识物检测拷贝数变异多组学数据融合
结项摘要

With the rapid development of biotechnology and multiple scale of medical reseaches, researchers and clinicians launched a large number of multi-omics studies. Compared with the traditional single-omics study, multi-omics reflects the characteristics and mechanisms of observed biological systems and life phenomena in many aspects, and thus improving accuracy of biomarker detection, providing precise evidence for clinical diagnosis, and thus obtained wide attention. However, due to the huge number of data sets, heterogeneity of data structure between single-omics, and other factors, to integrate multi-omics data there are many scientific problems to be answered. Aiming at the above problems, (1) this project utilizes the sparse representation modeling as the theoretical basis to design a new multi-omics data integration tool. (2) At the same time as an important application, this project will also study the detection of copy number variation (CNV) associated diseases with multi-omics data. Although high-throughput genome sequencing technology has greatly improved the resolution of CNV detection, those detection methods suffer the problem of poor robustness and high false positive rate. It is expected that these problems can be overcome by the integration of multi-omics data. Based on the sparse representation modeling, this study provides a theoretical support and practical tool for biomedical research on big data across multidisciplinary approaches.

近年来随着生物技术的快速发展及医学研究的多尺度深入,科研工作者及临床医生开展了大量的多组学研究。相比于传统的单一组学研究,多组学能够从多方面、多方面反映被观测生物系统及生命现象的特征及机理,从而提高疾病生物标识物的检测准确度,为精准的临床诊断提供佐证,因而得到广泛关注。由于多组学数据的数量巨大、结构异质等诸多因素,多组学研究中的数据融合还存在诸多科学问题亟待解答。针对上述问题,(1)本项目拟用稀疏表达模型为理论基础,设计新型的多组学数据融合工具。(2)同时作为一个重要应用,本项目还将研究针对拷贝数变异相关疾病的多组学检测方法。高通量基因组测序技术虽然极大地提高了拷贝数变异检测的分辨率,但其数据检测方法普遍存在鲁棒性差及假阳性率偏高的问题。通过多组学数据的融合,期望能够克服这些问题。本项研究以稀疏表达模型为理论依据,横跨多组学,采用多学科的方法,为生物医学大数据的研究提供理论支持和实用工具。

项目摘要

多组学数据分析是生物信息领域的热点研究方向,生物及医学领域科研工作者已经开展了大量的多组学研究,积累了大量的数据。相较于传统的单一组学研究,如基因组、转录组、蛋白组、代谢组等,多组学能够从多方面反映生命现象的机理,为精准的临床诊断及治疗提供佐证。本项目以稀疏表达模型为理论工具,根据多组学数据的特征,研究了多组学数据融合分析模型,以及拷贝数变异检测算法,取得了如下研究成果:(1)提出了通用的稀疏表达融合模型。相较于以往的模型,该模型可以联合处理多组学数据,发掘各个组学数据具有内在联系的共有稀疏表达信息,进而提升了生物标识物的检测精度;(2)完成了一个拷贝数变异数据库的分析研究。通过筛选GC含量显著异于平均值的可疑变异区域,并通过末端配对映射特征,确认了近六百个假阳性拷贝数变异缺失,从而净化公共数据库,为后续的科学研究提供可靠的支撑;(3)比较了一系列拷贝数变异检测算法。由于全外显子组测序相对低廉的价格,在实际科研及临床中得到广泛应用,相应的拷贝数变异检测工具更是林林总总。依据本课题组在该领域长期的经验与积累,本项目系统比较了几种典型的检测工具在不同变异类型及参数设置下的各方面性能,进而为不同应用场景提供了检测工具推荐指南;(4)根据比较研究的结果,针对存在的问题,进一步提出了一系列拷贝数变异检测方法;(5)在信号处理基础算法方面取得了进展。针对拷贝数变异检测问题抽象出的分段信号,本项目提出了一个稀疏表达模型框架用于分割这类信号,并在此基础上研发出了一系列快速分割算法,可以应用于更为广泛的信号处理问题。总之,这些结果为多组学数据融合、拷贝数变异检测及稀疏表达模型的理论研究起到了部分推动作用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

段君博的其他基金

相似国自然基金

1

基于稀疏表达的拷贝数变异检测算法研究及其在进化遗传学中的应用

批准号:61401352
批准年份:2014
负责人:段君博
学科分类:F0124
资助金额:28.00
项目类别:青年科学基金项目
2

基于多组学数据整合的疾病基因预测方法研究

批准号:61572363
批准年份:2015
负责人:赵兴明
学科分类:F0213
资助金额:68.00
项目类别:面上项目
3

稀疏典型相关分析的快速算法及其在基因表达数据分析中的应用

批准号:11571074
批准年份:2015
负责人:彭拯
学科分类:A0405
资助金额:50.00
项目类别:面上项目
4

基于多组学数据融合的泛癌中非编码RNA crosstalk模式研究

批准号:31601065
批准年份:2016
负责人:邵婷婷
学科分类:C0609
资助金额:20.00
项目类别:青年科学基金项目