可扩展的蛋白质组学大数据存储与分析模型研究

基本信息
批准号:61501071
项目类别:青年科学基金项目
资助金额:19.00
负责人:白明泽
学科分类:
依托单位:重庆邮电大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:解增言,赵杰,张琳,冯晓东
关键词:
蛋白质组学数据ETL存储模型序列搜索算法大数据
结项摘要

With the rapid development of high throughput mass spectrometry, the volume of Proteomics data increases sharply and the formats of data varies broadly. These facts indicate that the Proteomics data already becomes Big Data. The recently started up “China Human Proteome Project” will produce a whole lot of data which could influence Chinese biology and medical science significantly. The Proteomics data based high performance biology knowledge discovery platforms are needed eagerly, therefore investigating Big Data storage and analysis models for Proteomics data has high research significance and broad application prospect. This proposal plans to study on the scalable Big Data storage, management, and analysis models of Proteomics data: (1). Study on the data characteristics of Proteomics data and the “Concept layer, Logic Abstract layer and Physics layers” multilayers data storage model which is scalable on data volume and function; (2). Study on the “Extraction, Transformation and Loading (ETL)” process to integrate various Proteomics data sources. (3). Study on the high performance sequence search algorithm in peptide and protein identification and quantification, which is a kernel analysis algorithm. Through the above studies, the effective Proteomics Big Data management and analysis mechanics can be established, so as to promote the further development of China’s biological and information industries.

随着高通量质谱测序的快速发展,蛋白质组学数据量迅速增加、数据格式多样化,呈现出明显的大数据特征;刚启动的“中国人类蛋白质组计划”也即将产生对中国生物、医学界影响深刻的大数据,迫切需要高效的生物知识发现平台解读数据。因此研究蛋白质组学数据基于大数据思想的存储和分析模型具有重要的理论意义和广泛的应用前景。本项目旨在研究可扩展的面向蛋白质组学大数据的存储、管理和分析模型: (1).研究蛋白质组学的数据特征以及具备数据集和功能可扩展性的“概念层-逻辑抽象层-物理层”分层数据模型;(2).研究多数据源汇集整合的“抽取-转换-导入”(ETL)流程;(3). 研究基于大数据存储模型的核心分析算法——高效序列搜索算法。通过以上研究,为蛋白质组组学提供有效的大数据管理和分析机制,推动我国生物和信息产业的进一步发展。

项目摘要

随着高通量质谱测序的快速发展,蛋白质组学数据量迅速增加、数据格式多样化,呈现出明显的大数据特征;刚启动的“中国人类蛋白质组计划”也即将产生对中国生物、医学界影响深刻的大数据,迫切需要高效的生物知识发现平台解读数据。因此研究蛋白质组学数据基于大数据思想的存储和分析模型具有重要的理论意义和广泛的应用前景。..本项目旨在研究可扩展的面向蛋白质组学大数据的存储、管理和分析模型: 1)基于分层思想建立了蛋白质组学大数据存储模型和ETL流程、软件生态系统,开发了适用于用户编程访问数据存储系统的Restful API;2)发展了新的质谱图鉴定、质控方法和系统(Phoenix Enhancer系统),它基于蛋白质组学大数据聚类结果PRIDE Cluster和前述存储模型,可以对未鉴定的质谱图进行新的PSMs发现和对已有的蛋白/肽段鉴定进行质量评估的,还发展了在未鉴定蛋白质组学质谱图中鉴定内源肽的新方法;3)发展了多组学实验数据索引系统OmicsDI,OmicsDI针对数据组学数据库分分散不易有效查询和利用的问题,召集20余家组学数据库,共同建立了多组学数据索引系统。..- 蛋白质组学大数据存储平台、数据处理流程和网络服务API为蛋白质组学数据的计算分析提供了蛋白质组学大数据资源存储范式和工具。.- 集蛋白质组学数据挖掘、PSM质量控制和新PSM鉴定等功能于一体的一站式服务平台Phoenix Enhancer,帮助生物学家在之前未鉴定的蛋白质组学数据中鉴定出更多的肽段信息,为挖掘更多的生物学知识提供有力的支撑。.- OmicsDI为生物医学研究人员查询多组学数据提供了一个整合的检索入口,数据挖掘算法和高效的可视化软件成为他们发现潜在的数据关系的重要助手。.- 新的iProX是中国第一家蛋白质组学数据库系统,它的成功打破了西方在这一领域的垄断地位,为我国和国际(特别是东亚地区)大量蛋白质组学数据提供了方便、高效的数据共享、下载服务。..通过以上研究,为蛋白质组组学提供有效的大数据管理和分析机制,推动我国生物和信息产业的进一步发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

转录组与代谢联合解析红花槭叶片中青素苷变化机制

转录组与代谢联合解析红花槭叶片中青素苷变化机制

DOI:
发表时间:
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

白明泽的其他基金

相似国自然基金

1

面向时空大数据分析的可扩展存储与索引技术研究

批准号:61300030
批准年份:2013
负责人:谭浩宇
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目
2

拓扑蛋白质组学中的图像处理与数据分析方法

批准号:30600121
批准年份:2006
负责人:李防震
学科分类:C2105
资助金额:20.00
项目类别:青年科学基金项目
3

蛋白质组学质谱数据的深度学习分析技术

批准号:11874310
批准年份:2018
负责人:帅建伟
学科分类:A2013
资助金额:64.00
项目类别:面上项目
4

蛋白质磷酸化组学数据的生物信息分析

批准号:31171263
批准年份:2011
负责人:薛宇
学科分类:C0609
资助金额:60.00
项目类别:面上项目