基于GPU-CPU混合并行计算的微生物组大数据索引与搜索方法学研究

基本信息
批准号:31771463
项目类别:面上项目
资助金额:55.00
负责人:苏晓泉
学科分类:
依托单位:中国科学院青岛生物能源与过程研究所
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:黄适,荆功超,公衍海,孙政,何曰辉
关键词:
微生物组微生物数据挖掘搜索引擎元基因组
结项摘要

Metagenomics is one of the most important and widely used approaches to study microbiome, which has enormous potential in solving crucial issues such as human health, environment protection and bio-energy. Although the volume of metagenome datasets has been increasing exponentially, the paucity of efficient methods for the “microbiome to microbiomes” type of search has greatly hindered the in-depth annotation of an unknown microbiota based on the vast amount of existing metagenomic data. The key technological bottlenecks here include the difficulty of reducing searching complexity among massive number of samples and the inability to comprehensively, rapidly yet precisely measure the structural or functional ‘matches’ between communities. To tackle these challenges, in this work we propose to establish a normalized indexing strategy based on microbial community features to improve the speed of search response, and then develop a multi-angle metagenome-to-metagenome alignment algorithm using the GPU-CPU hybrid parallel computing to enable the whole-microbiome oriented rapid search. Such a strategy should enable rapid and accurate identification of the microbiome in the database that is of the highest similarity in either community structure or function to the query microbiome, so that the associated metadata of the matching microbiome(s) can be used to annotate the query microbiome or to predict the environmental/host properties associated with the query microbiome. Based on this novel methodology, the first large-scale microbiome search engine that allows both ‘structure-based’ and ‘function-based’ search of metagenomes will be demonstrated using oral microbiome as a model, which will serve the research by enabling “gaining new knowledge by reviewing old” in the emerging area of Microbiome Data Science.

元基因组学是研究微生物组最重要和最普及的手段之一,在解决健康、环保、生物能源等重大问题上有巨大潜力。目前,元基因组学数据正在呈指数级增长,然而“群落对群落”式的微生物组搜索尚无高效解决方案,严重阻碍了基于海量已知数据对新样本的深入解读。此中的技术难点包括如何降低海量样本中的搜索复杂度以及如何全面、迅速、准确地衡量群落间的匹配性等。针对以上瓶颈,申请人提出建立微生物群落特征的归一化索引,以提高搜索响应,并开发基于GPU-CPU混合并行计算的多角度群落对比算法,能够在急速增长的已知数据中,迅速准确地找到与新样本在群落结构或功能上高度相似的匹配,从而根据后者的相关信息来注释新样本的特性并预测其所代表的环境特征。在此基础上,将以口腔微生物组为模式,示范首个“结构”和“功能”搜索兼备的大规模微生物组数据引擎与共性计算分析工具,服务于微生物组的“温故而知新”。

项目摘要

元基因组学是研究微生物组最重要和最普及的手段之一,在解决健康、环保、生物能源等重大问题上有巨大潜力。目前,元基因组学数据正在呈指数级增长,然而“群落对群落”式的微生物组搜索尚无高效解决方案,严重阻碍了基于海量已知数据对新样本的深入解读。此中的技术难点包括如何降低海量样本中的搜索复杂度以及如何全面、迅速、准确地衡量群落间的匹配性等。针对以上瓶颈,本研究开发了微生物组搜索引擎,通过建立微生物群落特征的归一化索引,以提高搜索响应,并开发基于并行计算的多角度群落对比算法,在急速增长的已知数据中,迅速准确地找到与新样本在群落结构或功能上高度相似的匹配,从而根据后者的相关信息来注释新样本的特性并预测其所代表的环境特征。在此基础上,将以人体微生物组为模式,示范首个“结构”和“功能”搜索兼备的大规模微生物组数据引擎与共性计算分析工具,服务于微生物组的“温故而知新”。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
5

转录组与代谢联合解析红花槭叶片中青素苷变化机制

转录组与代谢联合解析红花槭叶片中青素苷变化机制

DOI:
发表时间:

苏晓泉的其他基金

批准号:61303161
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

大规模序列数据集的压缩索引与搜索算法研究

批准号:61373044
批准年份:2013
负责人:霍红卫
学科分类:F0201
资助金额:75.00
项目类别:面上项目
2

基于GPU的搜索引擎数据组织和分布技术研究

批准号:61373018
批准年份:2013
负责人:刘晓光
学科分类:F0202
资助金额:75.00
项目类别:面上项目
3

基于公式的数学搜索引擎的研究与开发

批准号:60903102
批准年份:2009
负责人:苏伟
学科分类:F0211
资助金额:17.00
项目类别:青年科学基金项目
4

支持摘要搜索的数据库多维动态索引技术研究

批准号:61502503
批准年份:2015
负责人:魏哲巍
学科分类:F0202
资助金额:21.00
项目类别:青年科学基金项目