Metagenomic method is one of the most important methods to analysis the structure and function of microbial communities. The development of the NGS technology and the exponentially increasing number of microbial community samples produced massive metagenomic data. Limited by the lack of efficient analysis and comparison methods among microbial communities and low utitlize rate of metagenomic data,currently we cannot obtain valuable biological information from the massive data.This project aims to find the principal environmental factors which lead to the structural difference of microbial communities, by data mining methods based on the metagenomic similarity computing and the environmental information. The similarity between microbial communities is generated by the similarity computation of the weighted binary phylogenetic tree of metagenomic data, and then GPGPU CUDA architecture is implemented for parallel computing of the similarity value matrix of massive microbial community samples. By environmental difference and clustering analysis of the similarity value matrix, and correlation analysis between the clustering analysis results and the environmental factors, we can quantitively compute the diversity among the microbial communities occurred by environmental factors, and then realize the environmental factors that majorly affect the microbial communities' structure. This project can also provide fundamental methods and experience for the analysis of big data in metagenomic research.
元基因组学是分析微生物群落结构和功能的最重要手段之一。高通量测序技术的发展以及群落样本的指数级增加,产生了海量的元基因组数据。由于目前研究中缺乏微生物群落之间高效的比较与分析方法,对元基因组数据利用率低,无法从海量的数据中获取宝贵的生物学信息。本项目基于元基因组数据的相似度对海量微生物群落的结构信息进行数据挖掘,同时结合相应群落的采样环境信息,从而发现导致微生物群落结构差异的主要环境因素。微生物群落之间的相似度由计算元基因组数据加权二叉进化树的相似性来获得,并采用GPGPU CUDA架构并行化计算海量微生物群落的相似度矩阵。通过相似度矩阵中不同样本的环境条件差异性分析,自然聚类分析,以及聚类结果与环境条件的相关性分析等数据挖掘方法,量化地计算环境条件对微生物群落结构造成的影响。本项目同时也为元基因组的大数据分析提供基础方法和经验。
本项目基于元基因组数据的相似度计算,设计了微生物群落深入挖掘的数据模型和分析策略,并实现了完整的方法和软件开发,从而发现海量微生物组数据中所蕴含的深入科学意义,完成了本项目的研究计划。首先,本项目开发了针对元基因组解析的工具,对海量微生物组样本进行群落结构解析和功能预测;进而,实现了基于加权二叉进化树的微生物组相似度算法,并采用GPGPU CUDA 架构并行化计算海量微生物群落的相似度矩阵;第三,设计了微生物群落的MDV(Multi-Dimensional View)数据计算模型,并基于矩阵完成了完整的快速数据挖掘流程,量化不同环境因素对微生物群落结构和功能造成的影响,并筛选出生物特征标记。最终,将本项目的相关研究成果在人体健康、中药鉴定、转化医学等方面进行实际应用。本项目共发表9篇学术论文,相关成果获得2项软件著作权授权,并申请1项发明专利。2016年5月美国启动国家微生物组计划,同时中国的微生物组计划也呼之欲出,而海量数据的生物信息分析已经成为微生物组研究中的瓶颈。本项目不仅为大数据分析和挖掘提供有力的支撑,用数据分析来推动微生物组技术的发展,同时也为进一步充分有效地利用这些宝贵的大数据打下坚实的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于云计算的海量数据挖掘
基于粒计算的海量数据挖掘理论与高效算法研究
基于云计算的海量数据挖掘关键技术研究
海量高维数据相似性查询与计算研究