基于Apache Spark的可扩展宏基因组序列组装方法研究

基本信息

批准号：61802246

项目类别：青年科学基金项目

资助金额：26.00

负责人：邓丽

学科分类：

依托单位：上海大学

批准年份：2018

结题年份：2021

起止时间：2019-01-01 - 2021-12-31

项目状态：已结题

项目参与者：Zhong Wang,陈灵,LiZhen Shi,李玮玮,汪丽丽,李科学,卢亚康

关键词：

ApacheSpark宏基因组学参数优化序列组装

结项摘要

Under the complex biological background, the assembly of multi-species metagenomics sequence is the key to reconstruct full-length genes. However, trapped in the limitations of computational and memory resources, assembly of supersized metagenomics sequences is an insurmountable obstacle. This project develops an Apache Spark based sequence assembly method in order to realize a scalable, fast and accurate gene assembly, which include: dividing the assembly into two processes as clustering and local assembling to reduce the error rate of assembly，studying the sequence clustering method to improve the accuracy of the clustering results, and then using local assembling algorithm for each cluster to generate a set of contigs, the sequence data sets can extend to more than 1T with ensuring the time rapidity and the accuracy of the assembly; studying an applicable parameters optimization method of the above clustering and local assembling algorithm, which can automatically optimize parameters configuration and achieve better gene assembly results; studying the test and application of the proposed assembly method on cloud platform, analyzing the robustness, practicability and extensibility of the assembly method, and developing assembly software that can be directly used by users. This project will give an application-oriented metagenomics sequence assembly method, and provide a new idea for coping with the problem of "data deluge" of the miscellaneous metagenomics sequence.

复杂生物背景下，多物种混合宏基因组序列组装技术是重建全长基因的关键，但受困于计算和内存资源局限，超大规模宏基因组序列的组装是目前无法逾越的障碍。为实现可扩展、快速和准确的基因组装，本项目提出一种基于Apache Spark分布式环境的序列组装方法，包括：为了降低组装的错误率，将组装分成聚类和按类组装两个过程，研究序列聚类算法，提高聚类结果的准确性，并通过序列组装算法将上述聚类结果组装成碱基对，在保证组装速度和准确性的情况下将组装对象扩展到1T以上序列数据集；研究具有适用性的上述聚类和按类组装算法中参数的优化方法，自动地对参数配置进行优化，实现更优的基因组装结果；研究所提出的组装方法的云平台运行测试，分析组装方法的鲁棒性、实用性和可推广性，开发可以直接供用户使用的组装软件。本项目将提供一种面向实际应用的宏基因组序列组装方法，为应对错杂的宏基因组序列“数据泛滥”问题提供新思路。

项目摘要

复杂生物背景下，多物种混合宏基因组序列组装技术是重建全长基因的关键，但受困于计算和内存资源局限，超大规模宏基因组序列的组装是目前无法逾越的障碍。本项目针对宏基因组测序序列组装目前面临的复杂性和困难，从可扩展性、快速准确、适用性等方面出发，研究了多物种混合宏基因组序列组装方法，和传统组装方式不同，本项目基于Apache Sparke分布式平台，采用先聚类后组装的方法，先通过SpaRC（Spark Reads Clustering）算法对序列进行聚类，然后再将聚类结果组装成碱基对，在保证组装速度和准确性的情况下将组装对象扩展到大规模序列数据集。（一）针对SpaRC存在的问题，研究相应改进方法，提高算法的稳定性、降低算法运行时间以及提高聚类结果的准确性。提出一种基于Minimizer的序列相似性衡量方法代替SpaRC使用的k-mer衡量序列相似性，大幅度地改善了SpaRC算法对内存资源的占用；提出一种基于物种丰度的宏基因组序列全局聚类方法，将相同来源的簇重聚类为一个较大的簇，解决了短读长（reads）序列SpaRC聚类结果产生的簇较小的问题；提出一种基于长序列和短序列的宏基因组混合聚类方法，结合了短序列的高准确性和长序列的高连续性，克服了SpaRC的聚类不足问题。（二）SpaRC参数对算法影响较大，针对不同的宏基因组数据集，研究SpaRC参数优化方法。提出一种基于TPE的SpaRC算法超参数优化方法，通过减少计算任务加速寻找最优参数，达到较佳聚类效果。（三）在SpaRC聚类基础上，研究进一步组装方法和远程实验平台的开发。提出一种基于SpaRC的分布式宏基因组序列组装方法；构建了基于K8S的远程实验平台，对提出的聚类方法和组装方法进行运行测试。测试结果表明，本项目提出的方法可行、有效，具有较强的鲁棒性和可扩展性。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.7538/hhx.2022.yx.2021092

发表时间：2022

DOI：

发表时间：2021

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.7498/aps.68.20181682

发表时间：2019

邓丽的其他基金

批准号：51905458

批准年份：2019

资助金额：20.00

项目类别：青年科学基金项目

批准号：81900369

批准年份：2019

资助金额：20.00

项目类别：青年科学基金项目

批准号：11401491

批准年份：2014

资助金额：22.00

项目类别：青年科学基金项目

批准号：11226245

批准年份：2012

资助金额：3.00

项目类别：数学天元基金项目

相似国自然基金

百万核扩展的基因组De Novo组装

批准号：61702494

批准年份：2017

负责人：孟金涛

学科分类：F0213

资助金额：24.00

项目类别：青年科学基金项目

利用基因产物组装全基因组序列的新方法开发及应用

批准号：31402353

批准年份：2014

负责人：李炯棠

学科分类：C1909

资助金额：24.00

项目类别：青年科学基金项目

基于格子Boltzmann方法的大规模可扩展并行计算研究

批准号：91330116

批准年份：2013

负责人：张武

学科分类：F0204

资助金额：70.00

项目类别：重大研究计划

基于Spark的并行Metaheuristic算法研究

批准号：61672439

批准年份：2016

负责人：张德富

学科分类：F0201

资助金额：62.00

项目类别：面上项目

基于Apache Spark的可扩展宏基因组序列组装方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

萃取过程中微观到宏观的多尺度超分子组装 --离子液体的特异性功能

药食兼用真菌蛹虫草的液体发酵培养条件优化

现代优化理论与应用

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

邓丽的其他基金

人机交互界面视觉美学计算与实验方法研究

Ozone基于Nrf2/HO-1/HIP-2α通路双靶点改善主动脉夹层CPB术后低氧肺损伤

流形上的最优控制问题

非线性偏微分方程组的精确能控性和反馈镇定性

相似国自然基金