Under the complex biological background, the assembly of multi-species metagenomics sequence is the key to reconstruct full-length genes. However, trapped in the limitations of computational and memory resources, assembly of supersized metagenomics sequences is an insurmountable obstacle. This project develops an Apache Spark based sequence assembly method in order to realize a scalable, fast and accurate gene assembly, which include: dividing the assembly into two processes as clustering and local assembling to reduce the error rate of assembly,studying the sequence clustering method to improve the accuracy of the clustering results, and then using local assembling algorithm for each cluster to generate a set of contigs, the sequence data sets can extend to more than 1T with ensuring the time rapidity and the accuracy of the assembly; studying an applicable parameters optimization method of the above clustering and local assembling algorithm, which can automatically optimize parameters configuration and achieve better gene assembly results; studying the test and application of the proposed assembly method on cloud platform, analyzing the robustness, practicability and extensibility of the assembly method, and developing assembly software that can be directly used by users. This project will give an application-oriented metagenomics sequence assembly method, and provide a new idea for coping with the problem of "data deluge" of the miscellaneous metagenomics sequence.
复杂生物背景下,多物种混合宏基因组序列组装技术是重建全长基因的关键,但受困于计算和内存资源局限,超大规模宏基因组序列的组装是目前无法逾越的障碍。为实现可扩展、快速和准确的基因组装,本项目提出一种基于Apache Spark分布式环境的序列组装方法,包括:为了降低组装的错误率,将组装分成聚类和按类组装两个过程,研究序列聚类算法,提高聚类结果的准确性,并通过序列组装算法将上述聚类结果组装成碱基对,在保证组装速度和准确性的情况下将组装对象扩展到1T以上序列数据集;研究具有适用性的上述聚类和按类组装算法中参数的优化方法,自动地对参数配置进行优化,实现更优的基因组装结果;研究所提出的组装方法的云平台运行测试,分析组装方法的鲁棒性、实用性和可推广性,开发可以直接供用户使用的组装软件。本项目将提供一种面向实际应用的宏基因组序列组装方法,为应对错杂的宏基因组序列“数据泛滥”问题提供新思路。
复杂生物背景下,多物种混合宏基因组序列组装技术是重建全长基因的关键,但受困于计算和内存资源局限,超大规模宏基因组序列的组装是目前无法逾越的障碍。本项目针对宏基因组测序序列组装目前面临的复杂性和困难,从可扩展性、快速准确、适用性等方面出发,研究了多物种混合宏基因组序列组装方法,和传统组装方式不同,本项目基于Apache Sparke分布式平台,采用先聚类后组装的方法,先通过SpaRC(Spark Reads Clustering)算法对序列进行聚类,然后再将聚类结果组装成碱基对,在保证组装速度和准确性的情况下将组装对象扩展到大规模序列数据集。(一)针对SpaRC存在的问题,研究相应改进方法,提高算法的稳定性、降低算法运行时间以及提高聚类结果的准确性。提出一种基于Minimizer的序列相似性衡量方法代替SpaRC使用的k-mer衡量序列相似性,大幅度地改善了SpaRC算法对内存资源的占用;提出一种基于物种丰度的宏基因组序列全局聚类方法,将相同来源的簇重聚类为一个较大的簇,解决了短读长(reads)序列SpaRC聚类结果产生的簇较小的问题;提出一种基于长序列和短序列的宏基因组混合聚类方法,结合了短序列的高准确性和长序列的高连续性,克服了SpaRC的聚类不足问题。(二)SpaRC参数对算法影响较大,针对不同的宏基因组数据集,研究SpaRC参数优化方法。提出一种基于TPE的SpaRC算法超参数优化方法,通过减少计算任务加速寻找最优参数,达到较佳聚类效果。(三)在SpaRC聚类基础上,研究进一步组装方法和远程实验平台的开发。提出一种基于SpaRC的分布式宏基因组序列组装方法;构建了基于K8S的远程实验平台,对提出的聚类方法和组装方法进行运行测试。 测试结果表明,本项目提出的方法可行、有效,具有较强的鲁棒性和可扩展性。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
气载放射性碘采样测量方法研究进展
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
一种改进的多目标正余弦优化算法
百万核扩展的基因组De Novo组装
利用基因产物组装全基因组序列的新方法开发及应用
基于格子Boltzmann方法的大规模可扩展并行计算研究
基于Spark的并行Metaheuristic算法研究