The advance of high-throughput DNA sequencing technologies has changed the way we investigating life blue print, and meanwhile generated explosively increasing sequencing data. Storage and transmission of such data have surfaced as the critical issues. Data compression is widely used to solve these problems. Currently, the majority of the specialized compression tools are designed for short-read sequencing data. They might not work well on long-read data and they do not consider the downstream analysis. In this proposal, we put forward an integrative framework of compression and mapping of long-read sequencing data. The study is dedicated to implementing assembly based compression and compressive mapping of long-read sequencing data. Particularly, we focus on resolving the template chain based metadata simplification, the progressive quality scores compression, the fast and error-tolerance long read alignment, the storage-oriented reference genome assembly, the indexable encoding of the mapping results of long reads to the reference genome, the highly compatible compressive mapping, and the parallelization of algorithms. The proposed framework is expected to cut down the storage and transmission costs of long-read sequencing data, and improve the read mapping efficiency. The proposal fits well to the future trend of sequencing technologies and the outcomes would provide insights into the development of new technologies.
高通量测序技术的快速发展改变了人类研究生命蓝图的方式也带来了爆炸式增长的测序数据,目前数据存储和传输是亟需解决的问题,压缩技术是解决该问题的有效手段,但目前主流测序数据压缩方法主要针对短读数据,对长读数据的效果不甚理想,而且压缩过程很少兼顾下游分析。本课题针对高通量长读测序数据,提出基于自组装参考基因组的压缩和比对集成框架,通过记录长读与参考基因组的比对结果实现压缩,同时结合下游比对分析需求实现基于压缩数据的序列比对。项目重点解决基于模板链的元数据简化、渐进式质量分数压缩、容错快速长读匹配、面向存储的参考基因组拼接、长读与参考基因组匹配结果的可检索压缩编码、基于压缩数据的高兼容性序列比对以及压缩比对算法并行化实现等主要技术环节。新框架有助于节约高通量长读测序数据的存储和传输成本,提高长读序列比对的效率,项目开展符合测序技术未来发展趋势,可为后续技术发展提供相应的经验积累和一定的借鉴作用。
高通量测序技术的快速发展改变了人类研究生命蓝图的方式也带来了爆炸式增长的测序数据,目前数据存储和传输是亟需解决的问题,压缩技术是解决该问题的有效手段,但目前主流测序数据压缩方法主要针对短读数据,对长读数据的效果不甚理想,而且压缩过程很少兼顾下游分析。本课题针对高通量测序数据,提出了基于自组装参考基因组的压缩和比对集成框架,通过记录测序序列与自组装参考基因组的比对结果实现压缩,同时结合下游比对分析需求实现基于压缩数据的序列比对。项目组实现的基于CUDA加速的自组装测序序列压缩工具CURC,不依赖外部参考基因组实现碱基压缩比超过40倍,压缩超过速度70MB/s,解压速度超过300MB/s。项目组实现的基于压缩数据结构的序列比对工具Zipmem,在保证比对精度的情况下,比对时间比BWA-MEM减少70%。对于未匹配基因组的序列我们开发多任务演化算法优化高重复率的码本实现高压缩率。项目按照计划进度正常执行,执行期间项目组成员在《Bioinformatics》, 《Briefings in Bioinformatics》等顶尖期刊和国际会议上共发表论文54 篇(已标注),其中期刊论文43篇,会议论文11篇,SCI检索论文39篇,申请专利4项,获得软件著作权授权9项,培养研究生13名,超过预期目标。项目成果有助于节约高通量测序数据的存储和传输成本,提高测序序列比对的效率,项目开展符合测序技术未来发展趋势,可为后续技术发展提供相应的经验积累和一定的借鉴作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
基于多参考基因组的高通量测序片段映射方法研究
基于高通量测序和从头组装的癌症基因组变异位点检测方法和软件开发
基于从头组装的参考基因组和种群重测序研究红面猴进化历史及近缘物种的渐渗杂交机制
面向第三代RNA测序长读段的定位算法研究