基于自组装参考基因组的高通量长读测序数据压缩和比对集成研究

基本信息
批准号:61871272
项目类别:面上项目
资助金额:62.00
负责人:朱泽轩
学科分类:
依托单位:深圳大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:马晓亮,马里佳,欧阳乐,孔金英,殷夫,陈健,章晓鸥,周梓峰,崔浩翔
关键词:
序列拼接序列比对生物信息处理基因测序数据压缩大数据分析
结项摘要

The advance of high-throughput DNA sequencing technologies has changed the way we investigating life blue print, and meanwhile generated explosively increasing sequencing data. Storage and transmission of such data have surfaced as the critical issues. Data compression is widely used to solve these problems. Currently, the majority of the specialized compression tools are designed for short-read sequencing data. They might not work well on long-read data and they do not consider the downstream analysis. In this proposal, we put forward an integrative framework of compression and mapping of long-read sequencing data. The study is dedicated to implementing assembly based compression and compressive mapping of long-read sequencing data. Particularly, we focus on resolving the template chain based metadata simplification, the progressive quality scores compression, the fast and error-tolerance long read alignment, the storage-oriented reference genome assembly, the indexable encoding of the mapping results of long reads to the reference genome, the highly compatible compressive mapping, and the parallelization of algorithms. The proposed framework is expected to cut down the storage and transmission costs of long-read sequencing data, and improve the read mapping efficiency. The proposal fits well to the future trend of sequencing technologies and the outcomes would provide insights into the development of new technologies.

高通量测序技术的快速发展改变了人类研究生命蓝图的方式也带来了爆炸式增长的测序数据,目前数据存储和传输是亟需解决的问题,压缩技术是解决该问题的有效手段,但目前主流测序数据压缩方法主要针对短读数据,对长读数据的效果不甚理想,而且压缩过程很少兼顾下游分析。本课题针对高通量长读测序数据,提出基于自组装参考基因组的压缩和比对集成框架,通过记录长读与参考基因组的比对结果实现压缩,同时结合下游比对分析需求实现基于压缩数据的序列比对。项目重点解决基于模板链的元数据简化、渐进式质量分数压缩、容错快速长读匹配、面向存储的参考基因组拼接、长读与参考基因组匹配结果的可检索压缩编码、基于压缩数据的高兼容性序列比对以及压缩比对算法并行化实现等主要技术环节。新框架有助于节约高通量长读测序数据的存储和传输成本,提高长读序列比对的效率,项目开展符合测序技术未来发展趋势,可为后续技术发展提供相应的经验积累和一定的借鉴作用。

项目摘要

高通量测序技术的快速发展改变了人类研究生命蓝图的方式也带来了爆炸式增长的测序数据,目前数据存储和传输是亟需解决的问题,压缩技术是解决该问题的有效手段,但目前主流测序数据压缩方法主要针对短读数据,对长读数据的效果不甚理想,而且压缩过程很少兼顾下游分析。本课题针对高通量测序数据,提出了基于自组装参考基因组的压缩和比对集成框架,通过记录测序序列与自组装参考基因组的比对结果实现压缩,同时结合下游比对分析需求实现基于压缩数据的序列比对。项目组实现的基于CUDA加速的自组装测序序列压缩工具CURC,不依赖外部参考基因组实现碱基压缩比超过40倍,压缩超过速度70MB/s,解压速度超过300MB/s。项目组实现的基于压缩数据结构的序列比对工具Zipmem,在保证比对精度的情况下,比对时间比BWA-MEM减少70%。对于未匹配基因组的序列我们开发多任务演化算法优化高重复率的码本实现高压缩率。项目按照计划进度正常执行,执行期间项目组成员在《Bioinformatics》, 《Briefings in Bioinformatics》等顶尖期刊和国际会议上共发表论文54 篇(已标注),其中期刊论文43篇,会议论文11篇,SCI检索论文39篇,申请专利4项,获得软件著作权授权9项,培养研究生13名,超过预期目标。项目成果有助于节约高通量测序数据的存储和传输成本,提高测序序列比对的效率,项目开展符合测序技术未来发展趋势,可为后续技术发展提供相应的经验积累和一定的借鉴作用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
4

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
5

疏勒河源高寒草甸土壤微生物生物量碳氮变化特征

疏勒河源高寒草甸土壤微生物生物量碳氮变化特征

DOI:10.5846/stxb201912262800
发表时间:2020

朱泽轩的其他基金

相似国自然基金

1

基于多参考基因组的高通量测序片段映射方法研究

批准号:61301204
批准年份:2013
负责人:刘博
学科分类:F0124
资助金额:25.00
项目类别:青年科学基金项目
2

基于高通量测序和从头组装的癌症基因组变异位点检测方法和软件开发

批准号:31371281
批准年份:2013
负责人:李瑞强
学科分类:C0607
资助金额:70.00
项目类别:面上项目
3

基于从头组装的参考基因组和种群重测序研究红面猴进化历史及近缘物种的渐渗杂交机制

批准号:31770415
批准年份:2017
负责人:李静
学科分类:C0309
资助金额:64.00
项目类别:面上项目
4

面向第三代RNA测序长读段的定位算法研究

批准号:61862017
批准年份:2018
负责人:张艳菊
学科分类:F0213
资助金额:39.00
项目类别:地区科学基金项目