基于自组装参考基因组的高通量长读测序数据压缩和比对集成研究

基本信息

批准号：61871272

项目类别：面上项目

资助金额：62.00

负责人：朱泽轩

学科分类：

依托单位：深圳大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：马晓亮,马里佳,欧阳乐,孔金英,殷夫,陈健,章晓鸥,周梓峰,崔浩翔

关键词：

序列拼接序列比对生物信息处理基因测序数据压缩大数据分析

结项摘要

The advance of high-throughput DNA sequencing technologies has changed the way we investigating life blue print, and meanwhile generated explosively increasing sequencing data. Storage and transmission of such data have surfaced as the critical issues. Data compression is widely used to solve these problems. Currently, the majority of the specialized compression tools are designed for short-read sequencing data. They might not work well on long-read data and they do not consider the downstream analysis. In this proposal, we put forward an integrative framework of compression and mapping of long-read sequencing data. The study is dedicated to implementing assembly based compression and compressive mapping of long-read sequencing data. Particularly, we focus on resolving the template chain based metadata simplification, the progressive quality scores compression, the fast and error-tolerance long read alignment, the storage-oriented reference genome assembly, the indexable encoding of the mapping results of long reads to the reference genome, the highly compatible compressive mapping, and the parallelization of algorithms. The proposed framework is expected to cut down the storage and transmission costs of long-read sequencing data, and improve the read mapping efficiency. The proposal fits well to the future trend of sequencing technologies and the outcomes would provide insights into the development of new technologies.

高通量测序技术的快速发展改变了人类研究生命蓝图的方式也带来了爆炸式增长的测序数据，目前数据存储和传输是亟需解决的问题，压缩技术是解决该问题的有效手段，但目前主流测序数据压缩方法主要针对短读数据，对长读数据的效果不甚理想，而且压缩过程很少兼顾下游分析。本课题针对高通量长读测序数据，提出基于自组装参考基因组的压缩和比对集成框架，通过记录长读与参考基因组的比对结果实现压缩，同时结合下游比对分析需求实现基于压缩数据的序列比对。项目重点解决基于模板链的元数据简化、渐进式质量分数压缩、容错快速长读匹配、面向存储的参考基因组拼接、长读与参考基因组匹配结果的可检索压缩编码、基于压缩数据的高兼容性序列比对以及压缩比对算法并行化实现等主要技术环节。新框架有助于节约高通量长读测序数据的存储和传输成本，提高长读序列比对的效率，项目开展符合测序技术未来发展趋势，可为后续技术发展提供相应的经验积累和一定的借鉴作用。

项目摘要

高通量测序技术的快速发展改变了人类研究生命蓝图的方式也带来了爆炸式增长的测序数据，目前数据存储和传输是亟需解决的问题，压缩技术是解决该问题的有效手段，但目前主流测序数据压缩方法主要针对短读数据，对长读数据的效果不甚理想，而且压缩过程很少兼顾下游分析。本课题针对高通量测序数据，提出了基于自组装参考基因组的压缩和比对集成框架，通过记录测序序列与自组装参考基因组的比对结果实现压缩，同时结合下游比对分析需求实现基于压缩数据的序列比对。项目组实现的基于CUDA加速的自组装测序序列压缩工具CURC，不依赖外部参考基因组实现碱基压缩比超过40倍，压缩超过速度70MB/s，解压速度超过300MB/s。项目组实现的基于压缩数据结构的序列比对工具Zipmem，在保证比对精度的情况下，比对时间比BWA-MEM减少70%。对于未匹配基因组的序列我们开发多任务演化算法优化高重复率的码本实现高压缩率。项目按照计划进度正常执行，执行期间项目组成员在《Bioinformatics》, 《Briefings in Bioinformatics》等顶尖期刊和国际会议上共发表论文54 篇（已标注），其中期刊论文43篇，会议论文11篇，SCI检索论文39篇，申请专利4项，获得软件著作权授权9项，培养研究生13名，超过预期目标。项目成果有助于节约高通量测序数据的存储和传输成本，提高测序序列比对的效率，项目开展符合测序技术未来发展趋势，可为后续技术发展提供相应的经验积累和一定的借鉴作用。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：10.12354/j.issn.1000-8179.2021.20201763

发表时间：2021

DOI：10.7524 /j.issn.0254-6108.2017122903

发表时间：2018

DOI：10.13343/j.cnki.wsxb.20200479

发表时间：2021

DOI：10.11654/jaes.2022-0087

发表时间：2022

朱泽轩的其他基金

批准号：61001185

批准年份：2010

资助金额：25.00

项目类别：青年科学基金项目

批准号：61471246

批准年份：2014

资助金额：80.00

项目类别：面上项目

相似国自然基金

基于多参考基因组的高通量测序片段映射方法研究

批准号：61301204

批准年份：2013

负责人：刘博

学科分类：F0124

资助金额：25.00

项目类别：青年科学基金项目

基于高通量测序和从头组装的癌症基因组变异位点检测方法和软件开发

批准号：31371281

批准年份：2013

负责人：李瑞强

学科分类：C0607

资助金额：70.00

项目类别：面上项目

基于从头组装的参考基因组和种群重测序研究红面猴进化历史及近缘物种的渐渗杂交机制

批准号：31770415

批准年份：2017

负责人：李静

学科分类：C0309

资助金额：64.00

项目类别：面上项目

面向第三代RNA测序长读段的定位算法研究

批准号：61862017

批准年份：2018

负责人：张艳菊

学科分类：F0213

资助金额：39.00

项目类别：地区科学基金项目

基于自组装参考基因组的高通量长读测序数据压缩和比对集成研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

外泌体在胃癌转移中作用机制的研究进展

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

猪链球菌生物被膜形成的耐药机制

施用生物刺激剂对空心菜种植增效减排效应研究

朱泽轩的其他基金

基于自生式多目标Memetic算法的高维数据特征选择研究

基于高通量RNA-Seq和多目标协同演化模因计算的疾病模块识别研究

相似国自然基金