Genome assembly aims to recover the complete genome sequence of a species from sequenced DNA fragments. It is essential for studying the genome features of an organism. There are two unsolved problems in whole genome assembly, i) lack of completeness in sequenced genomes, ii) most species even cannot get draft genome. The advantage of 3rd generation sequencing (TGS) technologies makes the genome assembly more powerful to solve difficult genomes, laying on much longer read length and nearly perfect random sequencing coverage. Based on the most matured TGS technology, PacBio sequencing, we aim to solve the problem of assembling complicated genomes. To achieve it, we introduce i) novel seeding strategy, ii) efficient sequence alignment, and iii) novel sequence clustering method. This study will apply the genomics applications in many complicated genomes.
全基因组序列图谱已经成为生物学研究的基础数据。目前在全基因组组装上存在两个方面的难度,1: 由于一代和二代测序技术的读长和随机性不够,已测序的基因组序列图谱完整性不足; 2: 重复序列与杂合导致复杂基因组图谱绘制难度大。三代测序技术在读长和测序随机性上的良好表现为解决上述难题提供了新的可能性。目前虽然出现了多种基于三代测序技术的解决方案,但尚无组装复杂基因组的成功案例。本项目面向三代测序技术-PacBio单分子测序,采用新颖的索引设计、高效的序列比对算法以及序列聚类方法,来尝试解决复杂基因组的组装难题。项目的研究成果将推动基因组学在复杂基因组生物学研究中的应用。
本项目利用三代测序技术产出的长序列实现了基因组组装的三个提升:组装连续性、组装完整性以及组装效率。为了克服三代测序高错误率的问题,项目创新地开发了新的长序列比对算法和模糊布鲁因图,从而不仅容忍了测序高错误率,还大大提高的组装的运行效率。本项目产出的算法软件已经在基因组组装领域广泛应用,学术论文发表在Nature Methods期刊。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
五轴联动机床几何误差一次装卡测量方法
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
结核性胸膜炎分子及生化免疫学诊断研究进展
原发性干燥综合征的靶向治疗药物研究进展
基于高通量测序和从头组装的癌症基因组变异位点检测方法和软件开发
二代测序技术下转录组组装软件的开发
复杂基因组的全基因组多序列比对软件研发和复等位基因的数量遗传学分析
一种新的基因组选择算法及图形化界面软件研发