Identifying genomic structural variants is one of the most important topics in genomics. Reads from third generation sequencing (TGS) has advantages of long read length (14kbp) and lacks of GC-content bias. These two advantages make it possible to detecting big structural genomic variants. Current genomic structural detecting tools based on TGS all start from raw reads that have high error rate (15%). They find variant regions by reference mapping and then detect variants by local assembly. Due to the high sequencing error rate in TGS reads, the current detecting tools are inefficent and inaccurate. To addess these issues, this project develops a novel genomic structural variants detection pipeline that is based on corrected TGS reads (99%). The new pipeline consists of a reference mapping model that is capable of identifying splicing reads and a fast and accurate structural variants detecting method. Starting from high quality corrected reads, we can significantly improve the sensitivity of refernece mapping, find the variant locations quickly and reduce the number of false positives, which lead to higher detecting accuracy and speed, and provide a new method for reference and technical support for genomic studies.
基因组结构变异检测是基因组学研究的重要内容,三代测序数据具有读长长(14kbp)和无GC扩增偏好性等优点,这些优点使得检测基因组大结构变异成为可能。目前基于三代测序数据的基因组结构变异检测软件均从高测序错误率(15%)的原始序列出发,通过参考基因组比对发现变异区域和局部组装检测结构变异。三代测序数据的高测序错误率,使得目前检测软件的速度和精度都很低。针对上述问题,本项目在我们已开发高效三代测序校正方法和快速参考基因组比对方法基础上,建立基于已校正高精度(99%)数据的,融入可识别剪切序列的参考基因组比对算法和快速精确的结构变异检测方法。利用高质量的校正数据可显著提高参考基因组比对精度,快速定位候选变异区域,同时减少假阳性的出现,从而大大提高基因组结构变异检测的精度和速度,为基因组疾病的检测和预防提供新的方法参考和技术支持。
在本项目的资助下,我们取得了四项研究成果。首先,我们开发了用于Nanopore测序序列的纠错和从头组装工具NECAT,旨在克服Nanopore测序序列中的复杂错误。该研究提出了一种自适应的候选支撑序列和两步渐进校正方法,可以快速精确地校正Nanopore测序序列。NECAT在纠错和从头组装方面均有很好的表现。NECAT组装35X的人类基因组数据仅需8122核时,将拼接结果的NG50提升2.47倍。此外,NECAT组装的人类WERI细胞系基因组,其NG50达到22Mbp。实验结果同样表明NECAT拼接的高质量基因组可以显著减少基因组结构变异检测中的假阳性。该研究成果发表在Nature Communication上。其次,我们开发了一套用于分析和评估基因组结构变异检测结果的流程。该流程结合两个比对工具和五种结构变异检测工具,对酵母的来自不同测序平台的六个数据集上的检测结果进行评估。这个流程为我们后续开发检测人类基因组结构变异算法提供了精度评估的参考。此成果发表在杂志Frontiers in Genetics上。第三,为减少基因组中6ma事件检测的假阳性,我们提出了一种称为MASQC的方法,该方法用二代测序数据来辅助三代测序数据,在无需全基因组扩增(WGA)的前提下高效检测出6ma事件。我们在两个真核生物基因组以及六个细菌基因组上进行了实验,结果表明MASQC能够有效抑制假阳性。此项研究成果发表在杂志Frontiers in Genetics上。最后,为发现6mA DNA修饰在野草莓中的分布模式及其潜在功能,我们通过第三代测序技术来分析F. vesca基因组中的6mA概况。结果表明,6mA修饰位点广泛存在于野草莓的基因组上。6mA的分布模式在长的非编码区域与蛋白质编码区域中显著不同。6mA修饰影响了基因转录,并且对基因表达呈正相关关系。我们通过计算和实验手段对上述结论进行了验证。这个实验为F. vesca中的DNA修饰提供了新的观点。这项成果已发表在杂志Frontiers in Genetics上。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究
基于三代测序数据的基因组结构变异识别与评价方法研究
基因组启发式三代测序校正方法研究及应用
基于Nanopore测序和多源数据融合策略的基因组大型结构变异检测方法研究
基于家系基因组测序数据的拷贝数变异检测方法研究