We are rapidly approaching the era of millions of human genomes. The conventional assembly- and reference-based methodologies store part of the information from a limited number of genomes and thus have difficulties in utilising comprehensive information for 1000-genome scale data. Current available methods for omics analysis, mostly assembly- and reference-based, are incapable of providing ultrafast searches on comprehensive data and unfit for the localization of analyses. New non-reference- and non-assembly-based methodologies are increasingly needed in PB-scale omics data analyses, and has become a new approach to break out the bottlenecks of omics data analyses. .Our previous studies have published a bioinformatics tool platform that handles 10TB-scale and ~250 thousand omics databases, a suite of patent sequence databases with maximum coverage of data source, and a multiple sequence alignment tool to rapidly cluster hundreds of thousand sequences. At the end of last year, we released a sequence search tool - PSISearch2, which implemented a query-seeded method to increase selectivity to ~20-fold. Basing on these achievements, we propose to create and establish a method called “reverse-search”, to facilitate integrative non-reference- and non-assembly-based analyses for PB-scale omics data, and to offer applications in genotyping.
我们正迈向百万人基因组时代。以拼接组装和参考基因组为基础的研究方法只保留了少部分人的基因信息,在面对千人量级以上基因组时无法全面地利用数据,因而无法提供对完整数据的高速检索和快速分析,同时难于适应海量数据的本地化分析需求。基于“无拼接组装”与“无参考基因组”的研究方法成为当前挖掘PB量级组学数据最急切的需要之一,也是突破组学大数据分析瓶颈的新途径之一。.前期研究中,我们发表了处理和检索10TB量级数据、25万个组学库的生物信息检索和分析工具平台、最大覆盖的生物专利序列库群,以及10万量级的序列多重比对工具;去年底我们发表的PSISearch2序列检索新方法,精确度提高约20倍。本项目课题承前启后,整合上述研究成果,运用无拼接组装、无参考基因组的方法,提出和建立“反向检索”的新方法。该新方法预期可应用于罕见病基因突变和外源性致病基因快速检测等基因型分析中。
面对海量的生命组学数据,传统的基于拼接组装和参考基因组的方法无法提供对完整数据的高速检索和快速分析。基于无拼接组装与无参考基因组的数据检索方法成为当前挖掘组学大数据最急切的需要之一,也为生命组学大数据和疾病表型的关联分析提供了新途径。.本项目的核心目标是研发和实现的生命组学数据“反向检索”方法,应用于外源性致病微生物基因组、宏基因组的检索分析以及与人类疾病的关联分析。针对这个目标,项目组研究了无参考基因组的组学数据库群的索引方法,整合了外源性致病微生物的关联数据,建立了微生物核心基因与疾病的关联模型,并建成了微生物核心基因与人类疾病关联的在线数据库MicroPhenoDB(lilab2.sysu.edu.cn/microphenodb);其次,项目组在以上高通量序列与疾病关联数据平台上建立了序列“反向检索”方法,大大提高了对组学数据的检索的效率;再次,项目组利用上述索引数据库群和方法,建立了基于MetaPhlan2、Bowtie2、SBT、BLAST、PSISearch2D、seqChecksum等不同算法基础上的反向检索、序列检索和迭代检索等在线网络分析应用。.项目组探索了基于反向检索在基因分析的应用,尤其是应用于外源性病原微生物核心基因的检测以及与人类疾病的关联分析,探究感染类疾病与微生物种类、微生物核心标记基因的关系。反向检索及其相关数据库的应用,可以转化成对外源性疾病微生物检测的一种方法,为面向临床感染性疾病的非侵入式检测和临床用药提供数据分析支撑。.项目执行期间发表基金号第一标注和第二标注SCI论文各一篇,申请专利3项,超额完成项目任务指标。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
基于参考基因组的转录组拼接算法研究及其在癌症中的应用
基于新一代测序数据的全基因组拼接组装算法研究
基于分形理论的模具型腔高速高精加工理论及应用研究
无简并高维超混沌系统及其应用研究