基于三代测序数据的基因组结构变异识别与评价方法研究

基本信息
批准号:61902094
项目类别:青年科学基金项目
资助金额:26.00
负责人:朱晓
学科分类:
依托单位:烟台大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
变异结果评价变异特征提取三代测序数据结构变异识别基因组学
结项摘要

The third generation sequencing technology has its unique advantages for the identification of structural variations, and is promoting the discovery of the human genome structural variation at an unprecedented scale and depth. However, at present, existing methods for identifying genomic structural variations from the third generation sequencing data are not perfect, and are not fine in the characterization of structural variations, resulting in many false positives and false negatives, and it is prone to omit small variants, which is the majority of the variants, and moreover, there are usually big region difference between user-called variants and target ones sometimes. Therefore, it is an urgent problem to identify the genomic structural variations of different size and types more accurately. This project aims to employ varies strategies comprehensively to extract variation characteristics at the nucleotide level for detailed description of variations, and to distinguish the structural variations in those variant regions more accurately by adopting the Canu local assembly and BLAT alignment combined approach, and finally to improve the identification accuracy of structural variations. The completion of this project will expand the frontier research on structural variation of human genome, and provide theoretical guidance and technical support for the data processing and analysis of genomic structural variations, and accelerate the pace of genome sequencing. Moreover, existing evaluation methods for structural variations are usually neither comprehensive nor detailed, so this project will provide both traditional evaluation metrics and other detailed metrics by computing variant region size difference for more detailed and comprehensive evaluation. The completion of this project will expand the frontier research on structural variation of human genome, and provide theoretical guidance and technical support for the data processing and analysis of genomic structural variations, and accelerate the pace of genome sequencing.

第三代测序技术对于结构变异识别具有独特的优势,正以前所未有的规模和深度促进人类基因组结构变异的发现。然而目前三代数据的结构变异识别方法不完善,变异刻画不够精细,识别结果存在大量的假阳性和假阴性,容易漏掉数量居多、长度较小的变异,且变异位置存在较大偏差。这些不足阻碍了结构变异相关研究,因此如何准确识别多种长度、多种类型的变异是亟需解决的问题。本项目拟综合应用多种策略,在碱基水平上提取每个碱基位置上的变异特征,精细地刻画结构变异;应用Canu局部拼接与BLAT比对相结合的方法,准确地识别多种长度、多种类型的变异,提高结构变异识别的准确性。此外现有评价方法不够全面、细致,本研究将在传统评价方法的基础上,进一步计算变异的区间偏差,更加细致地对识别结果进行评价分析。本项目的完成将拓展人类基因组结构变异的前沿研究,为基因组结构变异数据分析提供理论指导和技术支持,加快基因组测序研究的步伐。

项目摘要

基因组测序在科学研究中扮演着越来越重要的角色,这也使得结构变异检测的准确性变得至关重要。现有的基于长读数的结构变异检测方法,在全面表征结构变异方面仍有不足,且结构变异检测的敏感度和精确度仍有改进的空间。本研究主要包括两部分研究内容。. 第一部分是基于三代长度长测序数据的基因组结构变异识别与评测方法研究。本研究在碱基水平上提取变异特征,综合碱基错配、覆盖深度、插入/缺失数量、clipping数据等信息精细刻画结构变异。其次,在插入/缺失结构变异检测方面,综合考虑区域内所有读数段上的变异特征,将区域内的读数段进行分类,再使用偏序比对等方法进行结构变异的检测,提高结构变异检测的敏感度,降低基因组复杂区域对结构变异复杂性的影响。然后,在clipping区域的结构变异检测方面,应用局部拼接与比对,有效识别倒位、复制、易位类型的结构变异。最后,以变异识别结果和基准集作为输入,设计了基因组结构变异识别结果的评测方法,计算识别结果中的评测指标值,并进一步分析识别结果中变异区间的偏差情况,计算识别结果中的变异与基准集中变异的重心距离、区间长度比,进行统计分析。. 第二部分以基因组测序数据为基础,研究了基因组拼接错误检测,以及新型冠状病毒TCR免疫组库分析。深度挖掘多种序列拼接错误特征,充分利用参考序列与配对数据信息,提出一种高效的基于高通量测序数据的基因组拼接错误识别方法,该方法能有效检测拼接结果中的插入错误、缺失错误和错误连接。针对拼接错误识别方法检测出的拼接错误可能存在错检的情况,提出一种拼接错误识别结果的评估方法,通过聚类分析检测结果中的拼接错误,该方法能有效提高拼接错误识别的准确性。此外,基于新冠患者TCR免疫组库的单细胞测序数据,分析了新型冠状病毒T细胞受体基因差异,结果表明:新冠患者外周血TCR基因发生了明显改变,并且新冠患者在不同感染时期TCR具有多样性和特异性,这种特异性识别抗原使得适应性免疫更加精准。. 在研期间以通讯作者发表科研论文7篇,其中SCI论文3篇,合计影响因子18.226。此外,申请发明专利1项,培养硕士研究生4名。本项目取得了良好的研究结果,本研究提出的结构变异识别方法能有效识别多种类型的结构变异,为下一步转化医学研发与应用奠定良好基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

朱晓的其他基金

相似国自然基金

1

基于三代测序校正序列的基因组结构变异检测方法研究

批准号:31701146
批准年份:2017
负责人:陈颖
学科分类:C0608
资助金额:24.00
项目类别:青年科学基金项目
2

基于高通量测序数据多供体植物基因组结构变异识别方法研究

批准号:61402132
批准年份:2014
负责人:王春宇
学科分类:F0213
资助金额:24.00
项目类别:青年科学基金项目
3

基于配对及家系测序数据的基因组结构变异的识别

批准号:31671364
批准年份:2016
负责人:赵方庆
学科分类:C0608
资助金额:60.00
项目类别:面上项目
4

基于Nanopore测序和多源数据融合策略的基因组大型结构变异检测方法研究

批准号:62002388
批准年份:2020
负责人:廖兴宇
学科分类:F0213
资助金额:16.00
项目类别:青年科学基金项目