Structural variations are genomic rearrangements that contribute significantly to evolution, natural variation between organisms, and are.often involved in biological phenotypes and genetic disorders. Traditional microscope and array based methods are used for the detection of larger events or copy number variations. Next generation sequencing has enabled the detection of all types of structural variants from genome accurately. In practice, a significant challenge lies in the development of computational methods that are able to identify these structural variants based on the generated high-throughput sequencing data. In this project, we focus on the design and implementation of the algorithms for multiple donor plant genomic structural variation identification with the combination of assembly, pair-end mapping, split read and depth of coverage analyzing. We will give better sensitivity and specificity as well as a comprehensive detection results. The precisely prediction for structural variation breakpoint is another important aspect. We will analyze the formation mechanism of structural variations based on the microhomology at the position of breakpoints, then construct a structural variation database for important plant genomes.
结构变异属于基因组的重排,对生物个体的进化过程和自然选择过程有重要贡献,与生物表型和遗传疾病有关。结构变异的识别方法,与传统基于显微镜和芯片的方法相比,采用高通量测序技术能够更准确和全面的识别全基因组结构变异。目前在大量短序列的高通量序列数据中,识别结构变异的算法设计仍是一种挑战。本项目利用植物多供体的高通量测序数据与单个参考基因组相比较,采用基因组组装、对端读片段定位、读片段分隔和覆盖度分析相结合的技术,设计并实现基于植物基因组特点的结构变异识别方法。在保证结构变异识别种类全面的基础上,提高识别的精确性和特异性。能够为识别出的结构变异预测精确的断点位置,根据断点处微同源性,分析结构变异的形成机制。建立并维护重要植物基因组的结构变异数据库。
结构变异对生物个体的进化过程和自然选择过程有重要贡献,与生物表型和遗传疾病有关。本项目利用信息学方法,以植物多供体的高通量测序数据与单个参考基因组相比较,采用基因组组装、对端读片段定位和读片段分隔等技术识别植物基因组的结构变异;在保证结构变异识别类型的基础上,能够识别出的结构变异预测精确的断点位置。取得如下成果:.(1)二代测序读片段聚类研究中,提出了基于窗口内非共享k-mer计数的序列相似性度量方法和基于共享k-mer的相似度提出了基于扩展块的块比对算法;以两种相似度为基础,利用基本的贪心策略提出了一种新颖的序列聚类算法,该方法能够处理大量序列的聚类问题。.(2)在序列聚类的基础上,进行了基因组测序片段组装的研究,提出了一种基于序列聚类和种子图的高通量测序片段拼接算法,降低了高通量全基因组拼接的错误率。.(3)在结构变异识别研究中,提出了一种基于多供体和多类型结构变异的分子标记识别算法;提出了一种结构变异的精确断点预测算法,该算法能够给出准确的断点位置,可以得到较好的结构变异识别率和准确率。.共发表论文21篇,其中国际刊物13篇、国际会议论文3篇。结合本项目研究工作,协助培养博士生3人、培养硕士生6人。.本项目将以结构变异识别为基础,进一步研究植物基因组的遗传多样性,为植物基因组学研究提供信息科学方法和技术。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
基于高通量测序数据研究基因组变异的统计问题
基于Nanopore测序和多源数据融合策略的基因组大型结构变异检测方法研究
基于配对及家系测序数据的基因组结构变异的识别
基于多参考基因组的高通量测序片段映射方法研究