基于大家族生物序列数据的多位点连锁IBD计算和性状位点定位方法研究

基本信息

批准号：61572522

项目类别：面上项目

资助金额：67.00

负责人：王淑栋

学科分类：

依托单位：中国石油大学（华东）

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：李华昱,龚安,王珣,时念云,李昕,贺思程,张善强,曾雷,李承前

关键词：

生物信息学生物统计学单体型格局序列分析

结项摘要

How to make full use of important genetic information carried by dense single-nucleotide polymorphisms (SNP) in large pedigrees, build the appropriate formal models, study and analyze the relationships among these data of SNPs, genes and phenotypes, identify the pathogenic genes and pathogenesis of complex human diseases, is a hot and difficult problem in the fields of biological medicine and genetics, and an important topic in the post-genomic era. In this project, for large pedigree genotype data with missing dense SNPs, an accurate method is proposed for inferring the missing alleles based on the allele list pairs and an approximation method for assigning the genotypes based on conditional probability, which will provide more accurate data information for genetic linkage and association analysis. Using haplotype configurations with top highest likelihoods and their corresponding joint conditional probabilities, a weighted estimation approach is built for IBD（identity-by descent）matrix computation between any two members in pedigree at any positions of chromosome based on the linkage analysis for multiple marker loci of SNP data of large pedigree, which will provide an important basis for the study of genetic modes of complex diseases. To verify accuracy of the IBD matrix calculation, two methods of trait loci mapping are put forward of two-step variance component and extreme brother pairs for complex diseases, which will provide a novel thinking and method for gene mapping of complex disease in human genetics research. Based on the sequencing data of the simulation and real large pedigrees, the effectiveness and accuracy of the three stage methods are verified.

如何利用大家族中核苷酸多态性（SNP）携带的重要遗传学信息，构建合适的形式化模型，研究分析SNP、基因和表型数据间关系并从中识别人类复杂疾病的致病基因及其发病机理，是生物医学、遗传学等领域研究的热点和难点，也是后基因组时代的重要课题。本项目针对大家族密集SNP缺失数据，提出基于等位基因列表对的准确推断方法和基于条件概率的基因型近似指派方法，为遗传学中连锁和关联分析研究提供更准确的数据信息；分析大家族SNP数据多标记位点连锁关系，利用出现可能性较高的单体型格局及其联合条件概率，提出家族成员在染色体任意位置上IBD矩阵加权估计方法，为复杂疾病的遗传方式研究提供重要依据；为验证上述IBD矩阵计算的准确性，提出两阶段方差分量和极值兄弟对两种复杂疾病性状位点定位方法，为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法；基于仿真和实际大家族生物序列数据验证上述三阶段法的有效性和准确性。

项目摘要

本项目对大家族生物序列数据中等位基因推断、基因型近似指派、单体型格局生成、IBD（identity-by descent）矩阵计算以及多位点定位等理论及其分析方法和应用进行了研究。在理论方面，借鉴遗传学规律的思想，提出了等位基因推断方法在稀疏SNP（single-nucleotide polymorphism）数据和密集SNP数据上的信息提取和相关基因定位；讨论了基于标记位点连锁不平衡信息与条件概率的基因型近似指派方法；探索了采用有界深度优先搜索、分支定界和参数控制约束的单体型格局生成的理论和方法；建立了格局加权的IBD矩阵计算方法，将期望融入最佳线性无偏预测方法和EM算法，进而优化了单体型频率的估计；推广了复杂网络可靠的信息统计量：高阶度和混合度等，通过分析和研究IBD矩阵中的这些统计量来为复杂疾病多性状位点定位和基因定位提供新思路和新方法。在应用方面，探究了全基因组关联研究中海量数据的处理和建模，筛选了不需区分常见和罕见变异的标签SNP集，全面整合了DNA甲基化数据的均值-方差综合信号，融入了甲基化数据的异质性及强相关性的生物特征，探讨了数据驱动的差异甲基化区域识别，推动了基因和表型数据间关系研究。研究分析SNP、基因和表型数据间关系，识别人类复杂疾病的致病基因及其发病机理，为遗传学中连锁和分析研究提供更准确的数据信息，为复杂疾病的遗传方式研究提供重要依据。构建染色体任意位置上的多位点连锁IBD计算和性状位点定位方法，为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：10.12354/j.issn.1000-8179.2021.20201763

发表时间：2021

DOI：10.7524 /j.issn.0254-6108.2017122903

发表时间：2018

DOI：

发表时间：

DOI：10.13343/j.cnki.wsxb.20200479

发表时间：2021

王淑栋的其他基金

批准号：61873281

批准年份：2018

资助金额：65.00

项目类别：面上项目

批准号：61170183

批准年份：2011

资助金额：59.00

项目类别：面上项目

批准号：60874036

批准年份：2008

资助金额：37.00

项目类别：面上项目

批准号：60503002

批准年份：2005

资助金额：26.00

项目类别：青年科学基金项目

相似国自然基金

定量性状位点连锁分析定位家族性IgA肾病糖基化异常IgA1基因

批准号：81000295

批准年份：2010

负责人：谢静远

学科分类：H0503

资助金额：20.00

项目类别：青年科学基金项目

同源四倍体物种多位点连锁分析的理论和方法学研究

批准号：30671108

批准年份：2006

负责人：罗泽伟

学科分类：C0607

资助金额：28.00

项目类别：面上项目

转录因子结合位点序列基元挖掘的计算方法研究

批准号：31571364

批准年份：2015

负责人：黄德双

学科分类：C0608

资助金额：63.00

项目类别：面上项目

大麦产量性状杂种优势位点的定位研究

批准号：31501373

批准年份：2015

负责人：张新忠

学科分类：C1307

资助金额：20.00

项目类别：青年科学基金项目

基于大家族生物序列数据的多位点连锁IBD计算和性状位点定位方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

外泌体在胃癌转移中作用机制的研究进展

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

猪链球菌生物被膜形成的耐药机制

王淑栋的其他基金

大规模图数据的拓扑表达性和超低复杂度可计算性研究

复杂基因逻辑网络若干理论和应用研究

基于网络核与核度理论的基因网络研究

DNA计算模型的理论研究及应用

相似国自然基金