Genome-wide association study is an important strategy to unravel the relationship between genotype and phenotype and to understand gene function. Towards the gradual and rapid accumulation of millions of low-pass sequencing data, this study aims to achieve breakthrough in methodology by establishing a framework and series of new methods to perform genome-wide association studies of complex trait based on low-pass whole genome sequencing data. By applying the established methods to the analysis of four types of complex traits, the study will investigate the best analytical model and understand the genetic architecture for different kinds of traits. Finally, the study will compare the key performance parameters such as genotype imputation accuracy and association power on simulation and real data between the low-pass sequencing strategy with the most widely used chip-based strategy, and investigate the influence from depth and sample size. The study will provide guidance for the design of future genome-wide association study.
全基因组关联研究是揭示基因型与表型相互关系,认识基因功能的重要手段。针对目前逐渐积累的百万至千万级别的大人群低深度基因组测序数据,本研究拟在方法学上取得突破, 建立首个基于低深度测序数据的复杂性状关联研究的方法体系。通过将该方法体系运用于四种类型复杂性状十万以上样本级别的大人群低深度基因组研究,建立不同类别性状的最佳分析模型,理解不同性状的遗传结构。最后,本课题将基于该方法体系在模拟和实际数据中分析结果, 与目前最普遍的基于芯片数据的关联研究方法进行比较,探究深度、样本数等因素对基因型推断准确性与关联分析功效两个核心指标的影响,为未来关联研究的科学设计提供重要指导。
全基因组关联研究是揭示基因型与表型相互关系,认识基因功能的重要手段。针对目前逐渐积累的百万至千万级别的大人群低深度基因组测序数据, 本项目着重建立基于低深度测序数据的复杂性状关联研究的方法体系,并且基于该方法探究四种类型复杂性状十万以上样本级别的遗传基础。项目在下述方面分别取得了重要进展: (1)在基因突变检测以及基因型推断上,通过最大似然算法以及结合了中国人群的单倍型参考序列的隐马尔可夫算法,对于最小等位基因频率MAF>1%, MAF>0.5%以及MAF>0.1%的位点分别获得了0.875、0.825以及0.656的基因型准确性; (2) 通过结合了随机矩阵理论和个体等位基因频率计算框架,在基于常见科研集群服务器,实现了4.1小时内完成十万人的主成分解析,提供关联分析所需群体分层协变量; (3) 通过运用上述算法对十万低深度测序样本的表型进行全基因组关联,揭示中国人群身高与BMI常见数量表型,氨基酸、维生素、荷尔蒙和微量元素等84种孕期营养代谢分子,线粒体浓度、端粒长度等表型以及妊娠期疾病的遗传基础。另外,研究也拓展性地探究了基于家系等关联样本设计新冠重症与易感性的全基因组关联研究策略,以及基于RNA测序数据新冠病毒突变和宿主基因表达信息的提取和关联研究方法。本研究为基于大规模低深度测序数据的中国人群表型组的遗传基础与规律研究提供坚实的理论和方法基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
面向全基因组关联研究的动态数据挖掘与深度查询方法
低深度全基因组测序鉴定特发性慢性胰腺炎新基因及其功能研究
基于重测序进行全基因组关联分析挖掘大麻CBD含量候选基因
基于重测序的全基因组关联分析发掘油菜种子耐热等位基因