Genomic selection has been increasingly implemented in genetic evaluation of domestic animals recently. Today, sequence-assisted genomic selection has become the focus of this field. It is demonstrated that integrating biological information in the model is an efficient way to gain better performance in sequence-assisted genomic selection. Dirichlet process regression model, a non-parametric method recently proposed for genomic selection, exhibited better and more robust prediction performance than commonly used methods. With the aim of improving prediction performance of sequence-assisted genomic selection by combining advantages of these two methods, we developed hierarchical Dirichlet process regression model, a method including biological information in the Dirichlet process regression model. The performance of the proposed model will be validated via extensive simulation study as well as real data analyses on Chinese Holstein dataset. Meanwhile, we will further optimize the parameters involved in sequence-assisted genomic selection of Chinese Holstein with the new model proposed. The successful implementation of this project will eventually develop an optimal genomic selection method based on information from whole genome sequences. The proposed strategy will not only promote the progress of theoretical investigation in genomic selection, but also lay a solid technical foundation for performing genomic selection projects in Chinese Holstein and even other domestic animals in practice.
近年来,基因组选择在畜禽遗传评估中得到了越来越广泛的应用。基于重测序数据的基因组选择是当前畜禽育种领域的研究热点。研究表明,整合利用生物学信息是提高基于重测序数据基因组选择预测效果的有效途径。最近提出的狄利克雷过程回归模型属于基因组选择非参数模型,其在预测效果与稳健性上更具优势。本研究提出将对生物学信息的整合利用引入狄利克雷过程回归模型,构建利用分组变异的分层狄利克雷过程回归模型,旨在结合生物学信息的辅助预测功能与狄利克雷过程回归模型对数据良好拟合的优势,进一步提高基于重测序数据基因组选择的预测效果。研究采用系统模拟和中国荷斯坦牛实际数据分析的手段,对新方法的预测效果进行验证,并进一步优化使用该方法进行中国荷斯坦牛基因组遗传评估时涉及的参数。本项目的实施,将建立基于全基因组序列信息的基因组选择优化方法,进一步完善基因组选择理论体系,为我国奶牛、以至其它畜禽基因组选择的优化实施提供技术保障。
随着生物技术的发展,基于基因组重测序数据的基因组选择受到越来越多的关注。这是因为重测序数据中包括了影响性状的致因突变,利用这些位点进行基因组选择能够获得更好的预测效果。但是一些经典的基因组选择方法,包括GBLUP和贝叶斯方法,在应用于测序数据时并没有取得良好的预测效果。其可能原因在于相对于SNP芯片数据,测序数据具有更加复杂的数据结构。目前,大多数贝叶斯方法和BLUP方法忽视了SNP位点的生物学信息,假设所有变异同等程度影响表型。这个假设在应用于SNP芯片数据时或许十分合理,但是对于全基因组测序数据,所有SNP标记中包含了对表型有重大影响的致因突变,该假设不再成立。本项目研究中,我们将SNP按照不同功能区域进行分组,在先验中整合SNP位点的生物学信息,构建了分层Dirichlet过程回归模型。通过3个实际数据集(中国荷斯坦牛、小鼠和大豆)的10个性状和3个不同模拟场景,我们比较了该方法与常用经典方法在基于测序数据基因组选择中的预测性能。研究结果表明,在中国荷斯坦牛3个性状和小鼠3个性状的基因组选择中,本项目所构建的分层Dirichlet过程回归模型都表现出了较高的准确性。在大豆的4个性状的基因组选择中,分层Dirichlet过程回归模型虽然没有显著优于其他方法,但表现出了较高的预测稳健性。在3个不同模拟场景中,当模拟条件存在分组假设时,分层Dirichlet过程回归模型都表现出了较高的预测准确性。本项目的实施推动了基因组选择在组学数据上的发展,可以为将来整合多组学信息进行基因组选择提供思路,同时为中国荷斯坦牛以及其他畜禽基于重测序数据基因组选择的成功实施提供技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
基于LASSO-SVMR模型城市生活需水量的预测
资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验
基于多模态信息特征融合的犯罪预测算法研究
基于全模式全聚焦方法的裂纹超声成像定量检测
基于全基因组选择信号的中国荷斯坦牛产奶性状基因定位
基于测定日模型建立中国荷斯坦奶牛基因组选择新方法
基于序列并整合生物学先验的全基因组预测新方法研究
整合基因组注释信息对西门塔尔牛生长性状的全基因组选择研究