The classical methods of quantitative trait loci mapping cannot adapt to the high-dimensional and high-density genetic marker data. The genetic analysis for quantitative trait is one of the hot-spots on statistical genetics based on biological big data. There are four approachs based on the original work and the existing resources in this project: First, statistical test and Random Forest algorithm are applied to select marker and improve the existing statistical method on quantitative trait loci mapping; Second, Support Vector Machine and Particle Swarm Optimization algorithm on data mining technology are used to cluster and decrease the dimension of the models. The new method for gene selection and gene mapping is proposed; Third, Empirical Bayesian and Weighting Elastic net are used to gene mapping and gene selection for quantitative trait; Fourth, the genetic model of discrete linear equation is converted into that of continuous integral equation. Numerical integration is performed to find the integral. Exploring new data using the existing methods, the theory for gene mapping and gene selection is developed. Using cloud computing and parallel computing of computer technology, the feasibility and efficiency of the four methods are examined by computer simulations and real data. A series of the solution of genetic mapping and genomic selection are paved using high-dimensional data and whole genome sequence data, which are accurately and rapidly. All study provide for the theories reference and mean of genomic selection in practice. It is pushed the application of biological big data.
传统的数量性状基因定位方法已不适应高维和高密度的遗传标记数据,基于生物大数据的遗传数据分析是当代统计遗传学研究热点之一. 本项目基于原有工作基础和现有资源,开展下列研究:第一,应用随机森林算法进行标记选择,改进已有的数量性状基因定位统计方法;第二,应用支持向量机与粒子群算法等数据挖掘技术,进行聚类和降维,发展新的基因选择和基因定位方法;第三,应用Empirical Bayesian与加权Elastic net 统计学方法,提出新的数量性状基因定位统计方法;第四,将离散的线性遗传模型转换成连续的积分遗传模型,数值积分被应用,产生新的数据,拓展基因选择和定位理论研究. 以上四种方法均采用计算机模拟和实际数据验证它们的有效性和可行性,计算机技术中的云计算和并行计算被采用. 由此提出一系列基于高维数据、全基因组范围内、能准确和快速地进行数量性状基因定位的方法,对生物大数据的应用起到积极的推动作用.
项目《基于高维数据和全基因组标记的数量性状基因定位方法研究》(31571558)2015年获得国家自然基金面上项目资助,项目执行期:2016年1月至2019年12月。本项目主要是在高密度遗传标记的情况下,遗传标记的选择(即高维数据降维)和基因关联分析方法的研究。历经四年主要取得以下结果:第一,传统的复合区间作图方法进行QTL定位,通常是采用逐步回归的分析方法选择余因子,然余因子选择不同影响了QTL定位的结果. 我们提出了一个适用于高密度遗传图谱QTL定位的统计分析方法,称为复合标记检验方法,并得出当遗传线性模型的F检验值达到最大时,所选择的余因子最合适,在此基础上进行QTL定位,能提高QTL定位的效率和精度;第二,由于高密度遗传标记之间经常存在共线性,故可以通过随机森林算法进行遗传标记选择,我们发展了基于随机森林两阶段逐步变量选择算法,即第一阶段变量重要性排序的改进方法,以进一步提高重要变量与噪声变量的区分度;第二阶段基于随机森林算法的逐步变量选择方法;通过该方法选择变量后确定线性遗传模型以及进行基因定位分析;第三,我们针对基于惩罚函数的变量选择开展基因关联分析的应用研究,我们提出了高维遗传标记数据的多性状联合基因关联分析方法,该方法主要是利用基于协方差估计的稀疏的多因变量回归模型,通过构造惩罚函数进行遗传标记的选择和关联分析;第四,当遗传标记密度越来越高时,我们可以将传统线性遗传模型转换成积分遗传模型,利用函数型数据分析方法进行基因关联分析,我们提出了基于函数线性回归模型局部稀疏估计的基因关联分析方法,改进了基因关联分析检测的“假阳性”,该方法适合于罕见变异的基因关联分析。我们还拓展到进行印迹QTL定位等研究工作,总之,我们从理论上构建了一系列基于高密度遗传标记的数量性状基因关联分析方法;本项目现已发表文章10篇,其中SCI收录四篇,软件著作权三个,研究生毕业五人,完成预期目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
数量性状和阈性状基因组育种值联合估计新方法
植物质量--数量性状基因定位作图方法研究
检测全基因组范围影响数量性状变异互作效应的新方法研究
基于数量性状的纯合子定位分析方法研究