基于高维数据和全基因组标记的数量性状基因定位方法研究

基本信息

批准号：31571558

项目类别：面上项目

资助金额：63.00

负责人：温永仙

学科分类：

依托单位：福建农林大学

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：陈永雪,郑珂晖,颜吉强,余尘,冯盼峰,庄虹莉

关键词：

变量选择智能算法计算机模拟数量性状基因座统计遗传模型

结项摘要

The classical methods of quantitative trait loci mapping cannot adapt to the high-dimensional and high-density genetic marker data. The genetic analysis for quantitative trait is one of the hot-spots on statistical genetics based on biological big data. There are four approachs based on the original work and the existing resources in this project: First, statistical test and Random Forest algorithm are applied to select marker and improve the existing statistical method on quantitative trait loci mapping; Second, Support Vector Machine and Particle Swarm Optimization algorithm on data mining technology are used to cluster and decrease the dimension of the models. The new method for gene selection and gene mapping is proposed; Third, Empirical Bayesian and Weighting Elastic net are used to gene mapping and gene selection for quantitative trait; Fourth, the genetic model of discrete linear equation is converted into that of continuous integral equation. Numerical integration is performed to find the integral. Exploring new data using the existing methods, the theory for gene mapping and gene selection is developed. Using cloud computing and parallel computing of computer technology, the feasibility and efficiency of the four methods are examined by computer simulations and real data. A series of the solution of genetic mapping and genomic selection are paved using high-dimensional data and whole genome sequence data, which are accurately and rapidly. All study provide for the theories reference and mean of genomic selection in practice. It is pushed the application of biological big data.

传统的数量性状基因定位方法已不适应高维和高密度的遗传标记数据，基于生物大数据的遗传数据分析是当代统计遗传学研究热点之一. 本项目基于原有工作基础和现有资源，开展下列研究:第一，应用随机森林算法进行标记选择，改进已有的数量性状基因定位统计方法；第二，应用支持向量机与粒子群算法等数据挖掘技术，进行聚类和降维，发展新的基因选择和基因定位方法；第三，应用Empirical Bayesian与加权Elastic net 统计学方法，提出新的数量性状基因定位统计方法；第四，将离散的线性遗传模型转换成连续的积分遗传模型，数值积分被应用，产生新的数据，拓展基因选择和定位理论研究. 以上四种方法均采用计算机模拟和实际数据验证它们的有效性和可行性，计算机技术中的云计算和并行计算被采用. 由此提出一系列基于高维数据、全基因组范围内、能准确和快速地进行数量性状基因定位的方法，对生物大数据的应用起到积极的推动作用.

项目摘要

项目《基于高维数据和全基因组标记的数量性状基因定位方法研究》（31571558）2015年获得国家自然基金面上项目资助，项目执行期：2016年1月至2019年12月。本项目主要是在高密度遗传标记的情况下，遗传标记的选择（即高维数据降维）和基因关联分析方法的研究。历经四年主要取得以下结果：第一，传统的复合区间作图方法进行QTL定位，通常是采用逐步回归的分析方法选择余因子，然余因子选择不同影响了QTL定位的结果. 我们提出了一个适用于高密度遗传图谱QTL定位的统计分析方法，称为复合标记检验方法，并得出当遗传线性模型的F检验值达到最大时，所选择的余因子最合适，在此基础上进行QTL定位，能提高QTL定位的效率和精度；第二，由于高密度遗传标记之间经常存在共线性，故可以通过随机森林算法进行遗传标记选择，我们发展了基于随机森林两阶段逐步变量选择算法，即第一阶段变量重要性排序的改进方法，以进一步提高重要变量与噪声变量的区分度;第二阶段基于随机森林算法的逐步变量选择方法；通过该方法选择变量后确定线性遗传模型以及进行基因定位分析；第三，我们针对基于惩罚函数的变量选择开展基因关联分析的应用研究，我们提出了高维遗传标记数据的多性状联合基因关联分析方法，该方法主要是利用基于协方差估计的稀疏的多因变量回归模型，通过构造惩罚函数进行遗传标记的选择和关联分析；第四，当遗传标记密度越来越高时，我们可以将传统线性遗传模型转换成积分遗传模型，利用函数型数据分析方法进行基因关联分析，我们提出了基于函数线性回归模型局部稀疏估计的基因关联分析方法，改进了基因关联分析检测的“假阳性”，该方法适合于罕见变异的基因关联分析。我们还拓展到进行印迹QTL定位等研究工作，总之，我们从理论上构建了一系列基于高密度遗传标记的数量性状基因关联分析方法；本项目现已发表文章10篇，其中SCI收录四篇，软件著作权三个，研究生毕业五人，完成预期目标。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

温永仙的其他基金

批准号：31171448

批准年份：2011

资助金额：61.00

项目类别：面上项目

相似国自然基金

数量性状和阈性状基因组育种值联合估计新方法

批准号：31601009

批准年份：2016

负责人：李秀金

学科分类：C0606

资助金额：21.00

项目类别：青年科学基金项目

植物质量--数量性状基因定位作图方法研究

批准号：39970385

批准年份：1999

负责人：李加纳

学科分类：C0606

资助金额：14.00

项目类别：面上项目

检测全基因组范围影响数量性状变异互作效应的新方法研究

批准号：31601935

批准年份：2016

负责人：李放歌

学科分类：C1702

资助金额：20.00

项目类别：青年科学基金项目

基于数量性状的纯合子定位分析方法研究

批准号：31501002

批准年份：2015

负责人：李毅

学科分类：C0606

资助金额：20.00

项目类别：青年科学基金项目

基于高维数据和全基因组标记的数量性状基因定位方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

"多对多"模式下GEO卫星在轨加注任务规划

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

温永仙的其他基金

禾谷类作物胚乳性状多QTL定位统计方法研究

相似国自然基金