基因表达谱缺失数据的填补融合方法及策略研究

基本信息
批准号:81273178
项目类别:面上项目
资助金额:55.00
负责人:伍亚舟
学科分类:
依托单位:中国人民解放军第三军医大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:罗万春,倪青山,肖嵛,张彦琦,张玲,陈品一,周亮
关键词:
基因表达谱缺失数据策略非参多重填补生物学影响
结项摘要

How to analyze the gene expression data with missing value is the key and difficult topic in biological data analysis. In view of the limitations of simple imputation methods at parent, such as zero (row) average method, particular value method, regression analysis method, K-nearest Neighbor, etc. and the shortage of specific imputation strategy research. We will put forward a kind of new fusion method of nonparametric multiple imputation based on support vector regression (SVR-NPMI) to estimates the missing value of gene expression profile, which organically fuses in together with multiple imputation, support vector machine (SVM) based on of choice kernel function and regression analysis. Through the analysis and application validation of public datasets and the experimental datasets, we emphasis on discuss and set up the missing imputation strategies for different series datasets, different analysis purposes, different missing rate, and further clarify the biological impact on the subsequent analysis of gene expression patterns of missing imputation and it's extent. The successful implementation of this project will have obvious promoting role for solving some puzzles of genomics research in life sciences and developing new methods of bioinformatics technology analysis, which establish an important theoretical and practical basis for its application.

如何分析有缺失值的基因表达谱数据,是生物数据分析中的重点和难点,针对目前通行的零(行)均值法、特定值法、回归分析、K邻近法等单一填补法存在的局限,和缺少具体填补策略研究方面的不足;本项目提出一种将多重填补、基于核函数选择的支持向量机和回归分析有机地融合在一起的新的缺失填补融合方法- - 基于支持向量回归的非参多重填补(SVR-NPMI)法,对基因表达谱缺失数据进行估计与填充;通过对公开数据集和自实验数据集的分析与应用验证,重点探讨并建立不同序列数据集、不同分析目的、不同缺失率情况下的缺失填补策略,以进一步阐明缺失填补方法对基因表达谱后续不同分析目的的生物学影响及其程度。本项目的成功实施,将对解决生命科学中的基因组学研究难题及发展生物信息学技术分析的新方法产生明显的促进作用,为其实际应用打下重要的理论与实际基础。

项目摘要

研究背景:基因表达谱缺失数据的大量存在,严重影响后续分析结果的客观性和正确性;如何根据已有数据信息的特征进行缺失值的有效估计、填补策略构建和填补方法对基因表达谱后续不同分析目的影响评估是极具重要科学意义的研究内容,也是统计学和生物信息学中数据分析研究领域的重难点。.研究方法:采用统计学、数学、计算机科学和生物医学等多个交叉学科的理论研究方法和文献研究方法,对项目的主要内容进行探究与证实。. 研究内容:探讨了基于支持向量回归的非参多重填补(SVR-NPMI)新融合方法和非参缺失森林填补(MissForest-non-parametric)法对基因表达谱缺失数据进行估计,构建了不同序列数据集、不同缺失产生机制、不同缺失比例情况下的填补策略,阐明了填补方法对基因表达谱后续不同分析目的的生物学影响。. 重要结果:(1)基于SAM-WT方法不仅可以更加灵活有效地筛选差异表达基因,而且同时达到降低假阳性率大小的目的,为大规模差异表达基因的有效筛选提供一种新的思路和方法;(2)首次将MissForest-non-parametric法应用于基因表达谱缺失数据的估计,取得了不错的填补效果;(3)通过理论研究、模拟和实际数据的应用验证,证实了SVR-NPMI新融合方法对基因表达谱缺失数据填补的有效性和可靠性;(4)构建了不同序列数据集、不同缺失比例等情况下的填补策略,具体可以根据数据集分布、维度大小和填补方法特性等选择恰当的填补方法;(5)通过对多个基因表达谱数据集的分析,证实了填补方法对差异表达基因筛选和基因功能聚类等分析目的生物学影响;(6)开发的《基因表达谱缺失数据填补分析系统》软件,可以使用多种填补方法对基因表达谱缺失数据进行填补,并对其填补效果进行评估。. 科学意义:项目提出的SVR-NPMI新融合方法和MissForest-non-parametric法发展和丰富了基因表达谱缺失数据的填补模型,推动了生物信息学技术分析领域中新方法的发展,为生物医学等领域大数据的分析提供方法学的借鉴和参考,具有重要的学术理论价值。首次构建的缺失填补分析策略和开发的《基因表达谱缺失数据填补分析系统》软件,可以帮助研究者更好更快的确定适合其数据集的填补方式,更为方便快捷地进行数据分析,提供参考与服务。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
4

天津市农民工职业性肌肉骨骼疾患的患病及影响因素分析

天津市农民工职业性肌肉骨骼疾患的患病及影响因素分析

DOI:
发表时间:2019
5

宽弦高速跨音风扇颤振特性研究

宽弦高速跨音风扇颤振特性研究

DOI:
发表时间:2021

相似国自然基金

1

基于相似紧邻的缺失数据填补关键技术研究

批准号:61572272
批准年份:2015
负责人:宋韶旭
学科分类:F0202
资助金额:67.00
项目类别:面上项目
2

基于GPU的基因表达谱数据特征选择策略研究

批准号:61702146
批准年份:2017
负责人:葛瑞泉
学科分类:F0213
资助金额:26.00
项目类别:青年科学基金项目
3

基于周期信息的时间序列缺失值填补方法研究

批准号:30872182
批准年份:2008
负责人:张晋昕
学科分类:H3011
资助金额:30.00
项目类别:面上项目
4

面向大规模基因表达谱的数据挖掘及并行分析方法研究

批准号:61702134
批准年份:2017
负责人:廖清
学科分类:F0213
资助金额:25.00
项目类别:青年科学基金项目