高通量RNA-Seq测序数据的基因表达水平建模研究

基本信息
批准号:61170152
项目类别:面上项目
资助金额:56.00
负责人:刘学军
学科分类:
依托单位:南京航空航天大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:蔡昕烨,牛耘,冯爱民,张礼,徐亚峰,赵志兰,高珍珠,闫国启,郑雅倩
关键词:
高通量测序技术基因表达概率模型概率图模型RNASeq
结项摘要

高通量RNA-Seq测序技术近年来大量应用于基因表达水平(GEL)的测量,GEL计算的准确性对后续分析正确得出生物学结论具有至关重要的作用,但该技术中各种系统噪声的存在为GEL的计算带来了挑战。现有方法均采用了离散型概率模型,尽管该类模型能够模拟数据的离散特性,但对系统噪声建模能力相对较弱,难以较好地同时解决RNA-Seq数据中读段非均匀分布和多源映射,以及双末端测序技术下的计算等问题。本项目拟设计连续型概率模型进行RNA-Seq数据GEL的计算,以克服现有方法的不足。重点研究:1)读段计数向模拟信号的转换方式,为连续型概率模型提供数据准备;2)读段模拟化信号的概率建模方法,以消除读段非均匀分布的影响;3)读段多源映射的概率建模,以准确模拟不同异构体的表达水平;4)GEL的概率分布表示,以有效整合不同异构体表达水平。本项目预期能进一步提高GEL计算的准确性,为后续分析打下良好的基础。

项目摘要

转录组研究近年来成为生物医学领域较为重要的研究方向,RNA-Seq技术和基因芯片是目前转录组研究中的重要工具。实验产生了海量数据,从这些数据中获得准确的基因以及异构体表达水平面具有很大挑战。RNA-Seq数据临读段多源映射和读段在参考序列上分布偏差的影响,基因芯片数据存在非特异性探针信号的影响。本项目主要围绕RNA-Seq和基因芯片数据,设计一系列概率模型排除噪声干扰,进行基因及异构体表达水平的计算。具体完成的研究内容有:1)针对RNA-Seq数据读段分布偏差进行建模研究,根据不同的偏差假设设计了一系列模型进行偏差校正。首先根据碱基水平采用马尔科夫模型获得了位置偏差和序列偏差因子,对读段分布进行偏差矫正。其次考虑了基因和异构体之间对应关系的稀疏性设计了基于结构稀疏回归方法的异构体表达值计算方法。再次采用伽玛模型模拟读段分布偏差,得到了较为准确的基因和异构体表达水平计算方法。最后设计了一系列基于LDA模型的表达水平计算方法,获得了异构体比例的概率分布。2)基于所设计的基于碱基偏差校正的表达水平计算模型,提出了考虑不确定度的差异基因及异构体检测;基于LDA系列模型的表达水平计算方法,提出了差异异构体比例检测方法。3)针对Affymetrix传统3’芯片提出了仅采用PM探针数据的更为稳定的伽玛模型处理方法,用来计算基因表达水平;针对外显子芯片以及HTA2.0芯片原始数据,采用已知的基因和异构体的对应关系,提出了基于伽玛模型的基因以及异构体表达水平计算方法,并对算法进行了并行化改造以提高处理大数据的能力。本项目以此为基础还扩展研究了:1)将高斯过程回归模型应用于航空领域翼型优化设计,该方法考虑了翼型设计中多个气动性能之间的相关性,采用多输出高斯过程回归模型建立多响应代理模型,获得较好设计效果。2)将贝叶斯网络应用于作战重心评估,定量地评估各个关节对于证据的重要性,合理地确定作战重心。本项目实现开源软件包5个,供生物医学领域研究者免费下载使用,以促进相关领域的研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

刘学军的其他基金

批准号:51579182
批准年份:2015
资助金额:63.00
项目类别:面上项目
批准号:49801013
批准年份:1998
资助金额:14.00
项目类别:青年科学基金项目
批准号:41071151
批准年份:2010
资助金额:45.00
项目类别:面上项目
批准号:40771188
批准年份:2007
资助金额:42.00
项目类别:面上项目
批准号:41371421
批准年份:2013
资助金额:75.00
项目类别:面上项目
批准号:60703016
批准年份:2007
资助金额:20.00
项目类别:青年科学基金项目
批准号:30370287
批准年份:2003
资助金额:20.00
项目类别:面上项目
批准号:40971230
批准年份:2009
资助金额:35.00
项目类别:面上项目
批准号:40571120
批准年份:2005
资助金额:38.00
项目类别:面上项目
批准号:59477009
批准年份:1994
资助金额:8.00
项目类别:面上项目
批准号:21306174
批准年份:2013
资助金额:24.00
项目类别:青年科学基金项目
批准号:20577068
批准年份:2005
资助金额:26.00
项目类别:面上项目

相似国自然基金

1

高通量RNA-Seq数据的偏差建模和差异表达基因识别

批准号:61203282
批准年份:2012
负责人:王颖
学科分类:F0304
资助金额:24.00
项目类别:青年科学基金项目
2

基于时间序列RNA-Seq测序数据的基因表达动态分析建模研究

批准号:61802193
批准年份:2018
负责人:张礼
学科分类:F0213
资助金额:25.00
项目类别:青年科学基金项目
3

校正RNA-seq测序数据中读段分布偏好并准确推断基因表达水平的方法学研究

批准号:31401126
批准年份:2014
负责人:姜宁
学科分类:C0608
资助金额:25.00
项目类别:青年科学基金项目
4

面向进化基因组学的高通量测序数据流形建模

批准号:11471313
批准年份:2014
负责人:蔡云鹏
学科分类:A0604
资助金额:70.00
项目类别:面上项目