高通量RNA-Seq测序技术近年来大量应用于基因表达水平(GEL)的测量,GEL计算的准确性对后续分析正确得出生物学结论具有至关重要的作用,但该技术中各种系统噪声的存在为GEL的计算带来了挑战。现有方法均采用了离散型概率模型,尽管该类模型能够模拟数据的离散特性,但对系统噪声建模能力相对较弱,难以较好地同时解决RNA-Seq数据中读段非均匀分布和多源映射,以及双末端测序技术下的计算等问题。本项目拟设计连续型概率模型进行RNA-Seq数据GEL的计算,以克服现有方法的不足。重点研究:1)读段计数向模拟信号的转换方式,为连续型概率模型提供数据准备;2)读段模拟化信号的概率建模方法,以消除读段非均匀分布的影响;3)读段多源映射的概率建模,以准确模拟不同异构体的表达水平;4)GEL的概率分布表示,以有效整合不同异构体表达水平。本项目预期能进一步提高GEL计算的准确性,为后续分析打下良好的基础。
转录组研究近年来成为生物医学领域较为重要的研究方向,RNA-Seq技术和基因芯片是目前转录组研究中的重要工具。实验产生了海量数据,从这些数据中获得准确的基因以及异构体表达水平面具有很大挑战。RNA-Seq数据临读段多源映射和读段在参考序列上分布偏差的影响,基因芯片数据存在非特异性探针信号的影响。本项目主要围绕RNA-Seq和基因芯片数据,设计一系列概率模型排除噪声干扰,进行基因及异构体表达水平的计算。具体完成的研究内容有:1)针对RNA-Seq数据读段分布偏差进行建模研究,根据不同的偏差假设设计了一系列模型进行偏差校正。首先根据碱基水平采用马尔科夫模型获得了位置偏差和序列偏差因子,对读段分布进行偏差矫正。其次考虑了基因和异构体之间对应关系的稀疏性设计了基于结构稀疏回归方法的异构体表达值计算方法。再次采用伽玛模型模拟读段分布偏差,得到了较为准确的基因和异构体表达水平计算方法。最后设计了一系列基于LDA模型的表达水平计算方法,获得了异构体比例的概率分布。2)基于所设计的基于碱基偏差校正的表达水平计算模型,提出了考虑不确定度的差异基因及异构体检测;基于LDA系列模型的表达水平计算方法,提出了差异异构体比例检测方法。3)针对Affymetrix传统3’芯片提出了仅采用PM探针数据的更为稳定的伽玛模型处理方法,用来计算基因表达水平;针对外显子芯片以及HTA2.0芯片原始数据,采用已知的基因和异构体的对应关系,提出了基于伽玛模型的基因以及异构体表达水平计算方法,并对算法进行了并行化改造以提高处理大数据的能力。本项目以此为基础还扩展研究了:1)将高斯过程回归模型应用于航空领域翼型优化设计,该方法考虑了翼型设计中多个气动性能之间的相关性,采用多输出高斯过程回归模型建立多响应代理模型,获得较好设计效果。2)将贝叶斯网络应用于作战重心评估,定量地评估各个关节对于证据的重要性,合理地确定作战重心。本项目实现开源软件包5个,供生物医学领域研究者免费下载使用,以促进相关领域的研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
粗颗粒土的静止土压力系数非线性分析与计算方法
硬件木马:关键问题研究进展及新动向
中国参与全球价值链的环境效应分析
高通量RNA-Seq数据的偏差建模和差异表达基因识别
基于时间序列RNA-Seq测序数据的基因表达动态分析建模研究
校正RNA-seq测序数据中读段分布偏好并准确推断基因表达水平的方法学研究
面向进化基因组学的高通量测序数据流形建模