基于深度和多示例学习的m6A-seq数据分析质量提升算法研究

基本信息
批准号:61902323
项目类别:青年科学基金项目
资助金额:26.00
负责人:刘泽
学科分类:
依托单位:西北农林科技大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
生物信息学计算生物学生物信息分析高通量数据表观遗传学
结项摘要

m6A-seq, a combination of Immunoprecipitation and Next generation sequencing technology, can be used to map N6-methylated guanidine(m6A) in transcriptome. This application is intended to address the issue of the low quality of existing m6A-seq data analysis methods. The main contents of the research are: (1) To solve the problem that signal (m6A fold enrichment) is confused with noise in raw data, a noise estimation method for raw data will be developed, and a denoising model will be established by using long-short-term memory network and convolutional neural network. (2) To solve the problem that existing method cannot specifically recognize the reads enrichment region(peak) of m6A, the key features which can be used to distinguish m6A peaks from the false positive peaks will be clarified, and a m6A-specific peak recognition model will be established by using deep forests method. (3) To solve the problem that m6A-seq cannot locate the m6A sites, the correspondence between the peaks and the m6A sites will be clarified, and a m6A site localization model will be established by using integrated MIForests method. Finally, a m6A-seq data analysis quality improvement model will be established, which will lay the foundation for the subsequent study of the role of m6A in the development of complex diseases.

m6A-seq是一种结合免疫共沉淀和高通量测序的技术,可从全转录组范围内鉴定N6-甲基化嘌呤(m6A)。本申请拟针对目前m6A-seq数据分析方法质量不高的问题,展开如下研究:(1)针对原始数据信号(m6A富集倍数)与噪声混淆的问题,量化原始数据噪声水平,采用长短期记忆网络结合卷积神经网络方法,建立原始数据去噪模型;(2)针对已存方法无法特异性识别m6A的读段富集区(peak)的问题,阐明区分m6A对应peak和假阳性peak的关键特征,采用深度森林方法,建立m6A特异性peak识别模型;(3)针对m6A-seq无法定位m6A位点的问题,明确peak与m6A位点的对应关系,采用集成多示例森林方法,建立m6A位点定位模型。最终建立起m6A-seq数据分析质量提升模型,为后续研究m6A在复杂疾病的发生发展过程中的作用奠定基础。

项目摘要

m6A-seq被广泛用于m6A修饰图谱绘制,但是其假阳性率较高且无法确定m6A的具体位置和数量。因此,本项目从peak差异分析、假阳性peak剔除及peak中m6A位点定位等三个方面进行研究。首先,对有对应关系的m6A-seq、miCLIP-seq及YTHDF2的RIP-seq数据进行了搜集,分析发现m6A与YTHDF2都在除第1外显子外的其他外显子区域富集程度最高,此外,研究发现YTHDF2结合区域距离转录起始位点较近,说明YTHDF2可能与转录功能关系密切,在此基础上,构建了m6ABRP软件,该模型AUC可达0.920,能够精准地对m6A-YTHDF2结合区域进行预测;然后,为了降低peak的假阳性,进一步区分不同表观修饰产生的peak,对m6Am、m7G及f5C等位点数据进行搜集并构建训练数据集,在此基础上,深入挖掘不同修饰的关键特征并构建m6Aminer、f5Cfinder及m7GPredictor等软件工具,其模型AUC分别可达0.913、0.851及0.945,可用于进一步对peak进行特异性注释;最后,为了确定peak中m6A的数量和位置,将每个peak当作正包,其中每个正包中包含至少一个正示例,在此基础上,构建包级分类器,实现从peak中识别最可靠m6A样本的功能。为了验证模型的可靠性,采用m6A单精度位点数据进行验证,结果表明,所建立的模型能从低分辨率peak数据中准确地识别m6A位点。本项目提出的模型可有效地降低m6A-seq数据的假阳性,并提高m6A位点的定位精度,为进一步研究m6A在神经发育、免疫反应、DNA损伤反应、肿瘤发生发展及植物胁迫响应等多种生物过程中的作用奠定基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

刘泽的其他基金

批准号:51002182
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:61050001
批准年份:2010
资助金额:30.00
项目类别:专项基金项目
批准号:11602175
批准年份:2016
资助金额:26.00
项目类别:青年科学基金项目
批准号:41306019
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:41776020
批准年份:2017
资助金额:68.00
项目类别:面上项目
批准号:60776831
批准年份:2007
资助金额:26.00
项目类别:联合基金项目
批准号:61771041
批准年份:2017
资助金额:65.00
项目类别:面上项目
批准号:60302011
批准年份:2003
资助金额:20.00
项目类别:青年科学基金项目
批准号:51808010
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:61227002
批准年份:2012
资助金额:290.00
项目类别:专项基金项目
批准号:11872284
批准年份:2018
资助金额:67.00
项目类别:面上项目

相似国自然基金

1

基于深度多示例学习的视频理解与内容安全分析

批准号:61876100
批准年份:2018
负责人:丁昕苗
学科分类:F0604
资助金额:64.00
项目类别:面上项目
2

基于最大间隔的多示例学习算法设计与分析

批准号:61202270
批准年份:2012
负责人:肖燕珊
学科分类:F06
资助金额:23.00
项目类别:青年科学基金项目
3

基于高斯过程模型的多示例多标记学习算法研究

批准号:61503058
批准年份:2015
负责人:贺建军
学科分类:F0603
资助金额:22.00
项目类别:青年科学基金项目
4

面向多示例数据的分类和多序列回归算法研究

批准号:61672169
批准年份:2016
负责人:肖燕珊
学科分类:F0607
资助金额:63.00
项目类别:面上项目