基于概率分布理论预测DNA调控元件的新方法研究

基本信息
批准号:31401141
项目类别:青年科学基金项目
资助金额:20.00
负责人:卢一鸣
学科分类:
依托单位:中国人民解放军军事科学院军事医学研究院
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:岳敬伟,闵波,薛继国,李春永,刘哲言,单光宇,王瑞雪,权诚
关键词:
统计建模DNA调控元件染色质修饰表观基因组学机器学习
结项摘要

As an essential regulatory mechanism in cells, epigenetic regulation of gene expression has been studies for decades. Recently, the emerging of ChIP-seq technique has greatly accelerated this researching progress. Accurately prediction of DNA regulatory elements based on high-thoughput epigenetic ChIP-seq data has become an urgent need in the field of epigenetic regulation research.Existing methods such as CSI-ANN and ChromaGenSVM only focused on peak density, ignoring the shape parameters, which are also very important for element recognition. Starting from basic statistical assumptions, we will map the statistics of probability distribution of random variables to sequencing reads distribution features around ChIP-seq peaks, aiming to construct a comprehensive characteristic description system. Using statistics within the system as training features, we plan to construct accurate DNA regulatory element prediction method based on several machine learning algorithms, and then assess the performances of our method as well as some state-of-the-art methods using new predicting data sets. Further more, we will also develop a novel method that could link DNA elements to targeting genes using multi cell ChIP-seq and RNA-seq data. In conclusion, we anticipate that this project will not only be helpful to the prediction of DNA elements using large-sample data, such as data sets in ENCODE project, and it could also provide very helpful information for regulatory mechanisms studies of individual genes.

表观遗传调控作为细胞内一种重要的基因调控机制一直以来都受到研究人员的重视,而近年来ChIP-seq技术的逐步成熟则加速了表观遗传调控研究的进程。如何利用ChIP-seq数据准确预测DNA调控元件及其靶基因已成为表观遗传调控领域亟需解决的重要问题。已有的研究方法如CSI-ANN、ChromaGenSVM等仅关注表观遗传修饰的信号强度,忽视了信号的形状分布,造成预测准确性不高,迫切需要预测准确度高的新方法。本项目从统计学的基本假设出发,将随机变量概率分布统计量映射到信号峰的形状特征上,构建信号峰形状定量描述体系;并基于该体系利用机器学习方法对DNA调控元件进行预测及准确性评估。进一步,我们将利用多细胞系数据建立调控元件与基因之间的关联,明确其生物学功能。本项目的实施将有助于在ENCODE等大数据中准确地预测全基因组的DNA调控元件,同时也可以对单个基因的表达调控机制和功能研究提供重要参考。

项目摘要

表观遗传调控作为细胞内一种重要的基因调控机制一直以来都受到研究人员的重视,而近年来ChIP-seq技术的逐步成熟则加速了表观遗传调控研究的进程。如何利用ChIP-seq数据准确预测DNA调控元件及其靶基因已成为表观遗传调控领域亟需解决的重要问题。已有的研究方法如CSI-ANN、ChromaGenSVM等仅关注表观遗传修饰的信号强度,忽视了信号的形状分布,造成预测准确性不高,迫切需要预测准确度高的新方法。本项目从统计学的基本假设出发,将随机变量概率分布统计量映射到信号峰的形状特征上,构建信号峰形状定量描述体系;并基于该体系利用机器学习方法对DNA调控元件进行预测及准确性评估。进一步,我们将利用多细胞系数据建立调控元件与基因之间的关联,明确其生物学功能。本项目的实施将有助于在ENCODE等大数据中准确地预测全基因组的DNA调控元件,同时也可以对单个基因的表达调控机制和功能研究提供重要参考。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

DNAgenie: accurate prediction of DNA-type-specific binding residues in protein sequences

DNAgenie: accurate prediction of DNA-type-specific binding residues in protein sequences

DOI:10.1093/bib/bbab336
发表时间:2021
2

神经退行性疾病发病机制的研究进展

神经退行性疾病发病机制的研究进展

DOI:
发表时间:2018
3

新型树启发式搜索算法的机器人路径规划

新型树启发式搜索算法的机器人路径规划

DOI:10.3778/j.issn.1002-8331.1903-0411
发表时间:2020
4

现代优化理论与应用

现代优化理论与应用

DOI:10.1360/SSM-2020-0035
发表时间:2020
5

MK-FSVM-SVDD: A Multiple Kernel-based Fuzzy SVM Model for Predicting DNA-binding Proteins via Support Vector Data Description

MK-FSVM-SVDD: A Multiple Kernel-based Fuzzy SVM Model for Predicting DNA-binding Proteins via Support Vector Data Description

DOI:10.2174/1574893615999200607173829
发表时间:2021

相似国自然基金

1

基于复合极值分布理论的重大灾害多要素联合概率预测及风险分析

批准号:41301583
批准年份:2013
负责人:刘雪琴
学科分类:D0716
资助金额:24.00
项目类别:青年科学基金项目
2

分形与序列复杂度方法在DNA调控元件预测中的应用

批准号:11671003
批准年份:2016
负责人:胡学海
学科分类:A0204
资助金额:48.00
项目类别:面上项目
3

基于高效预测模型的原核精细调控元件理性设计

批准号:31301017
批准年份:2013
负责人:蒙海林
学科分类:C0602
资助金额:25.00
项目类别:青年科学基金项目
4

基于Copula理论的库岸边坡变形预测模型及概率失稳判据

批准号:51809151
批准年份:2018
负责人:许晓亮
学科分类:E0905
资助金额:25.00
项目类别:青年科学基金项目