基于果蝇piRNA大数据挖掘的基因调控机制研究

基本信息
批准号:61802256
项目类别:青年科学基金项目
资助金额:26.00
负责人:涂仕奎
学科分类:
依托单位:上海交通大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:臧思聪,吕晋雄,庞健辉,郭昱泽,邢智皓,杨浩特
关键词:
生物信息学生物信息分析生物分子网络高通量数据
结项摘要

As the sequencing technology advances and its cost decreases, the amount of biological sequencing data grows exponentially, which makes computational methods more challenging to systematically mining and integrate multi-source heterogeneous data. This project aims at a series of systematic, biologically plausible piRNA big data analyzing methods, to study the biogenesis and regulation mechanism of Drosophila piRNA system, by network structure learning, introducing known biological knowledge as prior constraints, and multi-view data fusion. piRNA is a genome defense system, and it represses the jumping activity of transposon elements to prevent DNA from breakage which may lead to diseases. The project consists of three parts. First, we model the biogenesis and functioning pathway by Bayesian networks, based on the RNA sequencing data of piRNA related protein mutants. Second, we develop methods for Bayesian network structure learning with constraints induced from biological knowledge and available results, as well as parallel implementation, in order to reduce the structure-searching time and space during learning. Third, we develop methods to integrate multi-source heterogeneous data into network structure learning, for enhanced prediction capacity. To summarize, our final purpose is to build a new unified, data-driven, and knowledge-driven modeling and analysis method, which could delineate the Drosophila piRNA biological regulation system. The research in the project is able to provide new insights into piRNA regulation mechanism, discover new functions, significantly lower costs for a lot of biological experiments, speed up the biological research, and build the computational foundation for studying human piRNA related diseases and drugs in the future.

生物数据急速增长,对分析方法的系统性、多源异质数据融合提出了新的挑战。本项目面向果蝇piRNA大数据,从网络结构学习、引入生物知识指导、多源数据融合三个方面,研究果蝇piRNA的调控机制,形成一套系统的、生物可解释性强的piRNA大数据分析方法。具体地,我们通过果蝇piRNA相关蛋白突变的大数据,使用贝叶斯网络结构学习piRNA的产生和调控机制;为了得到更优的网络结构,将生物学先验知识转化为拓扑结构限制,研究知识指导的带约束结构学习方法及其并行算法以降低计算时间;为了提升模型的预测能力,发展能融合多源异质数据的网络结构学习方法。通过以上研究,最终目的是建立统一的数据驱动与知识指导的建模和分析新方法,解析果蝇piRNA调控系统的特征和功能。本研究有望提供piRNA作用机制的新理解,发现新功能,节约大量实验经费,加速实验突破,为研究人类piRNA相关疾病和药物打下基础。

项目摘要

piRNA是在动物性腺中发现的一类长度在20-30碱基之间的非蛋白编码RNA。piRNA从首次被发现至今,持续得到学术界的高度重视,在2006年被《Science》评为十大科学进展之一。piRNA可沉默转座子和其他重复元件、保护生殖细胞基因组免于因转座子运动导致的双链DNA断裂,从而潜在地避免基因突变引起的遗传性疾病和癌症。本项目面向piRNA大数据,从网络结构学习、引入生物知识指导、多源数据融合三个方面,应对生物数据急速增长下对分析方法的系统性、多源异质数据融合提出的新挑战。为此,我们提出了一套面向piRNA相关蛋白突变数据的贝叶斯网络结构学习方法,用贝叶斯网的上下游关系来建模,每个变量的观察数据则为piRNA产量的变化或者转座子活跃量的变化。该方法可以准确地从数据中学习预测piRNA的产生和调控机制,可以将生物学先验知识转化为拓扑结构限制融合到学习过程中,可以融合多源异质数据提高预测的置信度。通过最大似然准则和BIC模型选择,我们的方法能够准确地刻画piRNA核心通路中4个蛋白(Uap56、Vasa、Aub、Ago3)上下游关系,与已有的生物学数据一致;同时,可以对整个通路提出预测,特别是对局部3~4个蛋白间的关系得到高置信度解析,发现蛋白新功能,节约大量实验经费,加速实验突破。在对piRNA机制研究的基础上,我们与合作者一起建立了piRTarBase,搜集了超过100万个目标位点,覆盖了超过2万多个基因、3万多转录本。其中,由我们前期的Science论文中严格匹配准则所预测的位点有57万个,松弛约束的匹配准则预测的位点有140万个,CLASH数据确定的有1万多个(含904个严格预测位点、2273个松弛预测位点)。piRTarBase还根据搜集的mRNA测序数据计算了含目标位点基因的表达量,以及对应的22G-RNA的产生量,从而可以评估目标位点的调控强度和显著性。综上,本项目提出的piRNA贝叶斯网模型、piRTarBase数据库,辅助揭示了piRNA的产生和调控机制,为RNA治疗提供线索,为研究人类piRNA相关疾病和药物打下基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
4

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
5

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021

涂仕奎的其他基金

相似国自然基金

1

果蝇转座元件和piRNA之间的基因组冲突及对杂交不育的影响

批准号:91431101
批准年份:2014
负责人:陆剑
学科分类:C0402
资助金额:120.00
项目类别:重大研究计划
2

piRNA调控长非编码RNA以及piRNA调控网络的构建

批准号:31871294
批准年份:2018
负责人:何顺民
学科分类:C0602
资助金额:60.00
项目类别:面上项目
3

3D基因表达数据中负相关模式的挖掘及基因调控机制的推导

批准号:60970063
批准年份:2009
负责人:刘娟
学科分类:F0213
资助金额:30.00
项目类别:面上项目
4

果蝇pygo基因调控心脏衰老的分子机制研究

批准号:81370451
批准年份:2013
负责人:袁婺洲
学科分类:H1901
资助金额:70.00
项目类别:面上项目