Genome replication and gene transcription are two essential biological processes. They are extremely important for maintaining the activity of life. The abnormity of replication and transcription can deduce a series of human diseases. However, there is still lack of understanding the regulatory mechanism of the two processes. It is necessary to study the replication and transcription in human genome by using computational approaches. In this project, based on our previous studies in the field of replication and transcription, we will investigate the function of epigenetics and long-range correlation information in the regulation of human DNA replication and gene transcription. The express specificities of the different features in human genome will be investigated by using information theory and statistical test method. Moreover, we will develop various prediction algorithms and construct efficient soft tools to accurately identify the replication origin region and transcription start site in human genome. Finally, we will construct replication/transcription couple regulated network based on epigenetics and long-range correlation information. The regulatory mechanisms and causality will be revealed by studying the topology and dynamics characteristics of network. On the basis of above studies, the regulatory roles of epigenetics and long-range correlation in replication and transcription will be elucidated, which will push the study of replication and transcription in human genome.
基因组复制和转录是两个相互偶联的基本生物学过程,是维持正常生命活动的必备条件。复制和转录的异常都会引起多种疾病的发生,然而对这两个过程发生的调控原理尚不清晰。借助计算的方法系统研究人类基因组复制/转录的调控机制势在必行。本项目将在我们前期对复制/转录的研究基础上,采用关联分析方法研究人类基因组复制/转录受表观遗传信息和序列、结构的长程互作的调控;并利用信息论原理和统计检验方法研究各种信息在复制/转录中的特异性;进而,发展高效机器学习算法,构建高精度的人类基因组复制起始点和转录起始点的预测模型,建立一套高效简洁的识别软件;最后,基于表观遗传信息和长程互作信息,构建复制/转录的偶联调控网络,对网络进行拓扑学分析和动力学分析,阐明这些信息在复制/转录中的共调控机制和因果关系。通过以上研究,力图阐明表观遗传信息和序列、结构的长程关联信息对复制/转录的调控机制,推进人类基因组复制/转录的研究。
基因组复制和转录是两个相互偶联的基本生物学过程,是维持正常生命活动的必备条件,然而对这两个过程发生的调控原理尚不清晰。借助计算的方法系统研究人类基因组复制/转录的调控机制势在必行。本项目从序列模体特征和表观遗传信息角度,揭示基因组复制起始和转录起始区的调控机制,发现复制/转录的细胞和物种特异性;进而,建立高灵敏性、特异性的ORI 和TSS 识别模型,开发高效简洁的在线服务平台;最终,基于表观遗传信息和长程互作信息,阐明ORI 和TSS 的调控机理和关系,推进基因组复制/转录的机制研究。.经过课题组四年的努力,项目组取得的主要成果有:.(1)构建了全面的基因组ORI相关基准数据集,对序列的功能模体分析,发现了物种特异性和细胞特异性的模体一致性序列;进而利用k联体组分和碱基的二进制编码来编码复制起始位点序列,利用支持向量机来构建预测模型,获得了高精度、鲁棒的预测模型,并且,我们开发了在线预测服务iORI-Euk(http://lin-group.cn/server/iORI-Euk/);.(2)基于伪计数的位置特异性打分矩阵和伪核苷酸组分特征,我们构建了多物种基因组转录起始位点预测模型,AUC值均超过0.97,跨物种预测显示出转录的物种特异性;鉴于以上模型优秀的预测性能,我们构建了免费在线服务iProEP(http://lin-group.cn/server/iProEP/);鉴于启动子具有的物种特异性,我们构建了世界上第一个专门针对原核生物的启动子序列数据库PPD(http://lin-group.cn/database/ppd/index.php);.(3)对表观遗传信息和转录因子结合位点在ORI和TSS附近分布的分析显示,复制和转录之间存在时序关系,较少的TF可以参与更多的生物过程以提高效率,哺乳动物细胞采用一种极其复杂和多层的共同调节机制,以高度协调的方式进行复制和转录。基于转录因子和组蛋白修饰的随机森林(RF)分类器,对ORI的预测精度AUC为0.9033;.(4)我们针对DNA、RNA的修饰,基因组的DNase超敏位点,DNA和蛋白质的相互作用,等问题也进行了模型构建,为进一步的ORI和TSS研究提供帮助。.这些成果发表在Briefings in Bioinformatics、Bioinformatics等多个生物信息学顶级期刊,11篇论文入选高被引论文。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
农超对接模式中利益分配问题研究
转录组与代谢联合解析红花槭叶片中青素苷变化机制
基于细粒度词表示的命名实体识别研究
基于DNA序列、结构及表观遗传信息的酵母复制起始位点的预测与实验研究
基于结构和表观遗传信息的基因选择性剪接位点识别
基于表观遗传信息的可变剪接位点识别及其调控机制的研究
极端嗜盐古菌多复制起始位点的利用机制