Gene regulatory networks (GRNs) are a multi-layer complex physiological process and one of the most important means to understand the function of genes. With the development of high-throughput sequencing technology, it has produced massive genomics data. How to deeply study the method of GRNs and its biological significance with integrates high-throughput data has become the hot and difficult current research. According to the characteristics of high-throughput data, based on the deep learning technology, we try to carry out some specific research: (1) To effectively reduce the high false positive rate in the existing prediction algorithm, we will present a higher accuracy transcription factor binding site prediction algorithm with the convolution neural network and the recurrent neural network method. (2) We try to propose new GRNs algorithm based on the multimodal deep learning method and integration with gene expression data, transcription factor binding site, histone modification and protein interaction. (3) We will analysis the important biomarkers with the disease based on the cancer genome data and proposed algorithm, to explore the molecular mechanism of disease. This project will provide new research methods and ideas for systems biology and computational biology and also will advance our understanding and research on the mechanisms of gene regulation of complex diseases.
基因调控网络是一个多层次复杂的生理过程,是理解基因功能的最重要手段之一。随着高通量测序技术发展,产生了海量的基因组学数据,如何进一步整合高通量数据,深入研究基因调控层次网络构建方法及其生物学意义,成为了当前研究的热点与难点。针对高通量数据的各自特点,基于深度学习方法,本项目拟研究:(1)基于卷积神经网络和递归神经网络方法,提出一种准确度更高的转录因子结合位点预测算法,有效降低现有预测算法中普遍存在假阳性率偏高的问题;(2)基于多模态深度学习方法,结合基因表达、转录因子结合位点、组蛋白修饰和蛋白质相互作用等数据,提出一种新的基因调控层次网络构建算法,并分析各组学数据对网络构建的影响;(3)基于癌症基因组数据和所提出的网络构建算法,挖掘疾病关联的重要生物标记,探索疾病分子机理。本项目将为系统生物学和计算生物学领域提供新的研究方法和思路,并将推进我们对复杂疾病的基因调控机制的深入理解和研究。
基因调控网络构建是生物网络研究的重要组成部分,对从本质上认识基因的功能和生命活动机理,为疾病的治疗和相关药物的研发具有重要的作用。按照项目计划,通过基于高通量数据和深度学习在基因调控层次网络构建中的理论和方法,提出了一种结合卷积神经网络和长短时记忆神经网络混合的深度学习模型预测DNA-蛋白质结合位点,提升了转录因子结合位点的识别准确率。针对生物信息数据中的不平衡问题,提出了一种结合皮尔逊相关系数的最大相关最小冗余监督学习算法,挑选生物信息数据中负样本的伪负样本问题,提升了数据的分类效果。此外,通过ADASYN对正样本的过采样和Bootstrap对负样本的欠采样策略,提出了一种解决DNA-蛋白质结合位点中不平衡分类问题。基于规则化随机森林算法和多数据融合策略,探讨了基因调控网络的构建和肌肉浸润性膀胱癌亚型基因调控网络分析。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
跨社交网络用户对齐技术综述
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
深度学习在江门中微子实验顶点重建中的应用
基于高通量数据的基因调控网络构建模型和方法研究
深度学习技术在BESIII的应用研究
半监督深度学习算法及其在时序数据预测上的应用研究