Proteins that interact with nucleic acids take part in important biological activities in regulation of gene expression and transcriptional regulation. In order to understand the mechanism of nucleic acid-protein interaction at the protein side, most of the existing studies have analyzed DNA- or RNA-binding interfaces separately. Since proteins always interact with nucleic acids through their molecular surface, we will focus on the study of the distribution of features on the molecular surface of DNA- or RNA-binding proteins. To begin with, we propose to introduce 3D Zernike moments to calculate the geometrical shape, physicochemical and evolutionary properties of the residue surface on DNA- or RNA-binding proteins. We further systematically analyze whether there exists statistical difference between interfaces and non-interfaces on each type of the nucleic acid-binding proteins. Furthermore, we will apply the strategy of the meta-learning to effectively integrate the base classifiers based on the individual features derived from 3D Zernike moments, and the published predictors on the existing literature, for prediction of DNA- or RNA-binding residues on DNA- or RNA-binding proteins. Moreover, we will calculate the standardized Euclidean distance to quantificationally analyze and compare of the distribution of feature space between DNA-binding interfaces and RNA-binding interfaces. We believe that the project will further extrapolate the recognition mechanism of nucleic acid-protein interaction at the surface information of proteins. The prediction results of the classification models will be useful to guide the consequent work such as functional annotation and site directed mutagenesis on the two kinds of nucleic acid-binding proteins.
核酸结合蛋白参与了基因表达调控和转录调控等重要生命活动。为了从蛋白质方面理解核酸-蛋白质相互作用机制,大多数现有研究仍是孤立地分析与预测DNA或RNA结合蛋白的结合残基。由于蛋白质通过分子表面与核酸发生相互作用,本课题将重点研究DNA/RNA结合蛋白质分子表面上的特征分布。拟引入三维Zernike矩计算DNA/RNA结合蛋白的残基表面形状、理化和进化等特征,分析每类核酸结合蛋白中的结合界面与非结合界面在不同类型特征空间上的差异。然后,应用元学习策略有效地组合基于三维Zernike矩不同特征的单分类器和现有文献的已发表方法,预测DNA/RNA结合蛋白的结合残基。并且,计算标准化的欧式距离定量地分析与比较DNA/RNA两类结合界面表面特征空间上的异同。本课题研究将从蛋白质表面信息进一步揭示核酸-蛋白质相互识别机制,分类模型的预测结果会有助于核酸结合蛋白的功能注释、点突变实验设计。
蛋白质与核酸分子形成的低维度复合物,如DNA-蛋白质、RNA-蛋白质相互作用形成的复合蛋白质机器,在生物体细胞中参与了一系列重要的生命过程。分析和识别核酸-蛋白质结合界面热点残基成为研究核酸结合蛋白分子功能实现机制的基础。与此同时,核酸分子碱基的修饰包括假尿甘修饰(Pseudouridine)、RNA 5-甲基胞嘧啶(m5C)及N6-甲基腺嘌呤(N6-methyladenosine,m6A),这些修饰类型在许多生物学过程中起着重要作用,准确鉴定或预测RNA上碱基修饰位点也成为理解RNA分子的生物学功能的基础。本项目主要研究蛋白质-核酸相互作用界面残基丙氨酸突变效应数据集的构建,基于机器学习分类方法预测蛋白质-核酸界面热点残基,以及RNA分子中碱基的几种化学修饰位点(包括Pseudouridine、m5C和m6A)。其中,本项目构建的蛋白质-核酸相互作用界面残基丙氨酸突变定量结合效应的数据库、m6A修饰位点的基准数据集能促进进一步发展基于机器学习分类算法的预测方法。本项目开发的基于机器学习算法预测蛋白质-核酸界面热点残基,RNA中Pseudouridine、m5C修饰位点的分类算法都实现了对应的Web Server,此类在线工具的预测结果会有助于实验生物学家对核酸结合蛋白进行功能注释、点突变实验设计,以及理解RNA分子化学修饰的功能。
{{i.achievement_title}}
数据更新时间:2023-05-31
硬件木马:关键问题研究进展及新动向
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
高通量核酸、配体、蛋白质结合位点的差异性分析与特异化预测
基于结构与序列信息的蛋白质-配体结合位点的预测
基于新型机器学习方法的核酸-结合氨基酸位点的分析与预测
蛋白质核酸分子间非键作用强度的快速准确预测