The research on protein binding residues is one of the National Key Research and Development Programs of China. The research on protein interaction sites provides informative clues to disease diagnosis and drug design. Recent methods lacked the analysis and discussion about the differences across single or/and multiple nucleic acids, small ligands, and protein interaction sites. They were also trapped into the widely existed cross-prediction problems. Therefore, this study focuses on investigating these aspects, proposing novel predictors for identification of specific binding sites. First, we collect nucleic acids, ligands and proteins binding chains, and maps them onto the corresponding complete protein sequence. Based on the precompiled benchmark datasets, we analysis the differences across general binding, nonbinding, various binding, single-binding and multi-binding sites. Next, we investigate the reasons of widely existed cross-prediction errors, the measurements of evaluating these errors, and the solutions of avoiding them. We introduce multi-class cost-sensitive ensemble learning strategy incorporating high true negative rate filters to construct the specific prediction model. Finally, the prediction web platform or offline software will be developed to provide efficient tools for biology scientists.
解决蛋白质结合位点是国家重点研发计划专项。蛋白质结合位点的研究给疾病诊断、病理分析和药物设计提供了重要的线索。现有方法缺乏对于核酸、配体、蛋白质单结合和多结合位点差异性的分析和讨论,且普遍存在交叉预测错误问题。因此,本研究将针对这些方面展开重点研究,同时开发能够特异化识别不同类型结合位点的高通量预测工具。首先,收集核酸、配体、蛋白质结合链,并将其映射到完整的蛋白质序列上。在完备数据集上,分析结合位点与非结合位点、不同类型结合位点、单结合与多结合位点在多种属性上的差异。其次,区别分析假阳性结果中的交叉预测错误和过量预测错误,并制定评价标准。基于此,本研究引入多分类代价敏感性集成学习策略并结合高真阴率过滤器构建关于结合位点的特异化预测模型。最后,根据该方法开发在线分析预测平台及离线软件包,为生物学家提供便捷有效的计算工具。
蛋白质是生物体内重要的生物大分子,作为生命活动的主要承担者参与细胞完整周期的各个过程。绝大多数蛋白质通过与核酸、小分子配体以及其它蛋白质发生相互作用,共同进行复杂的生命活动。本研究从蛋白质、核酸以及配体结合位点的问题结构出发,集中分析探讨了不同类型的结合位点在生物物理、生物化学属性上的差异,并在此基础上构建高通量基于计算的模型用于特异性识别不同类型的结合位点。主要完成的成果如下:针对特异性识别蛋白质结合位点问题,引入双层模型设计,在有效降低交叉预测错误和过量预测错误的前提下,实现对于蛋白质结合位点的精准识别;综合分析对比基于结构注释和本征无序态注释的蛋白质结合位点数据,建立基于经验的融合策略,将两种不同类型的方法有机整合,实现在两种不同注释类型的数据上的有效预测;针对单链DNA和双链DNA两种不同类型的DNA结合位点,设计开发能够有效区分A-DNA,B-DNA以及ssDNA结合位点的预测工具。通过有效降低交叉错误预测率,实现预测结果中对于蛋白质、小分子配体以及其它不同类型的DNA结合位点的正确识别。基于上述成果,发表学术论文8篇,均被SCI检索。这些期刊包括影响因子超过10的期刊论文1篇,学科顶级期刊论文3篇。申请发明专利3项,其中授权2项,实质审查1项。协助培养在读博士研究生2名,培养硕士研究生2名,协助培养硕士研究生3名。
{{i.achievement_title}}
数据更新时间:2023-05-31
城市生活垃圾热值的特征变量选择方法及预测建模
陆地棉无绒突变体miRNA的鉴定及其靶标基因分析
油源断裂输导和遮挡配置油气成藏有利部位预测方法及其应用
IV型限制酶ScoMcrA中SRA结构域介导的二聚体化对硫结合结构域功能的影响机制
空中交通延误预测研究综述
基于结构与序列信息的蛋白质-配体结合位点的预测
基于几何算法与机器学习的反向配体结合位点预测
基于新型机器学习方法的核酸-结合氨基酸位点的分析与预测
蛋白质相互作用及结合位点的预测方法研究