Research on the struture,function and localization information of protein has become a hot-spot in biology information field. Prediction of protein-protein binding site is important to pharmacology.The protentail target of drug can be detected via prediction of binding site. But it is high cost, long span and even hard to some current techology for biological experimental approaches.However, with the development of information technology, it is accessible to this problem by machine learning methods. The prediction of protein-protein binding site is a typical classification of imbalance dataset. The project exploits the advantage of ensemble learning such as novelty,good generalization,combining with the imbalance resample technique and selection strategy, to engender the diverse and accurate component learners used by ensemble learning via utilizing sequence features and structure features of protein.It is possible to further impove the prediction accuracy of protein-protein binding site based on the proposed method.The proposed model will be significative for computer-aided drug discovery to some extent.
研究蛋白质功能、结构和定位信息已经成为生物信息学的一个研究热点,其中蛋白质-蛋白质结合位点的预测对于药理学具有重大意义,通过预测结合位点可以为药物设计找到准确的靶点。但是通过生物实验的方法确定结合位点除了受本身的技术限制之外,往往成本较高,且费时费力。随着信息技术的发展,使得基于机器学习的方法成为可能。蛋白质-蛋白质结合位点预测是一个典型的非平衡数据集的分类问题。本项目利用机器学习中集成学习算法鲁棒性强,泛化能力好的优点,利用非平衡采样技巧和选择性集成策略,融合蛋白质的序列特征和结构特征,构造具有一定差异性和准确性的集成学习所需个体,从而进一步提高蛋白质-蛋白质结合位点预测精度。此概念模型对于计算机辅助药物设计具有一定的指导意义。
项目基于蛋白质的物理化学特性和氨基酸的统计特性,在集成学习框架下对蛋白质交互和结合位点进行预测。在此基础了对蛋白质功能位点特别是翻译后修饰位点预测进行了进一步的研究。利用蛋白质的物理化学特性和氨基酸的位置统计特性,将蛋白质序列转换成数字序列,利用数学工具如小波变换对数字序列进行分解,然后进行特征提取,能将许多隐含在长而复杂的生物序列中的特征表现出来。提取的特征作为蛋白质伪氨基酸成分能很好描述蛋白质序列或片段的特征。同时设计了一种基于统计特性的耦合特征来对蛋白质片段进行描述,并将此特征应用到蛋白质翻译后修饰问题。本项目设计了多种集成学习框架,研究了蛋白质序列的自动分类技术,挖据蛋白质序列特征和蛋白质功能位点之间的关系。项目的研究结果对计算机辅助药物设计具有一定的指导意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
EBPR工艺运行效果的主要影响因素及研究现状
外泌体在胃癌转移中作用机制的研究进展
珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征
猪链球菌生物被膜形成的耐药机制
基于多色集合理论的医院异常工作流处理建模
蛋白质相互作用及结合位点的预测方法研究
基于深度学习方法预测蛋白质翻译后修饰位点
蛋白质功能位点预测方法的研究
蛋白质与蛋白质的结合位点结构比对方法研究