HIV蛋白酶(protese,PR)是治疗艾滋病的一个理想药物靶标,若能确定可被其剪切的八肽段即底物,将有助于生物学家筛选,可缩短药物的研究周期。经十几年研究,借助已知能否被HIV-PR剪切的八肽段数据,基于模式识别进行预测取得了显著成果。然而已有算法多基于特征提取,不易表征残基间耦合作用和空间结构信息。于是本项目提出定义生物相似度,借整体信息保留八肽段各自特点,避开特征提取的瓶颈,为寻找八肽段知识表达打开新思路。鉴于样本有限,本项目在统计学习理论下展开:定义八肽段生物相似度,借助流形学习获取样本内蕴结构,并基于SVM进行预测;融合特征提取和相似度两种知识表达,进行多源信息融合和分类器集成,进一步提高预测率;提取HIV-PR剪切八肽段及剪切难易的规则,结合生物理论完成从数据到知识的转变。本课题结合相似度和底物预测,为利用生物信息学推进艾滋病药物开发提供新思路,并将推动相似度理论的研究。
HIV蛋白酶(protese,PR)底物的预测属于生物信息学领域的范畴,该项工作可以推进艾滋病治疗药物的研究,指导生物实验从而缩短药物的研究周期。本项目通过建立高质量数据库,基于权威的氨基酸指数数据库(Amino Acid Index,AAindex)较为全面的建模八肽段,发展模式识别理论和方法实现了预期的预测工作,并总结预测结果获得了HIV-PR底物的位点及氨基酸预测的特性。研究成果主要包括:.第一,合并整理目前国际著名数据库,生成至今样本数最多且无冲突的高质量HIV-PR底物数据库,方便今后研究者继续开展此方面的研究;.第二,本项目获得了目前HIV-PR剪切位点预测研究的最好结果,该结果在EUC和MCC分类综合性能指标中都获得了理想的评价结果,相比目前最高的Nanni L获得的预测结果EUC为0.07,虽然本项目EUC为0.077,仅高0.07,但是得到了很高的MCC值。EUC虽然能够衡量一个分类器在不同分类阈值情况下的整体分类性能,但对于HIV-PR剪切位点预测,训练一个最优参数的分类器从而达到满意的预测能力才是关键。.第三,分析获得了HIV-PR底物位点及氨基酸残基的特性:1)原本八肽段的分析可以约简至六肽段; 2)位点的重要性并非简单递减,而是存在隔位耦合; 3)每个位点氨基酸的重要性存在区别。这些信息都能够为生物学家开发药物提供实质性指导。特别是其中八肽段至六肽段的结论将原始全域20(^8)=2.56*10(^10) 降至20(^6)=6.4*10(^7) ,使得问题规模得到了大幅度降低,这对应于减少生物实验代价也非常明显。.第四,在模式识别理论方法中获得了一些进展:首次提出基于冗余特征的学习,不同于以往特征子集元素各不相同的约束,本项目肯定了冗余特征的效果并将这一发现结合SVM分类器提出借助冗余特征的DFSVM分类,该方法不但能够实现无效特征的剔除更能够加强有效特征对分类的贡献。而且本项目在特征降维、分类预测、相似度学习和二类中一类具备特殊相似性的特殊类相似学习等一系列研究丰富了模式识别理论研究。.综上所述,本项目实现了HIV蛋白酶(protese,PR)底物预测的目标,并丰富了模式识别理论的发展,实现了最初理论及应用层面的目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
拥堵路网交通流均衡分配模型
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
基于深度学习的句子相似度计算研究
建筑结构体系可靠度决策.预测和最优分配
基于序列和结构特征的人类蛋白酶底物裂解的生物信息学研究
基于复杂网络的中文文本语义相似度研究