Protein subcellular multi-locations prediction is an emerging and important research direction in bioinformatics. Traditional machine learning methods are difficult to deal with proteins with multiple subcellular locations. This research subject will deeply analyze the characteristics of the multi-location protein data and study new protein subcellular multi-locations prediction methods for improving the performance of prediction by using multi-label learning approaches. Firstly, a new denoising method is proposed, which could revise the noise of relevant features and thus reduce the influence of noise on modeling effect. Secondly, an optimal multi-label ensemble algorithm is proposed, which could fuse the multi-source features of protein data and thus improve protein subcellular multi-locations prediction performance. Thirdly, in combination with semi-supervised learning, an inductive semi-supervised multi-label algorithm is proposed, which could utilize a large amount of proteins without subcellular localization annotation to aid training and thus improve prediction performance in the case of insufficient labeled proteins. Finally, the online service platform of protein subcellular multi-locations prediction will be built for researchers based on the above research results. This research subject will greatly improve the effect of protein subcellular multi-locations prediction, and provide new ideas, methods and platforms for the field.
蛋白质亚细胞多位置预测是生物信息学中的新兴重要研究方向。传统的两类或多类机器学习方法很难适应蛋白质同时拥有多个亚细胞位置的新情况。本课题拟从多位置蛋白质数据的特点入手,以提高预测性能为目标,以多标记学习为主要技术手段,研究新的亚细胞多位置预测方法。首先,提出蛋白质数据的关键特征去噪方法,减少噪声对建模效果的影响;其次,引入集成学习技术,提出融合多源特征的最优多标记集成算法,提高多源蛋白质数据的亚细胞多位置预测性能;再次,结合半监督学习,提出利用无位置标注蛋白质的归纳式半监督多标记算法,提高少量标注情况下的亚细胞多位置预测性能;最后,基于上述研究成果,构建在线蛋白质亚细胞多位置预测服务平台,为领域研究人员服务。本课题研究将极大地提升蛋白质亚细胞多位置预测的效果,同时为该领域的研究提供新的思路、方法和平台。
本项目针对蛋白质亚细胞多位置计算预测中的若干关键科学问题展开深入研究,获得主要研究成果如下:1)构建两个全新的蛋白质亚细胞多位置预测数据集,多位置蛋白质亚叶绿体数据集和多位置细胞凋亡蛋白质数据集;2)提出结合标记相关特征和标记间关系的亚细胞多位置预测方法,提出基于集成学习和GO本体特征的多标记集成预测方法,提出利用亚细胞位置相关特征的凋亡蛋白质多位置预测方法;3)针对缺失数据补全问题,提出基于全局和局部信息的递归互补全算法,针对优化计算问题,提出基于组合重组和改进超变异算子的克隆选择算法。成果已开发为生物信息在线预测服务平台,为生物学家提供服务和帮助,推动该领域研究的发展。项目组在Bioinformatics、BMC Genomics 、BMC Bioinformatics 、BioMed Research International等国内外权威刊物上发表论文11篇,其中SCI 收录8 篇,获得国家发明专利1 项。研究团队获得河南省科技进步二等奖。上述研究成果,对蛋白质亚细胞定位预测的发展和应用提供了基本理论和技术基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于LASSO-SVMR模型城市生活需水量的预测
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向蛋白质功能预测的多标记学习方法研究与应用
基于深度迁移学习的微拟球藻蛋白质亚细胞定位预测方法研究
基于多源信息融合的蛋白质亚细胞定位预测算法研究
基于特征学习和标记关联的多标记学习算法研究