Protein function prediction is one of the key challenges in Bioinformatics. Current predictive techniques often assume the functional annotations of the labeled proteins are complete without any missing. However, this assumption is not realistic. In this project, by taking into account the incomplete and noisy annotations, and integrating the biological knowledge of proteins with multi-label learning, we incorporate weak-label learning and partial-labels learning to design computational models to precisely replenish the missing annotations, to remove the noisy annotations and to predict completely unlabeled proteins. This project can provide reference information for the usage of protein function and drug design, pave the way for applying machine learning techniques for protein function prediction, guide the design of biological experiments, save the expense and boost the development of life science. In addition, the protein function prediction problem can be used to test the effectiveness of the proposed computational models, to improve the models, and hence to deepen and expend the research of multi-label learning and partial-labels learning. This project aims to: (1) propose multi-label weak-label learning algorithms, multi-label learning with relevant functions and irrelevant functions approaches, and multi-label learning with partial-labels methods for protein function prediction; (2) share the codes and datasets used in the models with research community, and apply the proposed algorithms to predict the protein functions of other species and to the general multi-label datasets; (3) publish 6-8 research papers on high-level journals and conferences.
蛋白质功能预测是生物信息学领域的关键问题。针对当前的预测方法通常假定已知蛋白质标注准确无缺失,不符合现实特征的缺点,本项目将蛋白质的领域信息与多标记学习相结合,考虑功能标注集合的缺失标注和噪声标注,结合弱标记学习和部分标记学习,探索能够有效去除噪声标记,精确补全蛋白质的缺失标记和预测其功能的计算方法,为蛋白质功能的利用、药物研发等提供参考信息,为机器学习方法在蛋白质功能预测中的应用奠定基础,指导相关生物实验,为其节省成本,推动生命科学研究的发展。同时,研究中通过生物学问题检验计算方法的效果,指导计算方法的改进,将推动多标记学习和部分标记学习研究进一步拓展和深化。本项目拟:(1)提出面向蛋白质功能预测的多标记弱标记学习方法、相关标记和不相关标记下多标记学习方法、多标记部分标记学习方法;(2)共享算法软件代码,推广应用到多物种蛋白质数据集和通用数据集上;(3)发表高水平期刊和会议论文6-8篇。
蛋白质功能预测是生物信息学领域的关键问题。针对当前的研究工作通常假定已知蛋白质标注准确无缺失,不符合现实特征的缺点,本项目考虑功能标注集合的缺失标注和噪声标注,通过多标记学习对蛋白质的多种领域信息进行建模表示,并重点研究了结合基因本体结构的弱标记学习,相关标注与不相关标注下的多标记学习方法,部分标注下的多标记学习方法。在本项目资助下,取得如下成果:(1)针对不完整标注下的蛋白质功能标注补充与预测问题,结合蛋白质新增功能标注的特点和基因本体结构,提出了多种弱标记学习方法对蛋白质的缺失标注进行有效补充和完全未标注功能的蛋白质进行全新功能预测。(2)针对相关标注和不相关标注下的蛋白质功能预测问题,设计了多种相关标注和不相关标注下多标记学习方法预测蛋白质的不相关功能标注和相关功能标注。(3)针对部分标注下的蛋白质功能预测问题,结合基因本体语义分析,功能标注的证据属性和稀疏表示设计了多标记偏标记学习方法对蛋白质的噪声功能标注进行有效识别。(4)提出多种基于多源数据集成的蛋白质功能预测方法、将研究成果拓展到疾病数据分析挖掘领域,并将算法研究成果泛化一般的多标记学习,验证了其通用性。.项目组共计发表(或录用)学术论文33篇,其中在Bioinformatics, IEEE/ACM Transactions on Computational Biology and Bioinformatics, BMC Bioinformatics, BMC Systems Biology,《中国科学-信息科学》,《软件学报》和《计算机研究与发展》等国内外主流期刊上发表论文31篇;在SIAM Conference on Data Mining(CCF推荐B类)和ICONIP(CCF推荐C类)国际会议上各发表论文1篇;共享多个算法模型代码和相关数据集给国内外同行使用,申请获批2项软件著作版权。结合本项目研究工作,培养硕士生9人,本科生2人。本项目对利用和设计机器学习方法预测蛋白质功能具有借鉴和指导作用,对基因本体结构数据处理分析和多源数据整合挖掘具有重要的理论意义,拓展并深化了计算机科学中多标记学习问题的研究与应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究
面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究
应用机器学习方法预测和分析蛋白质的结构柔性
基于多标记学习的蛋白质亚细胞多位置预测方法研究
蛋白质相互作用预测的集成学习方法研究