With the breakthrough of modern high throughput technologies, enormous amounts of protein data have been generated and will continue to increase exponentially. Large-scale, multi-sources and heterogeneous have been the intrinsic characteristics of current protein data. In this project, we will systematically carry out research on protein data mining models and methods based on the thorough evaluation on the characteristics of protein data and bottlenecks of the existing mining models. Our major research topics include: (1) to effectively deal with the large-scale and ever-increasing characteristic of protein data, we will propose new mining framework by fusing incremental and ensemble learning; (2) to deal with the multi-sources and heterogeneous characteristics of protein data, we will propose new transfer learning models at three different levels, (3) we will enhance the efficacy of deep learning model by introducing new model initialization and regularization methods, (4) based on the theoretical research results, we will design online protein data mining platform, which can provide user friendly interface to the experimental scientists, and (5) we will also investigate the proposed mining methods on three typical mining cases. Further, we will apply the theoretical mining algorithms to reveal the key pathogenic protein of chronic obstructive pulmonary disease (COPD). The research of this project will enrich the contents of protein data mining research area under the new situation and construct new theoretical mining protocols and approaches.
随着现代高通量数据获取技术的不断突破,大规模、多源、异质已经成为当前蛋白质数据所固有的特性。本项目针对蛋白质数据的上述三个基本特性,在分析现有挖掘模型所存在的不足和瓶颈基础上,展开相关研究,以进一步提高蛋白质数据挖掘模型和方法的性能。具体内容包括:(1) 研究融合增量与集成学习的挖掘模型框架,以应对蛋白质数据的大规模及持续增长特性;(2) 研究三种不同层次的迁移挖掘模型,以有效处理蛋白质数据的多源、异质特性;(3) 研究基于蛋白质先验知识的深度网络模型初始化及正则化方法,以提高模型的挖掘精度和泛化能力;(4) 基于以上成果,设计并实现大规模多源异质蛋白质数据挖掘平台;(5) 在三个典型案例上分别验证所提挖掘模型的有效性,并在慢性阻塞性肺病致病蛋白挖掘问题上进行生物学验证。本项目的研究是对新形势下蛋白质数据挖掘领域的丰富与拓展,有望形成系统性、针对性强的蛋白质数据挖掘新理论和新方法。
现代蛋白质数据呈现出大规模、多源以及异质这三大特性。因此,如何对复杂的蛋白质数据进行高效地挖掘就有着迫切的需求。本项目针对蛋白质数据的上述三个基本特性,在分析现有挖掘模型所存在的不足和瓶颈基础上,展开了相关研究,进一步提高了蛋白质数据挖掘模型和方法的性能。本项目完成的研究内容主要包括几个方面:(1) 提出了融合增量与集成学习的挖掘模型框架。该框架针对蛋白质数据不同的分布特性,在不同的分布空间上,应用不同的增量挖掘子模型,并使用集成策略将这些增量挖掘子模型进行集成,从而得到最终的挖掘模型;(2) 在跨蛋白质数据类型 (Cross-data)、跨蛋白质数据层次 (Cross-level)以及跨蛋白质数据所属物种(Cross-species)上展开了迁移挖掘模型算法的研究;(3 ) 展开了深度网络模型初始化及正则化方法的研究,并深入探讨了深度网络模型的可视化及可解释性;(4) 设计并实现大规模多源异质蛋白质数据挖掘平台,并在平台上部署了多个蛋白质数据挖掘算法,供相关研究人员使用;(5) 在蛋白质功能挖掘、蛋白质翻译后修饰位点挖掘以及蛋白质接触图挖掘这三个问题进行了案例研究,并在慢性阻塞性肺病致病蛋白挖掘问题上进行生物学验证。项目组在包括Bioinformatics、Briefings in Bioinformatics等领域国际主流期刊已发正式发表SCI/SCIE收录论文43篇;项目实施期间,授权国家发明专利5件,申请国家发明专利4件,授权软件著作权5件;设计并实现大规模多源异质蛋白质数据挖掘平台,部署了21个在线计算WEB应用或是相应代码,为国内外研究人员提供计算服务。本项目的研究成果进一步拓展了蛋白质数据挖掘预测方法的可靠性和实用性,达到了设定的研究目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
时空数据挖掘中若干关键问题研究
利用多源卫星测高数据分析海潮研究中的若干关键问题
多源异构数据中的攻击关联模式挖掘方法研究
大规模图像检索中多源异质视觉特征的学习与表达