With the rapid development of next generation sequencing technology and the researches on microorganism, data and knowledge of microorganisms increased enormously, including genomic, metagenomics, metabolic and phylogenetic information. These data are distributed from different resources with various data formats. An integrated data platform is necessary for better understanding of biological knowledge from such growing heterogeneous data. As a result, we construct a microbial database using semantic web technology. We will describe information of gene, genome sequences, gene ontology, protein sequences and structures, pathway and enzyme in the form of Resource Description Framework (RDF) from a wide range of open data resources. In this database, physiological information of microbes from culture collections could be linked to the genomic information and further linked to the metabolic information which allows flexible queries across different domains. User-friendly interfaces of the database provide the ability to answer a number of microbial research related questions based on the linked data.
随着高通量测序技术的迅速发展和微生物领域研究的逐步深入,产生了大量的数据和知识,且以不同数据格式分布在各种数据库中。为了更好地支持微生物领域的相关研究,从各种分布式、异构的数据和知识中,进行数据提取与转换,并形成一个整合的数据平台就显得尤为重要。本研究将利用语义网技术,进行微生物多源异构数据关联规则的发现,从而建立一个微生物的整合型数据平台。该平台从各种开放的公共数据库,提取与微生物相关的基因、基因组、基因功能、蛋白质序列与结构、代谢途径、文献、专利等信息,利用RDF的方法,对数据进行转换,并建立数据之间的关联,实现数据整合,该研究将是目前在微生物领域以语义网方式进行系统整合的第一个数据库。在该平台中,实现了将微生物的物种、菌株层面的宏观信息与基因组、蛋白质、代谢与功能等微观层面信息的贯通,从而探索出对海量微生物数据进行关联关系表征,并系统整合的方法,实现基于关联数据的微生物的知识发现。
本研究通过三年的研究,研究计划进展顺利,针对微生物领域的实物资源与性状等宏观数据、基因组、宏基因组等组学数据、代谢途径和网络等功能数据,探索利用语义网技术,建立了一套不同来源、不同格式的数据整合的技术方法体系:包括梳理数据整合的实体,建立数据关联模型,利用标准化的本体对数据关联关系进行表征,并利用RDF三元组的方式进行描述。在此基础上,建立了一套微生物领域异构数据整合的方法体系和数据的标准化处理流程,建立了基于语义学关联数据的微生物领域数据平台,实现关联数据的可视化分析和知识挖掘。通过分析以微生物为核心的主要数据源和数据实体,建立了关联关系模型,对微生物的数据实体进行详细解析。系统研究领域本体构建方法,参考国际标准和已有的本体,明确微生物领域目标本体的知识范畴,并根据实体和属性关系,来建立一套完整的微生物核心数据描述本体。 依据建立的微生物核心数据本体和关联关系模型,通过RDF对不同数据来源和各式的数据进行处理,建立了一套基于语义学的微生物数据处理系统。建立了覆盖微生物领域超过15个异构数据源,超过30亿RDF三元组的整合型数据平台,gcType全球模式微生物基因组数据库,gcMeta 数据管理、数据分析和数据发表平台,对微生物领域科学家进行数据服务。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向领域本体的多源异构数据聚合和语义标注关键技术研究
基于粒计算的多源异构动态数据挖掘关键技术研究
基于多源异构数据的知识图谱补全及验证关键技术研究
基于隐语义分析的多源数据融合技术研究