Manually extracting metabolic networks from the scientific literatures costs tremendous efforts, which hinders the advances in biomedical research. The project aims to mitigate the situation by extracting metabolic pathways via bio-text-mining. Firstly, the project will design a standardized representation of metabolic networks based on the Systems Biology theories. The representation would be able to present multi-type of biochemical entities and reactions in different temporal granularities. Based on the previous works of the bio-event extraction, co-reference resolution and biochemical ontology, the project proposes a novel set of theories and methods to computationally measure semantic similarities between bio-events. The measurement supports the normalization of different bio-events and the merging of pathways. A novel method of extracting metabolic pathways will be proposed base on the standardized representation and semantic similarity measurement. The method will able to extract biologically meaningful representations of metabolic pathways with time sequence and directionality from texts. An application system, which integrates the work and the group’s existing works including BioModels, PCorral and LitWay, will be developed and provided to the biological and bioinformatics experts in the team. It will be evaluated against BioModels and other manually curated metabolic pathways, such as Reactome. The work is a step toward the third and the fourth phases of the “entity-reaction-network-model” structuration of the scientific literature, while most existing works are focusing on the second one. The project outcome is extremely valuable and helpful for investigating, for example, molecular functions in biological and pharmaceutical studies.
针对生物医学研究所面临的“人工构建代谢通路模型代价大、效率低”这一普遍问题,本项目首先基于系统生物学理论,设计代谢通路的形式化表示,解决多层次多粒度代谢通路及实体和反应的形式化表示和量化定义;其次,结合实体关系抽取、指代消解和生物信息本体,提出计算不同的生化反应之间语义相似度的理论与方法,解决生化反应融合问题;然后,以代谢通路的统一形式化表示、多层次多粒度生化反应融合等为基础,研究代谢通路模型的构建方法,自动从海量文本中提取具有时序性、方向性的具备生物意义的代谢通路。所提建模方法及相关算法将结合课题组在该领域已有成果(通路模型标准及系统BioModels、生化反应提取算法PCorral和LitWay等)形成应用系统,并以人工构建代谢通路为依照进行测试验证。本研究将有助于实现生物医学文献的“实体—反应—网络—模型”的领域知识结构化,提升分子功能及调控关系研究等一系列重要生物医学分析的效率。
代谢通路是支撑生命延续的生化反应网络,是药物研发、疾病诊断等重大应用的研究基础。本项目针对生物医学研究所面临的“人工构建通路模型代价大、效率低”这一普遍问题,研究基于语义关系抽取、语义相似度分析、指代消解的生化反应融合与通路模型构建方法,形成代谢通路自动构建的理论与模型,从海量生物医学文献与临床试验的数据中自动构建面向生物医学领域的代谢通路图谱,实现针对生物医学文献的一种“实体—反应—网络—模型”领域知识结构化处理,提升生物医学研究效率。目前在生物医学研究中得到广泛使用、具有重大研究价值的 BioModels、Reactome、KEGG等通路数据库均由人工阅读文献后手工构建,有模型规模小、构建效率低、人工成本高、可扩展性差等缺点。因此,研究从海量生物医学文本数据中自动构建代谢通路是当务之急。.本项目针对目前研究中普遍使用的实体识别、句法分析无法构建代谢通路模型这一现状,面向生化反应融合、代谢通路相似度计算,提出了基于语义分析、指代消解、转喻预测的理论和方法,从而实现了代谢通路模型构建。共开展了以下三项研究内容:代谢通路的统一形式化表示;多层次多粒度生化反应融合;代谢通路相似度计算及模型构建。.本项目首先完成了对代谢通路及相关生化反应的属性及特点的分析,建立了包含时序信息和主从属性的反应实体、生化反应和活动语义模型,并实现了形式化表示和量化定义。其次完成了对基于分子、反应和通路三个层次的、多粒度的相似度量化预测模型的研究,并在研究基础上提出了模型,实现了从表型、有机体等多个维度进行相似度计算的服务模块,实现了多层级、多粒度的生化反应融合。最终利用多层次多粒度生化反应融合及通路相似度计算,实现了代谢通路的构建,基于通路的形式化表示,提出了代谢通路模型的构建方法,并将非结构化科技文献转化为了能够直接支持生物医学分子功能研究的结构化代谢通路模型,并在 MEDLINE 与 BioModels 上完成了应用验证。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于文本和Web语义分析的智能咨询服务研究
面向文本推理的汉语语义计算模型研究
文本语义模型和子空间聚类研究
基于语义分析的汉语文本错误自动侦测与纠错方法