基于多源数据融合的基因本体扩展方法研究

基本信息
批准号:61702421
项目类别:青年科学基金项目
资助金额:26.00
负责人:彭佳杰
学科分类:
依托单位:西北工业大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:殷知磊,卢俊雅,田凯飞,惠薇薇,李倩倩
关键词:
生物信息学基因本体系统生物学功能预测
结项摘要

Gene Ontology (GO) is one of the most popular biomedical ontologies. It is an important resource in the research field of bioinformatics and biology. To make the description precisely, GO has to be extended with the increase of research outcome to maintain the consistency with data and knowledge. Currently, GO is extended manually by GO consortium and experts based on literature. However, with the increase of diversity and size of biological data, the manual way cannot extend GO promptly and precisely. Based on a comprehensive survey on the challenge and existing methods for GO extension, we propose a novel method based on the integration of multiple data sources. A multiple-level integration clustering model is proposed to identify new GO terms. A new model is also proposed to discover the relation between terms based on the annotation set comparison. The proposed model can extend GO effectively by integrating multiple sources of data and avoid the inaccuracy and inconsistency resulting from the sole data source. The idea and method of this project will provide important clues for extending GO.

基因本体(Gene Ontology)是生物医学领域应用最广泛的本体之一,是生物医学数据分析的重要工具。随着新的研究结果产生,基因本体需要及时扩展,保持与数据、知识的一致性,以保证其描述信息的准确性。多年来,基因本体扩展工作主要由基因本体联盟与领域专家合作,基于科学文献,以人工方式完成。然而,随着生命科学领域数据的快速增长和日趋多样化,以人工为主的劳动密集型方法已远远不能满足基因本体及时扩展的需求。在对基因本体扩展面临的挑战及现有扩展方法进行了系统的分析和总结后,本课题拟提出基于多源数据融合的基因本体扩展方法,利用多层次聚类融合模型识别新术语,并利用基于注释集合比较的关系挖掘模型发现术语间关系。此方法可有效整合多源数据以扩展基因本体,避免单一数据源导致的结果不准确与不一致性。本课题的研究思路和方法将为基因本体扩展技术的发展提供一条新的路径。

项目摘要

基因本体(Gene Ontology)是生物医学领域应用最广泛的本体之一,是生物医学数据分 析的重要工具。随着新的研究结果产生,基因本体需要及时扩展,保持与数据、知识的一致性 ,以保证其描述信息的准确性。多年来,基因本体扩展工作主要由基因本体联盟与领域专家合 作,基于科学文献,以人工方式完成。然而,随着生命科学领域数据的快速增长和日趋多样化 ,以人工为主的劳动密集型方法已远远不能满足基因本体及时扩展的需求。本课题围绕拟解决多源数据融合的基因本体扩展这一关键问题,从以下三个方面展开了研究:(1)多源数据融合方法研究;(2)基于多源数据融合的生物网络分析方法研究;(3)以生物网络分析为基础的本体扩展与构建方法研究。本项目在上述几个研究方向取得了较好的研究成果,在Bioinformatics,Briefings in Bioinformatics等领域内顶级期刊发表了多篇论文,本项目的顺利完成,对于生物网络分析、多源数据融合、基因本体扩展与构建具有重要意义。.多源数据融合方面,针对多源网络数据、多源跨组学数据中面临的多个难题,提出了解决方案,大大提高了多数据融合性能。例如,提出了半监督的多源网络特征表示深度学习模型,该模型性能优于MIT、UIUC、多伦多大学等团队在nature methods 和 cell systems 上发表的方法。.在生物网络分析方面,针对生物网络中的重要关系预测,重要节点预测,模块识别等问题,提出了多个算法。例如,miRNA可作为重要药物靶点,但是目前研究者难以准确获取miRNA和疾病特征,影响miRNA-疾病识别精度,我们提出了首个基于深度学习疾病 miRNA 预测算法,性能比现有算法提升13%。 .在本体扩展与构建方面,以上述研究的多源数据融合与生物网络分析方法为基础,较好的解决了基于数据驱动的本体扩展与构建问题。例如,表型和基因型间的关系是随环境动态变化的,针对鉴别这种动态变化的表型模式这一难题,首次提出时序表型网络构建与识别方法,挖掘表型、基因型环境变化三者之间的关系,并基于构建了时序表型本体。基于时序表型本体中的基因信息,对基因本体进行了扩展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

彭佳杰的其他基金

相似国自然基金

1

基于本体学习与本体映射的组织异构数据融合方法研究

批准号:71771054
批准年份:2017
负责人:于娟
学科分类:G0112
资助金额:46.00
项目类别:面上项目
2

基于本体论的地理信息分类和多源空间数据融合研究

批准号:41071290
批准年份:2010
负责人:何宗宜
学科分类:D0115
资助金额:35.00
项目类别:面上项目
3

基于空间特征学习的多源高程数据融合方法

批准号:41801263
批准年份:2018
负责人:岳林蔚
学科分类:D0113
资助金额:25.00
项目类别:青年科学基金项目
4

基于多源信息融合的元数据自动抽取方法研究

批准号:61202232
批准年份:2012
负责人:高良才
学科分类:F0211
资助金额:21.00
项目类别:青年科学基金项目