海量生物数据和复杂数据结构对现有的生物信息学模型和算法提出了巨大的挑战。隐马尔可夫模型是生物信息学中非常重要的工具之一,常用于序列数据的标识和分类等。条件随机场是隐马尔可夫模型的推广,适用范围和效果都好于隐马尔可夫模型,在语言识别和图像处理等领域有着广泛的应用,但目前在生物信息学领域的应用研究还不多。本项目将基于条件随机场方法,研究单核苷酸多态性(SNP)芯片数据分析、蛋白质结构比较、生物分子网络的功能模块和通路研究三个重要的生物信息学问题。这三个问题分别代表了生物信息学中常见的三种数据类型:一维序列、三维结构和网络。针对这三个问题研究基于条件随机场的方法,对解决其他生物信息学问题有很好的借鉴作用。本项目将针对生物信息学问题的特点,研究条件随机场模型和算法,解决其中的优化理论问题,同时促进基于条件随机场的生物信息学方法的发展,推动国内数学、生物信息学、计算机科学理论及算法的交叉研究。
在本项目中,我们对条件随机场在生物信息学领域的应用进行了广泛的探索,发展了一系列基于条件随机场的生物信息学方法,特别是较为系统的生物分子网络比较分析工具。目前已有的条件随机场在生物信息学中的应用主要集中在序列相关问题中。除了序列,生物信息学研究中主要的数据类型还包括结构(如蛋白质结构、RNA结构等)和网络(如蛋白质相互作用网络、基因调控网络等)。在与这三类数据类型密切相关的生物信息学问题中,我们分别选择了一些具有代表性的重要问题作为本项目的主要研究目标。在网络方面,我们建立了崭新的基于条件随机场模型的网络查询和比对方法,和文献中的现有方法相比,新方法的优点有:无插入和删除数量限制;能够处理复杂的网络类型;能够处理有向网络;能整合各种不同来源的信息;计算速度和准确度都要高于现有方法。我们还建立了基于条件随机场模型的网络评估方法,能够评价网络与生物实验数据之间的一致性,可以用于网络功能注释、寻找疾病诊断和预测的网络生物标识等。在序列方面,我们建立了基于条件随机场模型的基因表达时序数据分析方法,能够对基因表达时序数据进行二维聚类。我们还建立了基于条件随机场模型的SNP数据分析工具,能够整合多层次信息同时进行基因型、杂合性缺失(LOH)和拷贝数变异(CNV)的推断。在结构方面,我们建立了基于条件随机场模型的蛋白质结构比较方法。本项目的许多研究成果都已经编制成了R语言软件包,通过互联网免费提供下载。为了便于生物学家使用,我们还建立了网络查询和比对的网络计算平台。通过本项目研究表明,条件随机场在处理序列和网络类型的生物数据时在建模和算法方面具有较为显著的优势:在建模时比较灵活、可以整合各种类型的信息;拥有丰富的成熟算法、可以针对不同模型特点设计高效算法。另一方面,本项目的研究也显示条件随机场不太适合用于生物分子空间结构的建模。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
粗颗粒土的静止土压力系数非线性分析与计算方法
拥堵路网交通流均衡分配模型
中国参与全球价值链的环境效应分析
卫生系统韧性研究概况及其展望
基于深度学习条件随机场的多目标跟踪方法研究
基于条件随机场和深度学习的环境微生物分类方法的研究
基于关联分层条件随机场的高分辨率影像分类方法研究
基于条件随机场的大尺度复杂目标分割与三维建模方法