Accurate annotation of protein functions plays a significant role in understanding life at the molecular level. Next-generation high-throughput DNA sequencing techniques generate a large number of genome data. The gap between available sequence data and their functional annotations has been increasingly widening. Therefore protein function prediction is still hot area of research in post-genome era. However designing effective data models to combine multiple biological information is still a big challenge for protein function prediction due to systematicness, complexity and diversity of cell functions. .In this project, we look to go beyond traditional two dimensional data model and built a multi-dimensional biological model with tensor representation. Firstly, we built a tensor model based on analysis of protein protein interaction network topology and features of heterogeneous data. Aiming at the problem of incompletion of functional labels for annotated proteins, we study how to supplement functional labels based on the tensor by combining sparse characteristics of the protein protein interaction network. Taking tight connections between protein functions and modules into account, we focus on functional modules mining by extending the spectral clustering algorithms to the tensor. Based on the constrained tensor model and the tensor-based Markov chain model, we study calculation of similarity between a pair of proteins in the protein protein interaction network. Based on the above studies, we pay close attention to efficient and tensor-based methods for protein functions prediction.
随着基因组序列数据和功能注释数据之间差距的日益增大,高效的蛋白质功能预测方法成为后基因组时代的研究热点。考虑到细胞功能的系统性、复杂性及多样性,设计合适的模型和方法来融合多元生物信息是功能预测研究面临的巨大挑战。.本项目突破传统的基于二维数据模型的束缚,建立以张量为基本表征单位刻画的多维生物模型,研究蛋白质功能预测的新方法。首先基于相互作用网络的拓扑分析和多源异构数据的特征分析,建立张量模型。针对已标注功能蛋白质的功能标记不完整的问题,结合蛋白质相互作用网络的稀疏特性,研究基于张量的缺失功能填充问题。考虑到蛋白质功能与模块间的紧密联系,通过将谱聚类算法扩展至张量模型,研究功能模块挖掘问题。基于受限的张量分解模型和张量马尔可夫链模型,研究蛋白质相互作用网络中蛋白质之间相似性计算问题。最后,在上述研究基础之上,设计高效的、面向张量的蛋白质功能预测方法。
蛋白质功能的准确诠释对于阐释生命现象、疾病治疗和新药开发都具有重要意义。通过将蛋白质相互作用网络与多组学数据相结合,已经发展出多种方法来促进功能预测。 然而,如何充分利用多种生物数据来提高功能标注的性能仍然是一个难题。我们将蛋白质相互作用网络与蛋白质结构域信息、蛋白质复合物信息和基因表达谱等多组学数据相结合,构建了功能相似张量模型和多关系网络模型。然后,我们提出了一系列利用网络传播和基于张量的随机游走模型预测蛋白质功能和功能模块的算法。.关键蛋白质的鉴定有助于了解细胞生存和发育的最低要求,与蛋白质功能密切相关。 现有的基于网络的方法受到PP数据质量较差的限制,显示出较高的假阳性和假阴性结果率。 为了解决这一问题,研究人员将PPI网络与其他生物数据相结合,预测关键蛋白质上。 然而,在一个单一的框架内使用聚合的多重相互作用来识别关键蛋白质仍然具有挑战性。本项目通过整合PPI网络、蛋白结构域和基因表达谱,创建了多重生物网络和异质网络模型。在此基础上,我们设计了多种基于扩散距离和随机游动模型的关键蛋白质识别方法。.长非编码RNA (Long-non-coding RNAs, lncRNAs)可以参与各种重要的生物学过程,也可以作为最有前途的生物标志物用于某些疾病的治疗,如冠状动脉疾病和各种癌症。 因此,本项目也研究了长非编码RNA与疾病的关系,提出了几种lncRNAs-疾病预测算法。.本项目研究表明,张量等多维模型不仅能发现更多功能相似的邻居节点,而且能有效地摆脱蛋白质相互作用网络数据不完整和“小世界”特征的约束。也必将为蛋白质相互作用网络的其他应用研究提供借鉴。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究
丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响
基于多生物网络的蛋白质功能预测算法研究
基于认知功能多维测量和潜在结构的个体化痴呆风险动态预测模型研究
基于图着色算法的蛋白质结构预测的模型研究
基于图挖掘的蛋白质功能预测算法的研究