基于多源信息融合的蛋白质功能预测方法研究

基本信息
批准号:61903106
项目类别:青年科学基金项目
资助金额:25.00
负责人:李满枝
学科分类:
依托单位:海南师范大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
网络模块分析功能模块挖掘重叠聚类算法蛋白质网络多源信息融合
结项摘要

The study of protein function will directly elucidate the mechanism of changes in organisms under physiological or pathological conditions, and is of great significance in the field of disease prevention and drug development. Due to the rapid development of high-throughput technology, a large amount of protein data has been generated. Based on a single data source and experimental method,protein functional requirements cannot be met.How to scientifically and effectively use existing data and develop an effective protein function prediction calculation method has become an urgent problem to be solved. Based on the existing work, the protein function prediction will be systematically studied. The main research contents of this project include: 1) Based on protein sequence, protein function annotation and protein interaction network, etc., multi-source information fusion method is proposed to obtain effective protein features; 2)We construct a network embedding algorithm, Protein features are dimensionality reduction and graphically mapped. After that, according to the visualization results, the appropriate clustering strategy is determined, and then the voronoi diagram is combined to design the voronoi overlapping clustering algorithm for mining the protein function module; 3) we analyze the function module to determine the single function module, the overlapping function module and the sparse function module. In this way, the protein function can be accurately output, and finally the prediction of protein function can be realized. The project provided experimental basis and theoretical basis for improving the prediction level of protein function and understanding the biological function of protein.

对蛋白质功能的研究将直接阐明生物体在生理或病理条件下的变化机制,在疾病预防、药物开发等领域有重要意义。飞速发展的高通量技术产生大量蛋白质数据,基于单一数据源和实验的方法已不能满足蛋白质功能需要,如何科学有效地利用现有数据,开发高效的计算方法预测蛋白质功能成为目前急需解决的问题。本项目在前期工作基础上对蛋白质功能预测进行系统研究,主要包括:1)基于蛋白质序列、蛋白质功能注释与蛋白质相互作用网络等多种数据,建立多源信息融合算法,获取蛋白质有效特征;2)构造网络嵌入算法,将蛋白质特征降维和可视化,由蛋白质分布特性决定合适的聚类策略,结合voronoi图,设计voronoi图重叠聚类算法,挖掘蛋白质功能模块;3)分析功能模块,确定单一功能模块、重叠功能模块与稀疏功能模块,准确输出蛋白质功能,实现蛋白质功能预测。本项目为提高蛋白质功能预测水平以及深入了解蛋白质的生物功能提供实验基础和理论依据。

项目摘要

蛋白质功能对于提供解释组学规模数据的线索以及协助生物学家建立设计实验的假设是必不可少的。随着测序技术的快速发展,蛋白质各种数据越来越多,通过实验确定蛋白质功能远远不能满足需要,开发有效的蛋白质功能预测的计算方法是当前迫切要解决的问题。针对这个问题,本研究借助近年来发展起来的数据挖掘技术、可视化模型和机器学习算法,从信息学的角度对蛋白质功能预测进行系统研究。主要包括以下内容:1)基于蛋白质序列、蛋白质功能注释与蛋白质相互作用网络等多种数据,建立多源信息融合算法,获取蛋白质有效特征;2)构造网络嵌入算法,将蛋白质特征降维和可视化,由蛋白质分布特性决定合适的聚类策略,结合voronoi图,设计voronoi图重叠聚类算法,挖掘蛋白质功能模块。研究成果如下:1)构建多源信息融合网络聚类算法。集成了基于Jaccard距离的随机距离和社区结构系数,考虑多源信息结构,在应用多维缩放(MDS)降维方法后,对节点进行了聚类。将KMEANS与密度聚类和冠层聚类相结合,应用于蛋白质数据中得到较好的聚类结果。2)构建voronoi图层次聚类算法,研究voronoi图(又名Thiessen多边形)的几何性质并推广到三维空间,并考虑将此性质应用于蛋白质空间结构。3)构建单细胞RNA聚类算法,研究单细胞功能。提出了一种单细胞聚类模型:D3K算法。该算法通过数据集的相异度密度、候选簇平均相异度和候选簇相异度,加入了动态半径参数,有效消除噪声点的影响,优化聚类结果。D3K算法可作为一个有效的单细胞聚类分析工具。本项目为提高蛋白质功能预测水平以及入了解蛋白质的生物功能提供实验基础和理论依据。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

李满枝的其他基金

相似国自然基金

1

基于多源信息融合的蛋白质相互作用预测研究

批准号:60775012
批准年份:2007
负责人:张绍武
学科分类:F0605
资助金额:28.00
项目类别:面上项目
2

基于多源信息融合的蛋白质亚细胞定位预测算法研究

批准号:61272312
批准年份:2012
负责人:姚玉华
学科分类:F0214
资助金额:80.00
项目类别:面上项目
3

基于多源信息融合的蛋白质结构域折叠模式预测模型研究

批准号:61602100
批准年份:2016
负责人:张丽超
学科分类:F0213
资助金额:20.00
项目类别:青年科学基金项目
4

基于多源信息融合的灌溉决策方法研究

批准号:51709262
批准年份:2017
负责人:陈智芳
学科分类:E0902
资助金额:25.00
项目类别:青年科学基金项目