Knowledge of structural class information of a given protein plays an important role in the prediction of secondary structure, tertiary structure and function analysis from the amino acid sequence. This project aims at problems related to protein information extraction and fusion, and focuses on how to extract structural features from protein sequence and design the multi-source information fusion classification strategies. The main contents include: studying how to extract features from the specific scoring matrix to reflect the information of different amino acids and different columns based on multivariate statistical methods; with the utilization of Markov model, word statistical model and information entropy to define subsequence overlapping degree, then studying the structure differences of different subsequences; integrating the multi-source information based on fuzzy neural network classification strategy to improve the result of protein structural classes prediction. The research is based on the public datasets, and we will construct abundantly independent datasets to test our method. Results of this project will not only contribute to the study of protein spatial structure and function, but also to provide new ideas for the analysis of protein structural classes information and application algorithm design.
蛋白质结构类预测在蛋白质二级结构预测、蛋白质的空间结构和功能预测等领域扮演着重要的角色。本项目针对蛋白质结构类预测中的特征信息提取和融合等问题展开,主要研究如何全面获取有效的特征信息和设计可融合多源特征信息的分类策略。主要内容包括:通过马尔科夫链模型、字统计模型和信息熵结合定义子序列重叠度,对子序列分类,以此为基础研究不同子序列的结构差异;通过多元统计方法研究如何提取特异性打分矩阵中涉及到的氨基酸残基之间、不同突变情况之间隐含的内在关联信息,并最终确定合理的氨基酸最大间隔范围;将模糊神经网络技术引入到蛋白质结构类预测分类策略中,有效融合多源信息,提高蛋白质结构类预测精确度。本项目研究基于现有的测试数据展开,同时构建充足、稳定的独立数据加以验证。本项目的研究成果将有助于蛋白质空间结构和功能的研究,还能够为蛋白质结构类信息分析和应用算法设计提供新的思路。
近年来,蛋白质结构类预测问题仍是生物信息学方向的一个研究热点。本项目围绕蛋白质结构类预测中特征信息提取和融合问题展开,主要做了两方面工作:第一、提取了氨基酸序列中的不同子序列之间的长程相关信息。具体对应到位置特异性打分矩阵中不同子列之间的结构差异性,通过低同源性数据集的测试,说明了我们方法的有效性。第二、首次尝试在位置特异性打分矩阵中考虑氨基酸的位置信息。将单个氨基酸的突变概率与其出现的位置相结合构建概率分布,并计算其香农熵作为特征信息。除了上述两方面工作外,在研究过程中,项目组还通过皮尔逊相关系数与长程相关性结合的方法,从位置特异性打分矩阵中提取特征信息,考虑不同间隔下氨基酸的信息差异,进而对革兰氏阴性菌分泌的蛋白质类型做了预测,并取得了独立集测试100%的精确度。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
基于SSVEP 直接脑控机器人方向和速度研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
蛋白质超二级结构特征表达及分类算法研究
蛋白质组中质谱数据无标记定量信息提取算法研究
蛋白质-配体绑定区域预测的特征抽取及学习算法研究
蛋白质结构模体识别及结构预测算法研究