蛋白质结构类预测中的特征信息提取与分类算法研究

基本信息
批准号:11426056
项目类别:数学天元基金项目
资助金额:3.00
负责人:丁淑妍
学科分类:
依托单位:大连民族大学
批准年份:2014
结题年份:2015
起止时间:2015-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:邓俐伶,滕颖俏
关键词:
蛋白质结构类信息提取信息融合机器学习
结项摘要

Knowledge of structural class information of a given protein plays an important role in the prediction of secondary structure, tertiary structure and function analysis from the amino acid sequence. This project aims at problems related to protein information extraction and fusion, and focuses on how to extract structural features from protein sequence and design the multi-source information fusion classification strategies. The main contents include: studying how to extract features from the specific scoring matrix to reflect the information of different amino acids and different columns based on multivariate statistical methods; with the utilization of Markov model, word statistical model and information entropy to define subsequence overlapping degree, then studying the structure differences of different subsequences; integrating the multi-source information based on fuzzy neural network classification strategy to improve the result of protein structural classes prediction. The research is based on the public datasets, and we will construct abundantly independent datasets to test our method. Results of this project will not only contribute to the study of protein spatial structure and function, but also to provide new ideas for the analysis of protein structural classes information and application algorithm design.

蛋白质结构类预测在蛋白质二级结构预测、蛋白质的空间结构和功能预测等领域扮演着重要的角色。本项目针对蛋白质结构类预测中的特征信息提取和融合等问题展开,主要研究如何全面获取有效的特征信息和设计可融合多源特征信息的分类策略。主要内容包括:通过马尔科夫链模型、字统计模型和信息熵结合定义子序列重叠度,对子序列分类,以此为基础研究不同子序列的结构差异;通过多元统计方法研究如何提取特异性打分矩阵中涉及到的氨基酸残基之间、不同突变情况之间隐含的内在关联信息,并最终确定合理的氨基酸最大间隔范围;将模糊神经网络技术引入到蛋白质结构类预测分类策略中,有效融合多源信息,提高蛋白质结构类预测精确度。本项目研究基于现有的测试数据展开,同时构建充足、稳定的独立数据加以验证。本项目的研究成果将有助于蛋白质空间结构和功能的研究,还能够为蛋白质结构类信息分析和应用算法设计提供新的思路。

项目摘要

近年来,蛋白质结构类预测问题仍是生物信息学方向的一个研究热点。本项目围绕蛋白质结构类预测中特征信息提取和融合问题展开,主要做了两方面工作:第一、提取了氨基酸序列中的不同子序列之间的长程相关信息。具体对应到位置特异性打分矩阵中不同子列之间的结构差异性,通过低同源性数据集的测试,说明了我们方法的有效性。第二、首次尝试在位置特异性打分矩阵中考虑氨基酸的位置信息。将单个氨基酸的突变概率与其出现的位置相结合构建概率分布,并计算其香农熵作为特征信息。除了上述两方面工作外,在研究过程中,项目组还通过皮尔逊相关系数与长程相关性结合的方法,从位置特异性打分矩阵中提取特征信息,考虑不同间隔下氨基酸的信息差异,进而对革兰氏阴性菌分泌的蛋白质类型做了预测,并取得了独立集测试100%的精确度。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

丁淑妍的其他基金

相似国自然基金

1

蛋白质超二级结构特征表达及分类算法研究

批准号:61309013
批准年份:2013
负责人:邹东升
学科分类:F0213
资助金额:23.00
项目类别:青年科学基金项目
2

蛋白质组中质谱数据无标记定量信息提取算法研究

批准号:31000587
批准年份:2010
负责人:张纪阳
学科分类:C0608
资助金额:18.00
项目类别:青年科学基金项目
3

蛋白质-配体绑定区域预测的特征抽取及学习算法研究

批准号:61373062
批准年份:2013
负责人:於东军
学科分类:F0213
资助金额:75.00
项目类别:面上项目
4

蛋白质结构模体识别及结构预测算法研究

批准号:61272318
批准年份:2012
负责人:卜东波
学科分类:F0213
资助金额:80.00
项目类别:面上项目