蛋白质超二级结构特征表达及分类算法研究

基本信息
批准号:61309013
项目类别:青年科学基金项目
资助金额:23.00
负责人:邹东升
学科分类:
依托单位:重庆大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:何静媛,陈波,李英豪,刘俊,王小恒,姚平平
关键词:
离散量特征表达双联支持向量机二次判别分析超二级结构
结项摘要

Study on prediction of protein supersecondary structures has important scientific significance for understanding protein three-dimension folding and function mechanism.There are two bottlenecks for supersecondary structure prediction at present. One is representing the feature information for sequential patterns of protein structural motifs completely. The other is to explore classification algorithms with low-dimension input vector and high accuracy. The available research have limitations on both sides. On the one hand, the methods for feature representation could not take into accout the evolutionary information, such as order and coupling information, segmental distribution and long distance effects of amino acids. On the other hand, high dimension of input vectors, low accuracy and slow calculation are the main inadequate of the present classification algorithms. To address this challenge, a novel method is proposed in this work by combining amino acid basic composition, polypeptide composition and amino acid composition distribution. This study also attempts to reduce the dimension of input vector and to improve the prediction accuracy by combining diversity increment measure and twin support vector machine as classification algorithms. Furthermore, a parameter optimization method based on particle swarm optimization algorithm is proposed to improve the imbalance problem of training samples .This work could address the main deficiencies of motif feature representation and classification algorithms of supersecondary structure prediction at present and would be an important assistant to the sustainability research of relevant industries such as biomedical engineering, agbio-tech, etc.

蛋白质超二级结构预测研究对于阐明蛋白质空间折叠机制和功能机理有着重要的科学意义。研究有效的蛋白质超二级结构序列模式的特征表达方法,设计输入空间维数低、分类准确率高的学习算法是解决目前超二级结构预测问题的瓶颈与难点。本课题针对现有特征提取方法没有考虑序列的顺序和耦合信息、残基长程相互作用和序列残基统计分布特性以及分类算法输入空间维数高、准确率低、计算速度慢的缺陷,利用多特征融合的思想,构建基于氨基酸组成成份、多肽组成成份和氨基酸组成分布的超二级结构序列特征表达方法;采用离散增量结合双联支持向量机的学习算法,降低输入空间维数,减少计算开销,提高预测准确率;进一步提出基于粒子群优化算法的参数优化方法,通过参数调整克服样本不平衡问题。本课题研究可解决目前超二级结构预测研究中序列模式特征表达及分类算法上存在的主要缺陷,能够为我国生物制药设计、农业生物科技等领域的可持续性研究提供相关科学依据。

项目摘要

蛋白质超二级结构预测研究是结构预测过程中从二级结构到空间结构的重要桥梁,对于阐明蛋白质空间折叠机制和功能机理有着重要的科学意义。目前超二级结构预测的序列模式特征表达、学习算法上均存在一定程度上的缺陷:现有特征提取方法没有考虑序列的顺序和耦合信息、残基长程相互作用和序列残基统计分布特性以及分类算法输入空间维数高、准确率低、计算速度慢。本课题针对这些问题进行研究,主要研究内容如下:. ①研究基于伪氨基酸策略组成的超二级结构特征表达问题。为充分考虑序列的顺序和耦合信息、长程相互作用以及序列统计分布特征信息,采取伪氨基酸组成策略,融合使用氨基酸基本组成成份,多肽组成成份、氨基酸组成分布、伪氨基酸组成成份四种方式表达超二级结构特征。②研究基于双联支持向量机的蛋白质超二级结构预测方法。在学习算法上,首先使用离散量及离散增量表达超二级结构模式的特征,降低输入维数,构成的特征向量作为双联支持向量机的输入。②研究基于粒子群优化算法的蛋白质超二级结构预测模型参数优化问题。本课题研究采用粒子群优化算法进行模型参数优化,提高预测精度。. 研究结果表明,本研究提出的蛋白质超二级结构序列特征表达方法能够更全面地反应序列结构生物进化信息,采用不同的分类算法、在三种数据集上进行实验,均证明了特征表达方式的有效性;同时,针对不同的数据集,本研究提出的基于双联支持向量机的学习算法比现有的学习算法在分类准确率上均有明显提高;最后,本研究采用的粒子群优化算法对学习模型的参与优化有一定作用,预测精度有所提高。. 本课题对蛋白质超二级结构预测领域的关键问题进行研究,研究成果在一定程度上解决了目前超二级结构预测研究中序列模式特征表达及分类算法上存在的缺陷,进一步推动了蛋白质超二级结构预测领域的研究进展,能够为我国生物制药设计、农业生物科技等领域的可持续性研究提供相关科学依据。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

农超对接模式中利益分配问题研究

农超对接模式中利益分配问题研究

DOI:10.16517/j.cnki.cn12-1034/f.2015.03.030
发表时间:2015
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020

邹东升的其他基金

相似国自然基金

1

蛋白质结构类预测中的特征信息提取与分类算法研究

批准号:11426056
批准年份:2014
负责人:丁淑妍
学科分类:A0604
资助金额:3.00
项目类别:数学天元基金项目
2

蛋白质超二级结构及其特殊模体的理论研究

批准号:30960090
批准年份:2009
负责人:胡秀珍
学科分类:C0504
资助金额:24.00
项目类别:地区科学基金项目
3

基于ICM脉冲时间编码的蛋白质序列特征提取及二级结构预测研究

批准号:61863036
批准年份:2018
负责人:姚绍文
学科分类:F0305
资助金额:40.00
项目类别:地区科学基金项目
4

基于高维数据特征提取的蛋白质二级结构预测

批准号:61375013
批准年份:2013
负责人:刘毅慧
学科分类:F0304
资助金额:73.00
项目类别:面上项目