天然无序蛋白质无序区域及其分子识别特征域的预测算法研究

基本信息
批准号:61602280
项目类别:青年科学基金项目
资助金额:20.00
负责人:方春
学科分类:
依托单位:山东理工大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:Tominaga Daisuke,王雷,刘红,张欢,张旭
关键词:
预测算法功能位点天然无序蛋白质未折叠区域分子识别特征
结项摘要

Intrinsically disordered proteins (IDPs) is a class of newly discovered proteins that possess no rigid 3D structure while possessing essential biological functions. They play critical roles in multiple disease-related proteins, within these proteins associated with cancer, neurodegenerative diseases, and cardiovascular diseases were discovered. Identifying intrinsically unfolded regions and molecular recognition features (MoRFs) of IDPs is important for studying the folding/unfolding mechanism of proteins, for analyzing the pathogenesis of related diseases, and for finding applications in drug design. Due to the limited number of IDPs that have been verified experimentally, this plan will focus on sequence based methods for identifying unfolded regions and MoRFs of IDPs. In order to overcome the shortcomings of traditional method such as high-dimensional in the feature space,using many predicted results as input, this plan will greatly simplify the algorithm, only consider using sequence composition, conservation information and physicochemical properties of residues extracted from the sequence as input for prediction. Some features will firstly be preprocessed by image processing technology to remove the noise features and strengthen the predictive features, after that, they will be fused and compressed to factors which represent physicochemical properties of residues to reduce the feature dimensions. All efforts will aim to make the algorithms simpler and more accurate, thereby helping the related researchers to discover unfolded regions and their functional sites more accurately and efficiently, to study the relationship between IDPs and diseases, and to find application in drug design.

天然无序蛋白质是一类新发现的柔性极强的蛋白质,它们在天然条件下处于未折叠的松散状态却具有正常的生物学功能,并且与神经退行性疾病和癌症的关系非常密切。识别这类蛋白质及其功能位点对研究蛋白质折叠机制、相关疾病的致病机理及寻找药物靶点至关重要。目前已通过实验确定的无序蛋白质数量非常少,本课题将避开传统方法中大量采用预测的结果串联后再次作为特征输入的弊端,直接提取蛋白质的序列组成、残基保守性和氨基酸理化性质作为特征,采用图像处理方法对关键特征进行预处理,发展基于理化性质统计相关性驱动的特征融合策略对重要特征进行融合、压缩,来设计无序蛋白质无折叠区域及MoRFs的预测算法,达到比传统方法更简单易行、预测结果更精确的目的,以此来帮助相关领域的研究者更准确、高效地发现和研究无蛋白质,了解它们与疾病的关系并进行药物开发。

项目摘要

本项目的主要目标是基于“蛋白质的序列提供了足够的信息来支持无序区域及MoRFs 位置的识别”这一假设展开研究,避开传统方法中大量采用从其它预测的结果串联后再次作为输入的弊端,直接提取蛋白质序列保守性和氨基酸理化性质作为特征,发展基于理化性质统计相关性驱动的特征融合策略将关键特征进行压缩、融合,以此来解决有限样本条件下无序蛋白质中无序区域内MoRFs 的预测难题。.我们研究了利用交叉学科领域的知识(如自然语言处理中的词嵌入,n-gram字符多通道分组等)对蛋白质序列进行自动表征的新方法,以及这些方法与流行的深度学习框架(如—维CNN和二维CNN、LSTM、CNN-LSTM)融合起来,在生物序列分类及模式识别,尤其是在无序蛋白质MoRF预测上的应用。.首先,我们提出了一种基于组合CNN的无序蛋白质中MoRFs的预测方法,并提出了一种对预测结果进行平滑处理来进一步优化性能的方法。然后,我们提出了将n-gram与—维CNN相结合的多通道深度学习方法用来预测MoRFs;接着,我们又研究了将字符嵌入与CNN-LSTM模型融合的方法,用在对短的蛋白质功能片段--抗真菌肽的预测上。最后,我们研究了将先前提出的多个不同的机器学习模型组合起来,进行无序蛋白质MoRFs的预测。该组合模型由四个子模型组成,各子模型使用不同的输入特征或者采用不同的机器学习方法构建模型,最终采用打分策略将各子模型分支融合到一起。组合后的模型的性能超过了任何子模型性能,也取得了目前为止已发表的MoRFs预测方法的最佳性能。.以上研究工作,避开了传统方法主要依靠人工特征工程、特征抽取与模型训练步骤分离等弊端,实现了序列特征的自动编码和抽取,以及与深度学习技术的有效融合,使得模型更加智能化、集成度更高,为利用蛋白质序列信息进行各种功能位点的预测提供了一系列通用的预测模型和方法,具有重要的理论和实际应用价值

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
2

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

氯盐环境下钢筋混凝土梁的黏结试验研究

氯盐环境下钢筋混凝土梁的黏结试验研究

DOI:10.3969/j.issn.1001-8360.2019.08.011
发表时间:2019
5

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018

方春的其他基金

相似国自然基金

1

固有无序蛋白质(IDPs)特征信息挖掘及其预测方法发展

批准号:61271378
批准年份:2012
负责人:王吉华
学科分类:F0124
资助金额:81.00
项目类别:面上项目
2

天然无序蛋白质“序列—结构—功能”关系的比较研究

批准号:21603121
批准年份:2016
负责人:黄永棋
学科分类:B0707
资助金额:20.00
项目类别:青年科学基金项目
3

磷酸化修饰对天然无序蛋白质的结构调控研究

批准号:31870718
批准年份:2018
负责人:张竹青
学科分类:C0504
资助金额:59.00
项目类别:面上项目
4

固有无序片段功能的系统分析及其预测算法研究

批准号:61873185
批准年份:2018
负责人:彭珍玲
学科分类:F0305
资助金额:60.00
项目类别:面上项目