基于不平衡多标签数据处理技术的蛋白质修饰若干问题研究

基本信息
批准号:31760315
项目类别:地区科学基金项目
资助金额:41.00
负责人:邱望仁
学科分类:
依托单位:景德镇陶瓷大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:林卫中,吴志诚,王普,刘陶,许召春,张春花,江诗雨,孙碧倩,郑泉树
关键词:
动物蛋白质修饰位点计算建模关联分析序列分析不平衡数据
结项摘要

Protein post-translational modifications (PTMs) are essential for regulating conformational changes, activities and functions of proteins, so identification of the PTMs is the basis for understanding some relevant cellular and molecular mechanisms. The conventional experimental approaches are time-consuming and labor-intensive especially for large-scale data sets and thus cannot meet the needs of study PTMs. It’s a similar case for most of existing researches based on machine learning since they neglected the imbalance and multi-label of the dataset. Firstly, the project try to extract some novel features for predicting PTMs proteins and sites on the basis of sequence evolution information and interactions of histone PTMs from the points of macro and micro aspects, respectively. Secondly, since the prediction of PTM proteins and sites are typical classifications of imbalanced datasets, we will research on the resample technique and selection strategy by using fuzzy theory, and enhance the classification algorithms on imbalanced and ensemble various classifiers by weighting the proper samples along with Dempster-Shafer theory. On the basis of these works, it is possible to further improve the multi-labeled prediction performances of PTM proteins and sites, and develop some web tools for them. These researches might provide useful insights for studying the relationship between protein structure and function through protein modifications in the future, and will promote the development of pattern recognition techniques on imbalanced datasets in bioinformatics.

蛋白质翻译后修饰在调控蛋白质构象变化、活性以及功能方面具有重要作用,其鉴定工作是深入理解蛋白质结构和生命体运行规律的关键。传统的化学、物理实验方法费时费力,现有基于机器学习方法忽视了数据集的不平衡和多标签等属性,模型过于理想化,预测效果不能满足实际需要。本项目将立足于蛋白质序列的进化性质及序列编码等方法,从宏观与微观两个角度分别探索修饰蛋白质和修饰肽链(片断)的特征提取方法。其次,鉴于修饰蛋白质和修饰位点的预测是典型的非平衡数据集分类问题,项目将探索应用模糊理论改进非平衡数据集的采样算法,研究利用证据理论和优化算法等技术突出关键样本权重的可行性,实现将硬分类算法的结果模糊化处理得到加权集成多分类器输出,达到提高预测精度和效率的目标。项目还将建立适合修饰问题的多标签集成分类模型,开发预测工具和网络平台。此工作将有助于理解修饰作用与蛋白质结构和功能间的联系,推进不平衡的生物数据挖掘技术的发展。

项目摘要

生物信息学是一个跨学科领域,它结合了生物学、化学、物理学、计算机科学、信息工程、数学和统计学等来分析和解释生物数据。蛋白质翻译后修饰机制是生物信息学的重要研究内容,它在调控蛋白质构象变化、活性以及功能方面具有重要作用,其鉴定工作是深入理解蛋白质结构和生命体运行规律的关键。利用生物信息学的方法能很好地克服传统的化学、物理实验方法费时费力等不足,并提高分析效果。.本项目在实施过程中主要取得了以下四点成果:(1)完善了现有蛋白质序列(或片断)的特征提取方法(如伪氨基酸成份、灰色模型、序列偶合信息、常用编码等)在生物序列修饰机制分析中的应用,提出了基于蛋白质功能注释、自然语言处理技术等特征提取模型,验证了它们在生物序列修饰机制分析中的优势。(2)深入研究了现有非平衡分类方法,提出了一种基于上采样技巧的集成非平衡分类方法,并结合随机森林、支持向量机、深度学习等机器学习算法提出了基于多源异构特征的非平衡数据集成分类模型,较参照模型准确率普遍提高5%以上。(3)对蛋白质磷酸化、泛素化、甲基化、乙酰化、赖氨酸琥珀酰化、赖氨酸巴豆酰化、亚硝基化和蛹化等多种修饰作用的分析模型建立了数据集和预测网站,为生物信息和制药工程研究人员提供了极大方便。(4)将相关的研究成果拓展到其他生物信息学热点问题中,对蛋白质结构与功能分类、蛋白质结合位点、基因功能位点预测研究及医学临床诊断等问题展开了研究,取得了系列突破性成果。.在课题组4年的研究中,共发表学术论文20余篇,其中SCI二区6篇,会议论文1篇;毕业3名硕士研究生,一名青年教师评上副教授并在哈尔滨工业大学攻读博士学位,2名后续加入课题组的硕士研究生工作进展顺利,课题组成员再获国家级项目2项,省级课题3项,获得3项省级人才资助计划;举办国际学术会议一次。圆满完成课题申报时的科研目标和人才培养目标。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
3

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

邱望仁的其他基金

相似国自然基金

1

基于多标签学习的蛋白质翻译后修饰位点预测

批准号:11671032
批准年份:2016
负责人:徐岩
学科分类:A0405
资助金额:48.00
项目类别:面上项目
2

基于射频信号多特征融合的错置标签识别技术研究

批准号:61702440
批准年份:2017
负责人:厉斌斌
学科分类:F0208
资助金额:28.00
项目类别:青年科学基金项目
3

基于深度图像特征图谱的多标签图像识别技术研究

批准号:61572214
批准年份:2015
负责人:王天江
学科分类:F0605
资助金额:65.00
项目类别:面上项目
4

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

批准号:61462047
批准年份:2014
负责人:林卫中
学科分类:F0213
资助金额:45.00
项目类别:地区科学基金项目