新一代从头测序算法设计与应用研究

基本信息
批准号:31470805
项目类别:面上项目
资助金额:80.00
负责人:迟浩
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:贺思敏,刘超,曾文锋,杨皓,邬龙,吴建强
关键词:
生物质谱序列拼接从头测序信息检索机器学习
结项摘要

De novo Peptide sequencing is one of the most important methods for analyzing biological mass spectrometry data. Peptides are derived independent of any proteome database information, which makes de novo sequencing have irreplaceable advantages compared with database searching. However, algorithm design of de novo sequencing is more complicated; furthermore, low precision and the lack of effective evaluation approaches hinder the biological application of de novo sequencing all the time. Therefore, we are plan to investigate the defects in the current de novo sequencing algorithms, and then improve the performance based on the well-studied information retrieval and machine learning techniques. Thereafter, novel algorithms for peptide assembly will be developed in this study, which makes longer peptides or even the intact proteins be sequenced successfully. In addition, the integration stategy of the result of de novo sequencing as well as database search will be studied. The most impotant innovation in this study is that information retrieval and machine learning techniques will be comprehensively applied in every step of de novo sequencing. As a result, the quantity and quality of the sequenced peptides are expected to be remarkably increased. Such relative studies have rarely been reported in the research field of proteomics.

从头测序方法是生物质谱数据分析最重要的方法之一,它不依赖于数据库信息推断出肽段序列,与数据库搜索方法相比具有不可替代的优势。不过,相对而言,从头测序方法更加困难,测序精度低以及缺乏有效的评价方法,一直着阻碍从头测序投入实际的生物应用。本课题拟基于信息检索和机器学习领域技术,深入研究从头测序算法各环节中存在的缺陷,提升算法的准确度,发展稳定可靠的结果评价算法,并进一步探索可靠的序列拼接技术,实现由从头测序获得长肽段甚至完整蛋白信息的过程。同时,本课题计划进一步探讨从头测序与数据库搜索结果融合的策略,为质谱数据的深度解析提供更全面、更有效的方法,使肽段从头测序技术能够切实应用于高精度生物质谱数据的深入分析,并在生物学研究中发挥更多作用。总之,本课题从信息检索与机器学习的应用着手,全面改进从头测序算法的各个环节,期望能够显著提高从头测序结果的数量和质量。这方面研究目前在国内外鲜有报告。

项目摘要

从头测序方法是生物质谱数据分析最重要的方法之一,它不依赖于数据库信息推断出肽段序列,与数据库搜索方法相比具有不可替代的优势。不过,相对而言,从头测序方法更加困难,测序精度低以及缺乏有效的评价方法,一直阻碍着从头测序投入实际的生物应用。本项目围绕串联质谱数据的从头测序问题,按计划顺利开展研究并取得了一系列重要研究成果,达到了预期目标且有所超出。首先,本项目基于信息检索和机器学习领域技术,提出了领域内首个开放式从头测序方法Open-Novo,发展了稳定可靠的结果评价算法pSite,并基于Trypsin和LysargiNase镜像酶设计了精准从头测序方法pNovoM,相关研究分别发表于Molecular & Cellular Proteomics和Journal of Proteome Research。同时,本项目进一步探索了从头测序与数据库搜索结果融合的策略,为质谱数据的深度解析提供更全面、更有效的方法,使肽段从头测序技术能够切实应用于高精度生物质谱数据的深入分析,并在生物学研究中发挥更多作用,相关研究成果在2018年发表于Nature Biotechnology。此外,本项目开发的pNovo、pFind等实用软件被蛋白质组学界广泛使用,目前已助力国内外同行发表SCI收录文章111篇。本项目共支持发表第一标注的学术论文4篇,申请专利3项并获得一项授权,申请软件著作权1项,并协助组织了第四届和第五届中国计算蛋白质组学研讨会。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
4

双吸离心泵压力脉动特性数值模拟及试验研究

双吸离心泵压力脉动特性数值模拟及试验研究

DOI:10.13465/j.cnki.jvs.2020.19.016
发表时间:2020
5

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019

迟浩的其他基金

相似国自然基金

1

网络算法设计方法与网络技术应用研究

批准号:79000012
批准年份:1990
负责人:崔文田
学科分类:G0107
资助金额:2.50
项目类别:青年科学基金项目
2

二层规划问题的算法设计与应用研究

批准号:10926168
批准年份:2009
负责人:吕一兵
学科分类:A0405
资助金额:3.00
项目类别:数学天元基金项目
3

新一代SCC-DFTB算法的开发及其在酶设计中的应用

批准号:21703079
批准年份:2017
负责人:姚建庄
学科分类:B0302
资助金额:24.00
项目类别:青年科学基金项目
4

二层多目标规划问题的算法设计与应用研究

批准号:11201039
批准年份:2012
负责人:吕一兵
学科分类:A0405
资助金额:22.00
项目类别:青年科学基金项目