下一代测序数据自适应错误修正技术的研究

基本信息
批准号:61472082
项目类别:面上项目
资助金额:63.00
负责人:林劼
学科分类:
依托单位:福建师范大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:Donald Asogu Adjeroh,江育娥,王建文,颜西山,金彪,黄伟,郭金文,李莉,翁金芳
关键词:
聚合模型下一代测序技术生物信息处理序列分析错误修正
结项摘要

In next-generation sequencing(NGS), error correction in short reads is critical in assembly of high quality sequences.In this proposal, we propose to study the characteristic of short reads data generated from NGS and its associated errors,build appropriate quality models to guide error correction process. We will investigate cluster models which have high coverage and fine grain ability to group similar and neigborhood short reads into a cluster. Then errors are corrected in individual cluster separately which is distributed in different computing nodes. In order to utilize limited computing facility to cope with large-scale volume of NGS data, we will study distributed framework which will speed up the computing time, decrease the requirement memory usage,and result in more acurate short reads for assemble. The proposed research will benefit high throughput NGS applications both in research and in practice,ie. personalized medicine.

在下一代测序技术中,错误修正模型是序列拼接的基础,是正确有效测序的重要保证,也是近年生物信息学研究的热点之一。本课题拟通过研究下一代测序数据特征及其错误的分布特点,建立数据质量模型,为错误修正技术提供数据自适应模型。本课题计划对测序数据进行高覆盖细粒度分组聚合,将相似的测序数据聚合在同一组内,应用错误判别模型识别组内错误数据,并进行组内错误修正处理。为了有效利用有限的计算资源来处理海量数据,本课题将采用分布式计算框架,从而达到快速高效的错误修正目的,为测序技术的实际应用提供支持。本课题的研究成果可以结合目前高速发展的下一代测序技术应用在生物科学中的研究和临床疾病的检测,如个性化医疗等领域。

项目摘要

在下一代测序技术中,在进行短序列拼接之前需要进行测序数据的错误修正。本课题从数据特征分析,错误判别模型,细粒度聚类,序列相似度算法以及错误修正模型等几方面开展了研究。通过构建统计模型以及深度神经网络等方法,课题组建立了数据质量模型,用于拟合测序数据的错误率;构建了短序列错误判别模型,用于判别read出现错误的位置;通过提取序列特征,计算序列相似度的手段构建高覆盖细粒度聚类算法;开发错误修正模型,在聚集相似序列的基础上进行read的错误修正;研究分布式计算架构,将以上成果在分布式计算架构进行改造,以适应海量测序数据。在整合以上几方面的研究成果的基础上,构建了一个以Hadoop为分布式计算架构的分布式生物测序错误修正系统。本课题的研究成果可以结合目前高速发展的下一代测序技术应用在生物科学中的研究和临床疾病的检测,如个性化医疗等领域。本课题的研究成果还可以应用在第三代生物测序技术上。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

EBPR工艺运行效果的主要影响因素及研究现状

EBPR工艺运行效果的主要影响因素及研究现状

DOI:10.16796/j.cnki.1000-3770.2022.03.003
发表时间:2022
2

外泌体在胃癌转移中作用机制的研究进展

外泌体在胃癌转移中作用机制的研究进展

DOI:10.12354/j.issn.1000-8179.2021.20201763
发表时间:2021
3

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

DOI:10.7524 /j.issn.0254-6108.2017122903
发表时间:2018
4

一种基于多层设计空间缩减策略的近似高维优化方法

一种基于多层设计空间缩减策略的近似高维优化方法

DOI:10.1051/jnwpu/20213920292
发表时间:2021
5

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:

林劼的其他基金

批准号:61202084
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目

相似国自然基金

1

基于云计算平台的下一代测序数据错误修正算法研究与实现

批准号:31501070
批准年份:2015
负责人:赵亮
学科分类:C0608
资助金额:19.00
项目类别:青年科学基金项目
2

下一代测序数据中的多重检验问题研究

批准号:11301554
批准年份:2013
负责人:尤娜
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
3

情境感知自适应软件的失效分析与错误修复技术研究

批准号:61100038
批准年份:2011
负责人:许畅
学科分类:F0203
资助金额:22.00
项目类别:青年科学基金项目
4

可信约束下软件错误诊断与修正框架

批准号:90718009
批准年份:2007
负责人:张明义
学科分类:F0202
资助金额:50.00
项目类别:重大研究计划