面向第三代RNA测序长读段的定位算法研究

基本信息
批准号:61862017
项目类别:地区科学基金项目
资助金额:39.00
负责人:张艳菊
学科分类:
依托单位:桂林电子科技大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:李笠,杨炳蛟,张姿,王嘉炜,孙杨博,谢若鹏,余莎
关键词:
剪接位点识别序列比对第三代测序技术RNA测序读段纠错
结项摘要

With the development and extensive application of third-generation sequencing technologies, long sequence alignment has become a hot research field. In transtriptome studies, a crucial step in analyzing third-generation RNA sequencing data is to map the long RNA reads to the reference genome. However, this research is facing with three challenges: 1) high sequencing error rate, 2)complicated splicing alignment of RNA reads, 3)high throughput data. Therefore, this project conducts an innovative research for alignment of third-generation sequencing long reads. Firstly, we propose a sequencing assembly based method with the purpose of correcting reads errors only by use of third-generation RNA sequencing data; secondly, a hybrid strategy which combines a BWT-FM-based global search and a pattern growth-based local search is proposed, enabling the long RNA sequence mapping to the spliced non-contiguous genomic regions. Finally, techniques of pattern recognition and relational subgroup discovery are applied to study the characters of splicing in order to systematically and precisely predict splice sites. In addition,GPU parallel computing technologies will be carefully designed to achieve high computational performance. The ultimate goal of this project is to accomplish a reliable, efficient and high error-tolerant alignment approach for analyzing third-generation RNA sequencing long reads and provide technical support to promote transcriptome studies.

随着第三代测序技术的日益成熟以及广泛应用,长序列比对成为正在兴起的研究领域。在转录组学研究中,将RNA长读段比对定位到参考基因组中,是对第三代RNA测序数据进行分析的关键一步。然而,此研究面临着三个挑战:1)测序错误率高,2)复杂的RNA长读段的分段定位,3)数据量大。因此,本项目围绕第三代RNA测序长读段的定位方法展开研究:首先提出基于序列组装的方法实现仅利用第三代测序数据进行RNA读段纠错;其次研究构建基于BWT-FM全局搜索和基于模式增长局部搜索的混合策略,将长的RNA序列定位到基因组内的不连续的区域;最后提出使用模式识别和关系子群发现的方法,系统地、准确地预测剪接位点;此外,拟采用基于GPU编程的并行运算技术来实现高性能运算。本项目以高容错性、高精准度与高效为目标,构建一个新颖的、能实现长RNA序列在基因组中定位的数据处理流程,为推动转录组学研究提供技术支持。

项目摘要

设计适用于大规模测序数据的高效算法是生物信息学热点研究领域。针对目前第三代RNA测序数据比对算法存在着仅适用于小规模基因组、准确率不高、运行时间长、占用内存和外存多等缺陷,本项目重点研究高效、精确以及适用范围广的第三代RNA测序序列比对算法,在以下四个方面取得了不错的成绩。(1)第三代测序数据纠错方法的研究。我们首先综合评估了当前最先进的十种第三代测序纠错算法,在深入了解各种算法设计原理和性能优缺点的基础上,提出了一种适用于三代测序纠错的基于多任务学习的卷积神经网络模型,该模型适用范围不受基因组大小的限制,尤其在低测序深度时性能较好。(2)RNA长序列与基因组比对算法研究。我们提出了新的一种将RNA长序列分段映射到参考基因组的复杂定位方法。该方法首先根据自定义窗口内的minimizer构造minimizer的哈希索引。其次,采用基于种子-扩展策略的方法将读段和参考基因组进行预比对,通过区域选择、图映射、锚点扩展以及锚点过滤等步骤,锁定读段在参考基因组的大致位置。最后,采用WFA算法进行精细比对,最终达到高准确和高效地定位。(3)剪接位点识别。我们提出了一种基于卷积神经网络结合注意力机制的剪接位点预测方法,实现了对剪接位点的精准预测。同时也提出了一种基于Grad-CAM的剪接位点预测模型解释性分析方法对剪接规律进行了解释和探索。(4)算法加速。我们提出了一种基于GPU的单指令多线程(SIMT)方案,加速了RNA测序读段的剪接比对。总而言之,本项目设计完成了能将第三代转录组测序数据进行数据纠错、精确定位以及剪接位点预测的计算算法,构建了具有强鲁棒性、高精度的位点预测和识别的机器学习框架。主要成果在顶级期刊发表并且所有代码开源,很好的完成了预期目标,这些研究成果为转录组学研究提供了新的思路和技术支持。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
4

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

张艳菊的其他基金

批准号:31171792
批准年份:2011
资助金额:58.00
项目类别:面上项目

相似国自然基金

1

校正RNA-seq测序数据中读段分布偏好并准确推断基因表达水平的方法学研究

批准号:31401126
批准年份:2014
负责人:姜宁
学科分类:C0608
资助金额:25.00
项目类别:青年科学基金项目
2

基于自组装参考基因组的高通量长读测序数据压缩和比对集成研究

批准号:61871272
批准年份:2018
负责人:朱泽轩
学科分类:F0124
资助金额:62.00
项目类别:面上项目
3

基于不同测序策略的长非编码RNA拼接、鉴定算法及功能注释的系统性研究

批准号:91740113
批准年份:2017
负责人:赵屹
学科分类:C0609
资助金额:100.00
项目类别:重大研究计划
4

长链非编码RNA的亚细胞定位预测

批准号:61861035
批准年份:2018
负责人:陈颖丽
学科分类:F0124
资助金额:40.00
项目类别:地区科学基金项目