多核系统下调控模式识别的MapReduce模型及算法研究

基本信息
批准号:61173025
项目类别:面上项目
资助金额:55.00
负责人:霍红卫
学科分类:
依托单位:西安电子科技大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:霍秋艳,罗雪梅,于强,张懿璞,郭海涛,欧阳雄,陈昆,高培,黄宁
关键词:
计算模型多核系统调控模式MapReducePvalue
结项摘要

调控模式识别是生物信息学研究领域中的一个基本问题。研究表明,现有方法对保守模式预测的准确程度,无论在碱基水平还是在结合位点水平都较低。在本项目中,我们以改善调控模式的识别算法的准确度和性能为基本目标,充分利用当前多核系统的处理器所提供的高效的计算性能以及多线程和多进程的并行处理技术,提出一种基于多核系统的MapReduce模型;其次,引入位点之间的局部构象信息,建立TFBS与转录起始位点之间距离的分布特征及约束关系,从而建立调控模式的模体模型。提出一种调控模式识别的MapReduce算法,降低算法的时间复杂度,提高对于长序列和特征微弱模式识别的准确程度;最后,通过对JASPAR、TRANSFAC等数据库的统计特征分析,研究调控模式位点的分布特征,设计有效和精确的P-value计算方法。在此基础上,建立多核系统上有效解决数据密集型和计算密集型问题的一种新的计算模型。

项目摘要

(1) 项目的背景.转录因子结合位点 (Transcription Factor Binding Site,TFBS)又被称为顺式调控元件 (Cis-regulatory Element)。在生物信息学中也称为模式或模体 (motif)。识别这些控制基因表达的顺式调控元件,以及表征它们与各自转录因子的相互作用,不仅对于构建转录调控网络,而且对于解释有机物复杂的起源和进化有着重要的意义。.(2) 主要研究内容.本项目以改善调控模式识别算法的准确性和性能为基本目标,研究调控模式识别的高效精确算法;建立MapReduce框架下调控模式识别的模型,提高对于长序列、大字符集和特征微弱模式识别的准确程度;研究转录因子结合位点分布的统计特征,建立调控模式识别的统计方法;实现一个调控模式识别的软件系统原型。.(3) 重要结果.在模体发现的精确算法和近似算法方面做出了较好的工作。主要包括:提出了MapReduce框架下大数据集(ChIP-seq数据集)上子串挖掘方法和模体发现算法MCES;提出了MapReduce框架下精确模体识别的数据划分方法PMSPMR,PMSPMR算法具有良好的可扩展性,加速比接近于线性;建立了模体stem首个正则表达式表示方式,提出了大字符集(蛋白质序列)上高效的stem搜索算法(StemFinder);提出了结合概率分析的模体发现的近似算法PairMotif+。建立了高阶熵压缩的参考基因组序列的自索引结构,并基于此结构进行空间高效的短读序列比对。.(4) 关键数据及科学意义.我们在本领域重要刊物IEEE/ACM Transactions on Computational Biology and Bioinformatics (JCR = 2)等和重要会议IEEE International Conference on Bioinformatics and Biomedicine (CCF B类会议)和IEEE Data Compression Conference (CCF B类会议) 等发表了15篇论文(其中8篇论文为刊物论文,7篇为会议论文),SCI检索6篇,EI检索9篇。开发了可在Google和GitHub上访问的软件。这些研究成果为进一步研究高通量测序数据集的结构模体发现,在基因组水平上探索基因的表达调控机制奠定了较好的基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022

霍红卫的其他基金

批准号:61373044
批准年份:2013
资助金额:75.00
项目类别:面上项目

相似国自然基金

1

MapReduce框架中的排序模型与算法

批准号:11571013
批准年份:2015
负责人:蒋义伟
学科分类:A0406
资助金额:50.00
项目类别:面上项目
2

多Slot环境下的MapReduce能耗模型及优化研究

批准号:61562078
批准年份:2015
负责人:廖彬
学科分类:F0202
资助金额:38.00
项目类别:地区科学基金项目
3

并行任务调度在多核系统中的在线模型及其算法研究

批准号:11071215
批准年份:2010
负责人:叶德仕
学科分类:A0406
资助金额:23.00
项目类别:面上项目
4

异构并行环境下的MapReduce资源调度模型与方法研究

批准号:61370095
批准年份:2013
负责人:李克勤
学科分类:F0204
资助金额:79.00
项目类别:面上项目