基于序列组成及联合信息论与机器学习方法对细菌必需非编码RNA的理论识别研究

基本信息
批准号:61803112
项目类别:青年科学基金项目
资助金额:25.00
负责人:叶远浓
学科分类:
依托单位:贵州医科大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:王欢,黄梦雅,张晓娅,周厚明,胡文慧,陶小买,盛淼淼
关键词:
非编码RNA序列比对微生物序列模体识别必需ncRNA
结项摘要

Bacterial noncoding RNA is a newly discovered regulatory factor of gene expression in recent years, which plays crucial role in biological processes. Some ncRNAs are indispensable for the survival of living bacteria, which called essential ncRNA. Bacteria would not survive as long as the lack of any essential ncRNA. Thus, essential ncRNAs can be used as effective targets of antibacterial drugs and vaccine design. At present, the bacterial essential ncRNAs are identified by experimental methods. The experimental method is time-consuming and expensive. Furthermore, the experimental method is useless for some bacteria. This project aims at solving the defects of experiment method, and the problem of obtaining few sequence information from existing prediction method. This project develops the theoretical recognition model and software of bacterial essential ncRNA based on the adjacent bases, remote related bases and their implied relevant information. Hence, the information theory, the statistical discrimination method and machine learning are jointed to develop the model and software of predicting bacterial essential ncRNA. Using the software developed by this project, any bacterial entire essential ncRNA could be rapidly and accurately identified, which is almost without any cost. Hence, a bacterial essential ncRNA database will be constructed based on the predicting essential ncRNA. The smooth implementation of this project can provide efficient target of antimicrobial agents. At the same time, the theory research of essential ncRNA has important scientific significance for the theoretical research of the minimal genome.

细菌非编码RNA是近年来新发现的基因表达调控因子,在生物过程中扮演着重要角色。有一类ncRNA对细菌生长及其重要,称为必需ncRNA,细菌只要缺乏一个必需ncRNA就无法生存,因此必需ncRNA能作为抗菌药物及疫苗设计的有效靶标。目前,细菌必需ncRNA的识别采用的都是实验方法,实验方法需耗费大量的时间和经济代价,且对于某些细菌并不适用。本项目就是要针对实验方法的以上缺陷,和传统预测序列方法所得有效信息太少的问题,本项目拟基于相邻碱基、远程相关碱基及其隐含的相关信息等序列特征作为识别变量,联合信息论、机器学习和统计判别方法发展必需ncRNA理论识别模型和软件。利用本项目开发的理论识别软件可以快速、准确识别出任何一种细菌基因组所含有的全部必需ncRNA,经济省时,并建立必需ncRNA数据库。本项目的顺利实施可以为抗菌药物提供高效靶点,同时对最小基因组的理论研究有重要的科学意义。

项目摘要

细菌非编码RNA是近年来新发现的基因表达调控因子,在生物过程中扮演着重要角色。有一类ncRNA对细菌生长及其重要,称为必需ncRNA,细菌只要缺乏一个必需ncRNA就无法生存,因此必需ncRNA能作为抗菌药物及疫苗设计的有效靶标。本项目的主要研究目标是针对传统的理论识别必需 ncRNA 的方法所得的特征太少,拟联合信息论方法挖掘获取序列隐含深层信息发展出细菌必需 ncRNA自动识别软件和构建一个细菌必需 ncRNA 数据库。经过课题组几年的努力,该项目研究工作已经全部完成,下面将项目执行情况概述如下: (1)发展了基于序列特征的自训练的细菌必需 ncRNA 识别新方法,采用SVM模型进行分类器,跨种交叉验证的准确率在0.69 ~ 0.81之间。结果表明,我们所选择的特征对SVM方法预测必需ncRNA有较好的预测效果。发现细菌中必需的ncrna具有潜在的应用前景,可用于进一步的分析,如抗菌靶点的发现、最小基因组的构建和进化分析;(2)构建新的理论预测的必需 ncRNA 数据库,本研究通过收集已经测序的细菌基因组中包含的必需ncRNA,构建了必需ncRNA数据库。基于该数据库的数据,生物信息人员后续可以开发基因序列组成和序列衍生信息的必需ncRNA识别算法,同时可以利用其二级结构数据以提高相关算法的准确性;(3)进行其余重要的非编码DNA序列识别研究,包括生物合成基因簇识别软件(SynGC)开发,基于人工智能的准确快速预测Cas相关蛋白序列的算法,基因组重组热点位点序列的预测。利用本项目开发的理论识别软件可以快速、准确识别出任何一种细菌基因组所含有的全部必需ncRNA,经济省时,并建立必需ncRNA数据库。本项目的顺利实施可以为抗菌药物提供高效靶点,同时对最小基因组的理论研究有重要的科学意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
2

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

疏勒河源高寒草甸土壤微生物生物量碳氮变化特征

疏勒河源高寒草甸土壤微生物生物量碳氮变化特征

DOI:10.5846/stxb201912262800
发表时间:2020
5

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018

相似国自然基金

1

基于序列特征和统计判别方法发展细菌必需基因识别算法及软件

批准号:60801058
批准年份:2008
负责人:郭锋彪
学科分类:F0124
资助金额:16.00
项目类别:青年科学基金项目
2

基于RNA绑定蛋白特异性识别序列的人类长非编码RNA分类研究

批准号:31501066
批准年份:2015
负责人:孙亮
学科分类:C0608
资助金额:20.00
项目类别:青年科学基金项目
3

保守非基因序列(CNGs),非编码RNA序列(Non-coding RNAs)和内含子(Introns)的信息论研究和功能预测

批准号:90403010
批准年份:2004
负责人:罗辽复
学科分类:C0503
资助金额:25.00
项目类别:重大研究计划
4

基于集成模型的细菌必需基因识别算法研究及应用

批准号:31470068
批准年份:2014
负责人:郭锋彪
学科分类:C0608
资助金额:30.00
项目类别:面上项目