基于DNA理化特性的真核生物启动子计算识别方法研究

基本信息
批准号:31401136
项目类别:青年科学基金项目
资助金额:20.00
负责人:杨曦
学科分类:
依托单位:河南科技大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:张兰兰,李振伟,袁红瑛,冯文坡,郭静玉
关键词:
启动子人工神经网络功能基因组学DNA理化特性机器学习
结项摘要

The project is based on the fact that eukaryotic promoters have special physicochemical and conformational properties, and aims to establish a new eukaryotic promoter prediction model by using several important machine learning methods, such as artificial neural network, Gaussian mixture model and Bayesian classifier, and hopefully improve the prediction accuracy and the model’s university. The innovation of this project lies in introducing for the first time the idea that “the biological function of eukaryotic promoters is realized through its special physicochemical structure” into the modeling process. In addition to the canonical motif features, the sequence context features and the DNA physicochemical features will be adopted to capture the underlying physicochemical and conformational characteristics of eukaryotic promoters. We will also make some alterations on the architecture of the prediction model so that each kind of features will play a better role in distinguishing promoters from non-promoters. To construct a generic model for most eukaryotes, we will select DNA data from several eukaryotic species as training samples. By these measures, we hope to solve the problems existing in the current promoter prediction tools, such as the excessive dependence on the DNA sequence composition information or being only effective to some specific species. The project is of great importance in finding the hidden regularities that distinguish promoters and non-promoters and generating more effective encoding schemes for similar bioinformatics problems, and is also of considerable referential value to some gene prediction issues, such as the accurate segmentation of exons and introns and the precise positioning of the transcription start sites.

本项目拟以真核生物启动子具有独特的理化和结构性质为突破口,采用机器学习领域的人工神经网络、高斯混合模型、贝叶斯分类器等方法建立真核生物启动子预测模型,提高启动子预测的准确率和模型的通用性。本项目创新点在于,将“真核生物启动子的生物学功能是通过其独特的理化结构来实现”这一思想引入建模过程,在使用经典序列特征的基础上拟增加序列上下文特征和DNA理化特征,捕捉启动子序列隐含的理化与结构特性,并在预测模型各层结构上做合理改动,使各种特征发挥更充分的区分作用,在选取多个物种作为训练样本的基础上,建立可靠的共识模型,解决以往预测工具过分依赖DNA序列组成信息以及仅对特定物种有效等问题。本项目的开展对寻找区分启动子数据与非启动子数据的规律具有重要意义,为此类生物分类问题提供更有效的编码理论,同时对基因预测中外显子内含子界限准确分割问题、转录起始位点的准确定位都具有重要的借鉴价值。

项目摘要

针对真核生物启动子计算预测存在过分依赖DNA序列组成信息以及仅对特定物种有效等问题,本项目在统计分析多种真核生物启动子区域的理化和结构特性的基础上,将DNA理化结构属性引入启动子预测,结合传统的序列特征,采用人工神经网络建立真核生物启动子预测模型。.主要研究内容包括:(1)样本集序列特征、上下文特征和理化结构特征的提取。(2)10种真核生物启动子区域的13项理化与结构特性分析。(3)建立二级结构的启动子预测模型,在模型的第一级上,分别构建基于序列特征、上下文特征、理化特征的打分函数,所得分数作为第二级神经网络的输入,模型经训练后可以对新输入的未知序列进行评判。(4)实现了基于BP神经网络、LVQ神经网络、FKLVQ神经网络的真核启动子预测模型,在相同阈值和测试样本集的条件下取得了优于一些主流启动子预测模型的结果。.重要研究结果包括:(1)10种真核生物的核心启动子在[-50, -20]区域以及转录起始位点(TSS)上均存在独特的理化结构特征,其中人类和小家鼠的核心启动子理化特征谱高度相似,而其他物种的核心启动子理化特征谱也有显著的特征,但同时有一定的物种间差异。(2)对于序列特征,用五联体η值编码法描述并建立PWM打分函数;对于上下文特征,采用Ohler等人提出的插值马尔科夫链实现了描述和打分;对于理化结构特征,选取启动子序列[-149, +50]片段,转化为13×150的特征向量,建立了基于向量欧氏距离的打分函数。(3)将本课题所建立的启动子预测模型与三个主流启动子预测软件进行了比较。.关键数据:获得了多个物种核心启动子的DNA理化特征谱,完成了二级结构启动子预测模型的训练与测试,获得模型在多项指标(敏感性、特异性、阳性预测率、相关系数、ROC曲线)上的表现值。.科学意义:用模式识别方法实现了单个启动子微弱DNA理化结构特征的捕捉,通过二级结构启动子预测模型实现多特征整合,提高了启动子预测的准确率。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

DOI:10.5846/stxb202009292521
发表时间:2021
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

An improved extraction method reveals varied DNA content in different parts of the shells of Pacific oysters

An improved extraction method reveals varied DNA content in different parts of the shells of Pacific oysters

DOI:10.1051/alr/2019003
发表时间:2019

杨曦的其他基金

批准号:71704187
批准年份:2017
资助金额:18.00
项目类别:青年科学基金项目
批准号:71873113
批准年份:2018
资助金额:49.00
项目类别:面上项目
批准号:21177056
批准年份:2011
资助金额:62.00
项目类别:面上项目
批准号:61603339
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:20977045
批准年份:2009
资助金额:32.00
项目类别:面上项目
批准号:20207004
批准年份:2002
资助金额:21.00
项目类别:青年科学基金项目
批准号:61602355
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:81501900
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:81701627
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:51101141
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:81703024
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:50578074
批准年份:2005
资助金额:27.00
项目类别:面上项目
批准号:71303202
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目

相似国自然基金

1

DNA 6mA在真核生物中功能与机制的探索

批准号:31900425
批准年份:2019
负责人:马成川
学科分类:C0601
资助金额:15.00
项目类别:青年科学基金项目
2

真核生物系统启动T7噬菌体3型启动子转录机制的研究

批准号:39770411
批准年份:1997
负责人:周天鸿
学科分类:C0602
资助金额:11.00
项目类别:面上项目
3

核酶在原核和真核生物内表达研究

批准号:39080011
批准年份:1990
负责人:许政皑
学科分类:C0509
资助金额:6.00
项目类别:专项基金项目
4

具有真细菌基因启动子活性的盐生盐杆菌DNA片段的研究

批准号:39770009
批准年份:1997
负责人:沈萍
学科分类:C0102
资助金额:11.00
项目类别:面上项目