包含重复序列的基因预测及其功能分析

基本信息
批准号:61272250
项目类别:面上项目
资助金额:80.00
负责人:韦朝春
学科分类:
依托单位:上海交通大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:谭凯,蔡锴晔,侯婷,胡涛,许华勇,顾朝辉,胡智强,贾犇,曾璐
关键词:
条件随机场重复序列区域序列保守性基因预测
结项摘要

More than 50% of the human genome are repeat regions. These regions contain protein-coding genes, disease associated loci and other functional elements.The majority of the differences between human individuals locate in the repeat regions, of which more than 70% are copy number variation regions(CNV regions). There are many disease researches based on genes in CNV regions. These researches were carried out based on the reference gene set Refseq. However, annontated genes in CNV regions are far away from completed in Refseq database. Part of the reason is that CNV regions contain a large number of repeat regions, while the current gene prediction systems need to mask the repeat regions first before gene prediction. .A novo gene prediction system is proposed for genomic regions with repeat regions. We will use this system for genomes including the human genome. We will validate experimentally tens new predicted human genes and analyze their functions. This project will generate a more complete reference gene set, and it is important for inherited diseases researches based on genes around CNV regions and for the functional anaysis of repeat regions.

重复序列区域占人类基因组总长度的50%以上,包含蛋白质编码基因,疾病相关位点以及其他功能因子。现有研究表明,人类基因组个体差异的绝大部分在重复序列区域,其中拷贝数变异(CNV)区域占70%以上。目前已经有很多基于CNV区域基因的疾病研究。这些研究都是以参考基因数据库Refseq为标准进行的。然而由于CNV区域包括大量重复序列,CNV区域的Refseq注释非常不完整,其原因是现有的基因预测系统需要先将重复序列区域屏蔽,然后再进行预测。.本项目将针对重复序列区域特点开发一个基因预测系统,对包括人类基因组在内的重复序列区域进行精细化的基因预测和分析。根据本项目前期研究基础,估计会预测到几百个没有包括在现有数据库的人类基因。本项目将挑选其中的部分基因验证其存在性并进一步分析其功能。本项目将生成一个更完整的参考基因集合,对基于CNV区域基因的疾病研究以及重复序列的功能研究具有比较重要的意义。

项目摘要

本项目旨在针对人类基因组中重复序列区域的特点开发一个基因预测系统,对包括重复序列的基因组区域进行精细化的基因预测和分析。本项目将生成一个更完整的参考基因集合,对基于CNV区域基因的疾病研究以及重复序列的功能研究具有比较重要的意义。主要研究内容包括: 1. 开发一个针对包括CNV等重复序列区域的基因预测系统;2.和现有的基因结构进行比较,得到新发现的基因;选择100个左右的基因结构,设计实验验证其存在性;3. 将系统应用推广到其他富含重复序列的基因组,如牛基因组或玉米基因组。考核指标包括,发表2-3篇高影响因子的论文;参加多次国内/国际学术交流会议;培养研究生2-4人。. . 本项目完成情况如下。1、开发了人类基因可变剪切预测系统ALTSCAN,预测了蛋白质编码基因的可变剪切;整合转录组学和蛋白质组学实验数据验证得到近3万个公共数据库中没有的新转录本;其中737个新转录本来自570个包括L1重复序列的基因;从所有新转录本中随机抽取98个,PCR实验表明近85%的新转录本在48个人体组织或细胞系中至少一个中有表达;在此基础上预测人类蛋白质的数量不低于20万个。 相关论文2015年6月发表在Scientific Reports(影响因子5.23)。 2、分析比较了包括重复序列和不包括重复序列的基因的表达水平;发现了一般情况下重复序列所在基因的表达水平相对较低;但是重复序列对所在基因表达量的影响和重复序列在基因中的位置有关;相关工作目前投稿中。3、将包括重复序列的基因的预测方法推广到水稻基因组,发现水稻的不同个体中基因的数量有较大差异,相关结果2016年12月在线发表在Nucleic Acids Research(影响因子9.20)。.. 本项目相关的工作还包括二代测序数据分析系统及方法的开发。已经发表标注本项目资助的SCI论文5篇,影响因子5以上2篇。 .. 培养硕士研究生9人(5人毕业,包括1人国际联合培养);博士生2人(1人毕业)。参加国际会议交流5人次。.. 综上所述,本项目取得了比较丰富的研究结果,超额完成了大部分考核目标。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
5

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022

韦朝春的其他基金

相似国自然基金

1

棉属基因组串联重复序列的挖掘及其比较基因组研究

批准号:31471548
批准年份:2014
负责人:彭仁海
学科分类:C1307
资助金额:85.00
项目类别:面上项目
2

病毒嵌合基因反向重复表达载体的构建及其抗性功能分析

批准号:30471189
批准年份:2004
负责人:庄木
学科分类:C1506
资助金额:19.00
项目类别:面上项目
3

拟南芥启动子区串联重复序列鉴定及其对基因表达的影响

批准号:31100923
批准年份:2011
负责人:曹军
学科分类:C0602
资助金额:26.00
项目类别:青年科学基金项目
4

重复序列元件在小鼠胚胎干细胞中的表达、调控及功能分析

批准号:31771445
批准年份:2017
负责人:贺权源
学科分类:C0602
资助金额:58.00
项目类别:面上项目