生物序列数据的统计模型和算法

基本信息
批准号:10971097
项目类别:面上项目
资助金额:23.00
负责人:刘心声
学科分类:
依托单位:南京航空航天大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:郭雨珍,李艳,姚劢,吕波,姜洁,李玉英,李夏飞
关键词:
贝叶斯统计分析统计模型和算法生物序列数据蛋白质结构和功能
结项摘要

生物序列数据的基本特征决定了生物序列的建模必然是基于数理统计学理论。本项目以大数据统计计算为基础,在贝叶斯统计分析的理论框架之下,系统地研究生物序列数据的统计分析、建模和计算,实现对生物序列信息,特别是蛋白质数据信息的推断。主要内容包括建立针对性的氨基酸替代矩阵,发展更加稳健精确的刻画蛋白质序列相似性的测度,对自然界中蛋白质序列、家族及结构类型的空间分布进行估计,进而对功能蛋白质的序列、结构、功能和进化以及它们之间的关系进行推断和预测,完善或创立针对生物大分子序列数据的统计分析、建模的理论和方法。该研究具有国际先进性,且有重要的理论意义和应用背景。

项目摘要

随着可用的生物序列与结构数据的爆炸式增长,利用数理统计等数学理论和方法去推断具有生物学含义的信息成为当务之急,这正是本项目的立足点。本项目以大数据统计计算为基础,在数理统计、随机过程等理论的框架之下,研究生物序列数据的统计分析、动态建模和计算,实现对生物序列信息,特别是蛋白质数据信息的推断。我们利用两类不同蛋白质数据库(Pfam和SCOP)之间的映射,分别研究了包含于不同类折叠子中的蛋白质家族规模的分布,估计了不同规模的Pfam家族贡献新折叠子的概率分布,估计出覆盖当前Pfam数据库所需的折叠子总数等重要问题;我们提出了基于氨基酸相似性的密码子置换模型,利用连续时间的马尔可夫过程来描述数据单元的变化,通过极大似然法进行参数估计,并将新模型应用到真实数据集,讨论新模型对数据的适用性。我们还讨论了怎样基于密码子三个位置上发生置换的差异性和同义密码子的使用偏性等重要特性来建立置换模型,探测物种进化的正向选择。. 此外,由于蛋白质等生物大分子的进化需要更高级的数学动态模型来刻画,生物分子的功能需要通过它们之间的相互作用和合作来实现,因此项目研究也包括相关的随机进化动力学模型。我们探讨了各种条件下不同类型个体间的相互作用以及合作策略的演化,取得了一些重要结果。例如,我们定义了一种新的合作机制,称之为持续合作(persistent cooperation)。持续合作型蛋白质一方面会提供合作,另一方面通过释放某种抑制素使背叛个体的数量得以控制,从而实现分子的生物学功能。. 本项目的研究主要基于概率统计的模型和方法,因此对相关的概率统计模型和算法的讨论,对本项目是必需的,也是重要的组成部分,例如,我们研究了对具有多元t分布的Tobit和多项Probit因子分析模型参数的极大似然估计、使用EM算法处理具有高斯分布的有限混合因子分析模型中的非正态误差等相关问题。. 本项目研究对解析功能蛋白质的序列、结构、功能和进化之间的关系具有重要意义,完善和丰富了针对生物大分子序列数据建模的理论和方法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
3

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
4

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
5

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019

刘心声的其他基金

批准号:61374183
批准年份:2013
资助金额:68.00
项目类别:面上项目

相似国自然基金

1

生物统计中几类相关数据的统计模型与分析

批准号:10371005
批准年份:2003
负责人:张忠占
学科分类:A0402
资助金额:18.00
项目类别:面上项目
2

生物序列大数据集模体发现算法的研究

批准号:61502366
批准年份:2015
负责人:于强
学科分类:F0213
资助金额:21.00
项目类别:青年科学基金项目
3

时间序列数据挖掘中的聚类模型与算法研究

批准号:70871015
批准年份:2008
负责人:郭崇慧
学科分类:G0112
资助金额:23.00
项目类别:面上项目
4

生物序列数据库数据模型、索引、体系结构研究

批准号:60573093
批准年份:2005
负责人:朱扬勇
学科分类:F0202
资助金额:23.00
项目类别:面上项目