数据缺失对基于超保守序列(UCEs)的系统树及分子钟分析的影响

基本信息
批准号:31572243
项目类别:面上项目
资助金额:62.00
负责人:郑渝池
学科分类:
依托单位:中国科学院成都生物研究所
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:夏云,袁思棋,张超华,刘婷
关键词:
分子钟数据缺失超保守序列两栖动物分子系统学
结项摘要

In the practice of molecular phylogenetic analysis, missing data are almost always observed in assembled datasets. Some taxa miss data for some genes and some genes miss data for some taxa. This raises the issue of how to deal with the genes and taxa with missing data. For example, one can choose to include only those genes with complete sampling among taxa, or use all genes regardless of missing data. Apparently, knowledge on the effects of data missing to phylogenetic reconstruction and its downstream analysis such as molecular dating will be beneficial. Currently, molecular phylogenetic analysis uses sequence data obtained by different sequencing methods, the traditional Sanger and next generation (ultraconserved elements, UCEs) ones. Compared with the Sanger data, UCEs data have much more information and different pattern of data missing. It includes higher percentages of missing data, which is lineage dependent. Consequently, the effects of data missing may be different for analyses based on Sanger or UCEs datasets. For the Sanger data, in general, results from many studies support keeping genes and taxa with missing data to a large extent. UCEs data are increasingly used for phylogenetic analysis in recent years. But studies on effects of data missing are lacking for UCEs. In this project, we use amphibians as an example to explore the effects of data missing on phylogenetic reconstruction and divergence dating based on UCEs, and compare different strategies of dealing with data missing. Both empirical data and data simulation approaches will be used. Based on empirical and simulated data, new datasets with different degrees of data missing will be generated and then treated by various ways of reducing data missing. Using complete or relatively complete datasets as references, results based on datasets with missing data can be compared and evaluated. Two types of sources of UCEs data missing will be considered in this project, one related to sequencing coverage and the other related to the supermatrix approach. This project will facilitate treating data missing in UCEs datasets and comprehending results based on these datasets.

分子系统发育关系重建中,数据缺失很难回避,往往部分样品的部分基因未获得序列。是否保留、如何排除缺失数据的基因和样品便成为问题。对此的处理取决于数据缺失对系统树重建及其下游分析的影响,相应研究有利于这些分析的实践。数据缺失模式及信息量方面,传统双脱氧测序数据不同于高通量测序得到的超保守序列UCEs,缺失的影响亦很可能不同。对于前者,相关研究支持在很大程度上保留缺失数据的基因和样品。UCEs近年成为系统学分析的重要标记,其高比率、类群特异的数据缺失的影响尚待系统研究。本项目以两栖动物为例,探讨其对系统树重建及其重要下游分子钟分析的影响,比较保留和去除缺失数据两种策略。基于真实和模拟数据,生成不同数据缺失程度的数据集,模拟去除缺失数据的处理,以完整或较完整数据集为参照,对比对不同数据集的分析结果。重点研究测序深度相关和拼合不同数据集相关的数据缺失,以期为合理处理数据缺失、客观评估分析结果提供参。

项目摘要

分子系统发育分析很难回避数据缺失,往往部分样品的部分基因未获得序列。对缺失数据的基因和样品的处理可影响系统树重建及其下游分析。对传统双脱氧测序数据的研究支持在很大程度上保留缺失数据的基因和样品。基于高通量测序的超保守序列UCEs近年成为系统学分析的主流标记之一。其信息量和数据缺失模式不同于双脱氧测序数据不同,数据缺失的影响有待系统研究。本项目以两栖动物为例,探讨UCE数据缺失对系统树重建及其下游分子钟分析的影响,比较保留和去除缺失数据两种策略。实验获得48样品的小鲵科数据集和96样品的我国两栖纲数据集,下载已发表两栖类数据构建拼合数据集。基于真实和模拟数据,以完整或较完整数据集为参照,在不同尺度上分析测序深度相关的数据缺失,在两栖纲的范围内分析主要由拼合不同数据集引入的数据缺失。结果表明,缘于UCE分子标记的高通用性,测序深度相关的数据缺失分布随机,不支持大量去除。而拼合不同数据集引入的数据缺失不随机分布,主要缘于探针组使用上的不统一,若保留有利于获得可靠的拓扑结构,但可影响枝长和分子钟分析结果。如关注枝长及分歧时间,则应构建完整度较高的数据集。我们的工作为合理处理UCE数据缺失、客观评估已有结果提供了参考。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

农超对接模式中利益分配问题研究

农超对接模式中利益分配问题研究

DOI:10.16517/j.cnki.cn12-1034/f.2015.03.030
发表时间:2015
3

结核性胸膜炎分子及生化免疫学诊断研究进展

结核性胸膜炎分子及生化免疫学诊断研究进展

DOI:10.3760/cma.j.issn.1674-2397.2020.05.013
发表时间:2020
4

原发性干燥综合征的靶向治疗药物研究进展

原发性干燥综合征的靶向治疗药物研究进展

DOI:10.13376/j.cbls/2021137
发表时间:2021
5

基于Pickering 乳液的分子印迹技术

基于Pickering 乳液的分子印迹技术

DOI:10.1360/N972018-00955
发表时间:2019

郑渝池的其他基金

批准号:31372181
批准年份:2013
资助金额:82.00
项目类别:面上项目
批准号:30900134
批准年份:2009
资助金额:21.00
项目类别:青年科学基金项目

相似国自然基金

1

数据缺失对依时混杂偏倚控制的影响及处理方法研究

批准号:81602939
批准年份:2016
负责人:刘慧鑫
学科分类:H3011
资助金额:17.00
项目类别:青年科学基金项目
2

城市夜光对鸟类生物钟系统的影响

批准号:31372201
批准年份:2013
负责人:高学斌
学科分类:C0403
资助金额:80.00
项目类别:面上项目
3

含非正态及缺失数据的结构方程模型分析

批准号:11501261
批准年份:2015
负责人:刘鹏飞
学科分类:A0403
资助金额:18.00
项目类别:青年科学基金项目
4

带类别数据、异构数据及不可忽略缺失值的结构方程模型分析

批准号:11026193
批准年份:2010
负责人:蔡敬衡
学科分类:A0403
资助金额:3.00
项目类别:数学天元基金项目