With the recent advent of new technologies such as image detecting, gene sequencing, social media, hierarchical Bayes models have been used more and more widely in the analysis of large datasets. Our proposed project plans to study two-level hierarchical Bayes models, and investigate nonparametric methods of estimating the distributions of latent variables. Nonparametric approaches relay on less prior knowledge of the model, enjoy more flexible forms through data-driven strategies, hence can be applied to more data types than otherwise. We will use spline, kernel and other smoothing techniques to approximate the density functions of latent variables, give rules of choosing the weights as well as the number of base functions, and provide theoretical derivations on the large sample properties of the nonparametric estimates. The new developed method will be compared with previous ones such as empirical Bayes, mixture distribution, Dirichlet process etc. As an important application, hierarchical Bayes model could be used to analyze high-throughput sequencing data, for example, to detect differentially expressed genes from RNA-seq data. We expect that through simulation study and real-data analysis, nonparametric estimation of hierarchical Bayes model will show its advantages compared with previous methods by higher testing power and more precise FDR control. Hence, our proposed research project will have significant theoretically and implementation contribution.
近年随着图像识别、基因测序、社交网络等新技术的革新,对大量数据分析的需要也更加迫切,层次贝叶斯模型因此得到了越来越广泛的应用。本项目拟针对两个层次的层次贝叶斯模型,研究用非参数方法来估计隐性变量的分布。非参数方法依赖于更少的先验知识、提供更加灵活的形式、能够适应更多的数据类型。我们拟使用样条函数、核函数等光滑技术逼近隐性变量的密度函数,将深入研究基函数的个数选择和权重估计问题,证明非参数估计的一致性和其它大样本性质,同时给出计算上高效、可靠的算法。估计的结果将与已有的经验贝叶斯、混合分布、Dirichlet Process等方法作比较。作为一个重要的应用,层次贝叶斯模型可以用来分析高通量测序数据,例如检测RNA-seq数据中的异表达基因,通过仿真实验和真实实验数据的分析来验证用非参数方法估计隐性变量分布的优越性,诸如更高的检测效能和更精确地FDR控制。因此本项目的研究将有重要的理论意义。
近年随着图像识别、基因测序、社交网络等新技术的革新,对大量数据分析的需要也更加迫切,层次贝叶斯模型因此得到了越来越广泛的应用。本项目针对两个层次的层次贝叶斯模型,研究用非参数方法来估计隐性变量的分布。非参数方法依赖于更少的先验知识、提供更加灵活的形式、能够适应更多的数据类型。我们使用样条函数、核函数等光滑技术逼近隐性变量的密度函数,深入研究了基函数的个数选择和权重估计问题,证明了非参数估计的一致性和其它大样本性质,同时给出计算上高效、可靠的算法。估计的结果与已有的经验贝叶斯、混合分布、Dirichlet Process等方法作比较。作为一个重要的应用,层次贝叶斯模型可以用来分析高通量测序数据,例如检测RNA-seq数据中的异表达基因,通过仿真实验和真实实验数据的分析来验证了用非参数方法估计隐性变量分布的优越性,诸如更高的检测效能和更精确地FDR控制。因此本项目的研究将有重要的理论意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
低轨卫星通信信道分配策略
中国参与全球价值链的环境效应分析
非参数贝叶斯建模、计算及在类属数据分析中的应用
基于非参数层次贝叶斯模型的自适应字典稀疏表示方法及应用
贝叶斯统计在追踪研究中的应用
贝叶斯柔性密度方法及其在高维金融数据中的应用