Space-filling design is an important branch of design of computer experiments. In the estimation of the gross mean of complex responses, space-filling design significantly promotes the estimation provided by simply generated data by considerably decreasing the variance of the estimator. The variance reduction by using Latin hypercube designs and orthogonal arrays can be calculated theoretically. Former space-filling designs usually consider continuous variables. However, in some new research fields such as genetic research, statisticians are confronted with discrete data or data already generated. For given discrete input, we wish to adapt space-filling design methods to provide desirable estimation of the gross mean of unknown complex responses. This new type of space-filling designs based on discrete variable is also promising in establishing fast algorithms for some sophisticated statistics such as U-statistics in big data. The original U-statistic requires a lot of calculation which increases dramatically with the increase of sample size. This drawback is even more intolerable because of the popularity of big data. We wish to introduce an approximate U-statistic according to the design construction in this project, and simplify the calculation of U-statistic without loss of estimation accuracy.
空间填充设计是计算机试验设计中一类重要的设计。在估计复杂函数均值方面,空间填充设计相对于独立抽样等简单抽样方法具有很大优势,能够显著降低均值估计的方差。其中的几类常用设计,例如拉定超立方设计和正交表设计,对于均值估计的方差降低可以在理论上给出精确的结果。以往的空间填充设计针对的是连续型变量问题。然而在一些新的领域例如基因分析中,我们接触到的数据是离散的或者已经生成的。对于给定的离散产生的输入,我们希望依旧可以用空间填充试验的方法对于复杂函数均值给出良好的估计。而这种在离散化数据基础下得到的空间填充设计对于一些计算复杂的统计量,例如大样本U统计量有希望提供构造快速算法的可能。传统U统计量的计算复杂度随着样本量增大而剧烈增加。随着大规模数据的普及,这一问题越发凸显。我们希望通过设计方法,建立近似U统计量,在不明显降低精确度的前提下,简化U统计量的算法。
本项目背景为多种试验设计方法在计算机、大数据计算、工业设计、农业试验设计等领域的应用。本项目主要研究内容为空间填充设计、计算机试验设计及其统计性质在快速算法上的应用,以及一些相关的试验设计理论与相关构造等问题。截至目前,我们给出了空间填充设计在U统计量计算中的加速算法,并给出了相关理论结果。其次我们给出了一些新的空间填充设计的构造方法以及相关的理论结果。最后我们在对于此类问题的研究中受到一些最优准则与构造方法的启发,在农业、工业最优试验方向取得了一些理论结果。到目前为止共接收与本项目相关的SCI论文四篇,其中申请人为第一作者论文两篇,分别发表于统计学权威期刊Annals of Statistics以及Statistica Sinica。U统计量是统计研究中的一个重要的工具,常用于构造检验统计量或者用于计算损失函数。优点在于其精度很高,某些情况下能够证明为一致最优统计量,且其理论结果研究非常清楚。缺点在于计算复杂度过高,且由于结构精细,难以构造替代的统计量。我们发现空间填充设计能够有效加速U统计量的计算,提出了基于空间填充设计的不完全U统计量。在我们的模拟结果中,基于空间填充设计的不完全U统计量相同样本量下的方差大幅降低,相同精度下其所需计算复杂度大幅降低,这都给U统计量的应用带来帮助。我们还给出了这种统计量的极限分布及其求解方法。同时我们借鉴类似的具有代表性子样本的试验设计方法,给出了一些农业试验设计中最优区组设计的构造方法。以上结果在机器学习、计算机算法加速,以及农业试验等方向具有一定的理论价值与应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
农超对接模式中利益分配问题研究
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
空间填充设计的若干方法与性质研究
几类空间填充设计的理论与构造研究
赋序Banach空间上的序性质及其应用
空间填充设计的若干最优准则与构造方法研究