什么是经验贝叶斯克里金法?
简介
经验贝叶斯克里金法 (EBK) 是一种地统计插值方法,可自动执行构建有效克里金模型过程中的那些最困难的步骤。Geostatistical Analyst 中的其他克里金方法需要您手动调整参数来接收准确的结果,而 EBK 可通过构造子集和模拟的过程来自动计算这些参数。
经验贝叶斯克里金法与其他克里金方法也有所不同,它通过估计基础半变异函数来说明所引入的误差。其他克里金方法通过已知的数据位置计算半变异函数,并使用此单一半变异函数在未知位置进行预测;此过程隐式假定估计的半变异函数是插值区域的真实半变异函数。由于不考虑半变异函数估计的不确定性,其他克里金方法都低估了预测的标准误差。
经验贝叶斯克里金法在地统计向导 中以地理处理工具的形式提供。
优点和缺点
优点
- 需要极少的交互式建模
- 预测标准误差比其他克里金方法更准确
- 可准确预测一般程度上不稳定的数据
- 对于小型数据集,比其他克里金法更准确
缺点
- 处理时间会随着输入点数、子集大小或重叠系数的增加而快速增加。应用变换也会增加处理时间。参数介绍如下。
- 处理速度比其他克里金方法慢,尤其是输出为栅格时。
- 协同克里金法和各向异性不可用。
- 半变异函数模型中的少数参数限制了自定义功能。其他克里金方法为半变异函数模型提供了多种选择。
- 对数经验变换对异常值尤其敏感。如果将该变换用于含有异常值的数据,则可能会得到大于或小于输入点值若干个数量级的预测结果。该参数在下面的“变换”部分将有所介绍。
半变异函数估计
与其他克里金法(使用加权最小二乘)不同,EBK 中的半变异函数参数是使用受限最大似然法 (REML) 估计的。由于 REML 对大型数据集有计算限制,输入数据首先被分为多个特定大小的重叠子集(默认为每子集 100 个点)。在每个子集中,按以下方式估计半变异函数:
- 通过子集中的数据估计半变异函数。
- 将此半变异函数用作模型,新数据会在子集的每个输入位置进行无条件模拟。
- 通过已模拟的数据估计新的半变异函数。
- 将步骤 2 和步骤 3 重复执行指定次数。在每次重复中,步骤 1 中估计的半变异函数用于模拟输入位置的一组新数据,已模拟的数据用于估计新的半变异函数。
此过程将为每个子集创建大量半变异函数,并且在将它们绘制在一起时,结果是按密度着色的半变异函数分布(蓝色越深,通过该区域的半变异函数就越多)。此外,分布的中值用红色实线表示,25% 和 75% 百分数值用红色虚线表示,如下图所示。
每个子集中模拟的半变异函数数量默认为 100,其中每一个半变异函数都是子集的真实半变异函数的估计。
对于每个位置,都使用唯一的半变异函数分布生成预测,该分布是通过周围子集的分布加权综合计算得出的;子集距离预测位置越近,给定的权重就越高。
克里金模型
经验贝叶斯克里金法与 Geostatistical Analyst 中的其他克里金方法不同,它使用固有的 0 阶随机函数 (IRF-0) 作为克里金模型。
其他克里金模型假定过程遵循一个总体平均值(或指定趋势),并且各种变化均围绕该平均值。较大的偏差将向平均值拉回,因此值不会偏差过大。但是,EBK 不会呈现出趋于总体平均值的趋势,因此较大偏差变大变小的可能性相同。
半变异函数模型
对于给定距离 h,经验贝叶斯克里金法使用以下形式的半变异函数:
γ(h)= Nugget + b|h|α
块金值和 b (坡度)必须为正值,而 α (幂)必须介于 0.25 和 1.75 之间。在这些限制下,使用 REML 估计参数。该半变异函数模型没有变程或基台参数,因为函数没有上限。在 EBK 中,可以分析参数估计的经验分布,因为在每个位置都估计了多个半变异函数。单击块金值、坡度或幂选项卡可显示关联参数的分布。下图显示了前一图片中显示的模拟半变异函数的半变异函数参数分布:
单击预览表面上的不同位置,可显示新位置的半变异函数分布和半变异函数参数分布。如果分布在数据值域内没有显著变化,则表明数据处于全局稳态。分布应在整个数据值域内平滑变化,但如果发现在较短距离的分布中出现较大变化,增加重叠系数的值可以平滑分布的过渡。
如下文中的“变换”部分所述,应用变换会将克里金模型从 IRF-0 更改为简单克里金。
变换
经验贝叶斯克里金法为乘偏斜常态得分变换提供了两个基本分布:经验法和对数经验法。对数经验变换要求所有数据值为正,以保证所有预测结果为正值。它适用于诸如降雨量等不得为负的数据。
如果应用变换,将使用简单克里金模型代替 IRF-0,半变异函数将与指数半变异函数模型拟合。由于这些变化,参数分布更改为块金值、偏基台值和变程值。此外,还会出现一个变换选项卡,在其中显示拟合变换的分布(每个模拟一个)。与半变异函数选项卡相同,变换分布按密度着色,并提供分位数线。
经验贝叶斯克里金法的新参数
经验贝叶斯克里金法使用三个未在其他克里金方法中出现的参数:
- 子集大小 - 指定每个子集中的点数。子集越大,EBK 计算耗时越长。
- 重叠系数 - 指定子集之间的重叠程度。每个输入点均可落入多个子集中,重叠系数指定了各点将落入的子集的平均数。例如,重叠系数 1.5 表示大约一半的点用在一个子集中,另一半的点用在两个子集中。重叠系数的值越大,输出表面越平滑,但也会增加处理时间。
- 模拟的次数 - 指定将为每个子集模拟的半变异函数的数量。模拟次数越多,生成的预测就越精确,但处理时间也会增加。
参考书目
- Chilès, J-P., and P. Delfiner (1999).Chapter 4 of Geostatistics:Modeling Spatial Uncertainty.New York:John Wiley & Sons, Inc.
- Pilz, J., and G. Spöck (2007)."Why Do We Need and How Should We Implement Bayesian Kriging Methods," Stochastic Environmental Research and Risk Assessment 22 (5): 621–632.