了解如何从数据中移除趋势

您可能会希望从数据中移除面趋势,并对已去除趋势(残差)的数据使用克里金法或协同克里金法。考虑加法模型:

Z(s) = µ(s) + ε(s),

其中,µ(s) 是某种确定性表面(趋势),ε(s) 是一种空间自相关误差。从概念上讲趋势是固定的,这表示即使反复模拟数据,趋势也不会改变。然而,由于存在自相关随机误差,因此确实会发现模拟表面中存在波动。通常,趋势在空间中是逐渐变化的,而随机误差变化更快。趋势在气象学上的一个示例就是观察(理论上认识)温度随纬度升降时的位置。不过,给定日期的观测值可能会因为锋面、地面覆被和云纹等原因而显现局部变化,这是不可预测的,所以在建模时会将局部变化作为自相关因素对待。

很遗憾,目前尚无有效的方法将数据唯一分解为一种趋势和多个随机误差。以下内容可以作为一份实用指南供您参阅。

在下面这个去除趋势图里,数据基于两种模型进行模拟。一种模拟基于普通克里金法模型,其中 Z(s) = µ + ε(s) 和误差 e(s) 都是自相关的。该过程中,对于指数半变异函数,平均值 µ = 0。另一个数据集基于泛克里金模型进行模拟,表达式为 µ(s) = ß0 + ß1x(s) + ß2x2(s)(如下图中实线所示),但是误差是独立的(平均值为 0,方差为 1)。

去除趋势图

很难将两种模拟区分开来(蓝色圆基于普通克里金法模型,红色圆基于具有独立误差的泛克里金法模型)。空间自相关可允许灵活的预测表面,该示例说明,单凭数据很难在模型之间做出选择。除非有充分理由来移除趋势表面,一般来说,都应坚持使用普通克里金法。因为该方法是保持模型尽可能简单的最好方法。如果移除趋势表面,就需要对更多的参数做出估计。二维二次表面在截距参数之外又添加了五个需要估计的参数。估计的参数越多,模型的准确度就越低。

不过,有时会有使用空间坐标代替数据中某些已知趋势的情况出现。例如,庄稼产量会随纬度发生变化 - 不是因为坐标本身的缘故,而是因为温度、湿度和降雨等会随纬度发生改变。在这些情况下,移除趋势表面是合理的。再次注意,请保持表面尽可能简单,例如一阶多项式或二阶多项式。

在使用趋势时确实存在过度拟合数据的风险,导致残差中的变差过小以致难以正确说明预测中的不确定性。在使用趋势模型时,应始终确保利用交叉验证(尤其是验证)来检查模型。

了解有关去除趋势的详细信息

了解有关变换和趋势的详细信息

9/15/2013