什么是区域插值?
在大多数 GIS 文献资料中,区域插值特指数据从一组面(源面)到另一组面(目标面)的重新聚合。例如,人口统计学家经常需要缩减或扩大其数据的行政单位。如果按县的级别进行人口统计,人口统计学家可能需要缩减数据以预测人口普查区块中的人口数量。如果要在大比例下重新划分区块,可能需要对一组全新的面进行人口预测。
ArcGIS Geostatistical Analyst 扩展模块中的区域插值法是将克里金理论扩展到面要素上的平均数据或聚合数据的地统计插值方法。可以针对输入面内部或之间的所有点生成预测和标准误差,然后将预测(连同标准误差)重新聚合回一组新的面。
Geostatistical Analyst 中的其他克里金方法需要连续的高斯点数据,但区域插值允许面数据为离散计数。还可以使用另一组面作为协同克里金法变量;这些次要面的几何可以与主变量的面的几何相同,面也可以完全不同。
Geostatistical Analyst 中的其他插值方法接受面输入,但它们将面的值与其质心相关联,并将其视为一个点。因此,面的大小不会被考虑到,这些方法不适用于计数数据。
面到面数据重新聚合的工作流程
面数据的重新聚合(例如,缩减人口计数)过程分为两步。首先,针对源面中的各个点创建一个平滑预测表面(该表面通常被解释为密度或风险表面),然后将预测表面聚合回到目标面。创建预测表面需要交互式变异分析,因此必须在地统计向导 中进行创建。地统计向导 的输出是一个预测或预测标准误差的地统计图层。如果不需要重新聚合到新面,工作流程可以在此结束。
创建预测表面后,使用区域插值图层至面工具将其聚合回另一组面。下图显示了根据洛杉矶学校区域中的肥胖率预测洛杉矶人口普查区块中的肥胖率的工作流程。
有关解聚和重新聚合的数学细节,请参阅本主题末尾的参考论文。
区域插值中可以使用哪些类型的数据?
区域插值接受三种不同的面数据集类型作为输入。所有这三种类型都可以生成预测和标准误差表面,然后重新聚合到目标面。每种数据类型的预测表面和重新聚合预测的插值都不同,如下所述。
平均值(高斯)数据
为保护隐私或降低开销,连续的点测量值有时会平均到区域面上,而原始点数据会被放弃或设置为保密。例如,可能会报告多个县的平均污染级别,但单个点的测量值可能是保密的。如果不知道测量了哪些地方的污染级别,则其他克里金法不适用。
对连续数据进行区域插值要求数据为高斯分布并平均到已定义的面上。给定面和平均测量值后,将针对数据值域内所有点的高斯变量值生成预测(或标准误差)表面。
输入
- 源数据集 - 指定面要素。
- 值字段 - 指定源数据集中每个面的平均值。
对于高斯区域插值,区域插值图层至面工具可预测目标面高斯变量(带预测标准误差)的平均值。例如,给定某个州内所有县在特定某天的平均温度后,可以预测这些县内城市的平均温度。
比率(二项式)计数
典型的面数据源是从某个面内的人口中采样个体并对具有特定特征的个体进行计数(这称为二项采样)时的情况。感兴趣的值为具有该特征的采样个体的比例。
给定每个面的采样个体数量以及具有特定特征的个体数量后,二项计数的区域插值可针对数据值域中的所有点生成风险预测表面(或标准误差表面)。任意一点处的风险代表该位置的采样个体具有特定特征的概率。
例如,某家公司可能想要询问一些客户是否满意其所提供的服务。在本例中,感兴趣的特征是客户对服务满意。采样客户的具体位置可能未知;公司只能知道客户的地理区域(例如城市或电话区号)。二项计数的区域插值会生成一幅地图,显示对公司支持度较高和较低的位置。然后公司可以进行深入研究,以找出某些位置的客户比其他位置的客户对其服务更为满意的原因。
要获得准确预测,必须随机进行采样。面上的人口集群的每个成员都必须具有相同的被选中概率。如果某些特定个体显示出优先权,预测就会发生偏差。
输入
- 源数据集 - 指定面要素。
- 计数字段 - 指定每个面具有特定特征的个体数。
- Population 字段 - 指定每个面的采样个体数。
对于二项区域插值,区域插值图层到至面工具可预测每个指定面中具有特定特征的个体所占的比例。例如,如果某个州的每个县的肺癌病例数均已知(每个县的高危人群数同样已知),则可以预测多个县内各邮政编码区域的肺癌个体数所占的比例。要估算各个邮政编码区域内的肺癌病例数,可将预测的肺癌病例比例与每个邮政编码区域内的人口数相乘。同样,将标准误差与每个邮政编码区域内的人口数相乘,可得到每个邮政编码区域内预测的肺癌病例数的标准误差。
事件(过度离散泊松)计数
面数据的另一个常见来源是在指定的时间内对某个已定义区域内特定事件的实例数进行计数时的情况。例如,鲸鱼观察员通过在海洋中围绕已定义的区域航行,并对看到的鲸鱼进行计数来收集数据。在本例中,事件是看到鲸鱼。由于假设观察到的鲸鱼数与鲸鱼观察员的观察时间成正比,因此必须记录他们计数时所花费的时间。对于每次考察,鲸鱼观察员都将了解查看面(他们所观察的区域)、目击的事件数(看到的鲸鱼数)以及观察所花费的时间。
对事件计数进行区域插值可生成一个表面,该表面可对在特定位置目击到事件的基本风险进行预测。风险越高,意味着在该位置目击到事件的机率越高。如果事件为找到某一物理对象(例如鲸鱼),可以将预测表面解释为密度图。
在大多数使用情况下,每个面的观测时间将是相等的。例如,每个面的犯罪数据统计通常以一整年的计数的形式出现。由于恒定的观测时间非常普遍,如果未指定观测时间,软件将假定每个面在一个单位时间内进行计数。对于完整的人口普查(每个事件都被目击,例如总人口数),每个面的观测时间都应假定为相等。
观测时,无需目击每个事件。仅需保证每个单位时间内目击到的事件数与正在观测的事件的基础密度成正比。实际上,这意味着对于每个面来说,用于进行观测的方法都需要大致相同。例如,如果进行某次考察的鲸鱼观察员比另一次考察中的观察员更善于发现鲸鱼,则预测会发生偏差。
输入
- 源数据集 - 指定面要素。
- 计数字段 - 指定每个面中目击的事件数。
- 时间字段 - 可选字段,指定在每个面中花费的时间。如果字段为空,软件将假定所有计数在一个单位的时间内进行。
对于过度离散泊松区域插值,区域插值图层至面工具可预测每个指定面中每个单位时间的计数。例如,如果鲸鱼观察员以小时为单位记录观测时间,对新面的预测将解释为预计在一个小时内在该面中观察到的鲸鱼数。对于人口普查数据,解释为仅是进行人口普查时面的预测人口数。
构建有效模型
与所有地统计插值方法一样,区域插值中的预测准确性取决于模型的准确性。了解此事项后,在地统计向导 中构建有效模型时应多加注意。
由于 ArcGIS Geostatistical Analyst 扩展模块中的区域插值是通过克里金框架实现的,因此交互式变异分析是构建模型的重要步骤。通常很难从视觉上判断协方差曲线的质量,因此为每个经验协方差(下图中的蓝十字)提供了置信区间(下图中的红色垂直线段)。如果正确指定了协方差模型,预计有 90% 的经验协方差落在置信区间内。在下图中,12 个经验协方差中的 11 个落入置信区间内,1 个点略超出置信区间。这表明模型与数据相符,结果可信。
默认协方差曲线与数据的拟合度通常较差。在这种情况下,需要更改地统计向导 第 2 步的变异分析参数。拟合适合的协方差曲线通常很困难,而获得更好的拟合效果的最佳途径就是练习,不过以下一些经验法则可以帮助您拟合理想模型:
- 减少步长大小值,直到经验协方差不再为负值。
- 如果模型仍然不拟合,则尝试使用类型参数。K-Bessel 和稳定的模型是最实用的模型,不过处理时间也最长。
- 如果找到一个几乎拟合的步长大小和类型的组合,则尝试减小格网间距值。但请注意,减小格网间距将会快速增加处理时间。“格网间距”参数将在下面的“面插值的新参数”部分介绍。
如下图所示,如果在地统计向导 的第 2 步将变量更改为半变异函数,则这些点的半变异函数曲线(下图中的蓝线)可能不会通过置信区间。这并不是问题,良好模型的条件也不会改变:如果大部分经验半方差落在置信区间内,则可以确信模型的准确性。
区域插值的新参数
在地统计向导 中,将有三个未在其他克里金方法中出现的参数:
- 格网间距 - 为评估点协方差,每个面都与一个方形格网叠加,并为格网中的每个交点都分配一个点。“格网间距”参数用于指定各个点之间的水平和垂直距离。如果格网间距足够大以致于面无法接收点,点将置于其质心。较小的格网间距会使得预测更精确,但也会增加处理时间。例如,将格网间距切割为一半时,处理时间将比原有时间长四倍。
- 置信度 - 为半变异函数/协方差曲线的置信区间指定置信度。如果模型正确,该值表示应落在置信区间内的经验协方差/半方差的百分比。请注意,点半变异函数线并不一定要落在置信区间内。此参数仅用于诊断;其值不会影响预测。
- 过度离散参数 - 仅适用于事件(过度离散泊松)计数数据。在泊松计数数据中,经常会观察到过度离散(差异大于泊松模型的预期值)。“过度离散”参数可以帮助更正这一点。该参数等同于负二项式分布的反离散参数。
所有其他参数与其他克里金方法中的相应参数含义相同。
局限性
与所有克里金方法相同,区域插值也存在多个可能阻止您查找数据有效模型的限制。
非稳态
一种最严格的克里金假设是假设数据的平稳性。平稳性假设任意两个面数据值之间的统计关系仅取决于面之间的距离。例如,人口通常集中到城市,而只有少数人居住在城市之间的区域。这种假设可能会引起面插值问题,因为在平稳性的前提下,人口密度应在区域内平滑变化;因此,您应该不会在最接近极低人口密度的区域看到极高的人口密度。针对这种不稳定数据,拟合有效的区域插值模型将十分困难(如果可能)。
参考书目
- Krivoruchko, K., A. Gribov, E. Krause (2011)."Multivariate Areal Interpolation for Continuous and Count Data," Procedia Environmental Sciences, Volume 3: 14–19.