使用面插值执行面到面预测

复杂程度: 初级 数据要求: 使用自己的数据 目标: 本练习的目的在于介绍如何使用面插值执行面到面预测。同时,本练习还将介绍如何预测缺失数据的面的值。

简介

本练习将演示如何使用面插值获取一组面(源面)中收集的数据,并用于预测另一组新面(目标面)的数据值。本练习中的数据涉及洛杉矶地区五年级学生的肥胖率(出于保密原因,原始数据已作更改)。已对每个学区每名五年级学生进行采样,并记录了肥胖和不肥胖学生的数量(请注意,其中 14 个学区未提供数据)。本练习的目的是通过获取学区年级中收集的肥胖率,来预测学区内人口普查区块组的肥胖率。此外,还将预测 14 个缺失数据的学区中的肥胖率。

下图显示了洛杉矶学区的五年级肥胖率专题图。低肥胖率以蓝色显示(表示肥胖率低于 22.5%),高肥胖率以红色显示(表示肥胖率高于 44.7%),而中等肥胖率则以绿色、黄色和橙色显示。黑色的面为缺失数据的学区。右图表示要为其预测五年级肥胖率的洛杉矶地区的块组。

洛杉矶学区(左)与块组(右)
洛杉矶学区(左)与块组(右)

面插值过程包括两个步骤。首先,从源面创建预测表面,然后将该预测表面平均分配到目标面中。

创建肥胖率预测表面

面插值工作流的第一步是从学区中收集的肥胖率创建预测表面。由于面插值要求模型交互拟合,因此必须在地统计向导 中创建预测表面。

打开地统计向导

步骤:
  1. 启动 ArcMap,启用 ArcGIS Geostatistical Analyst 扩展模块,然后添加 Geostatistical Analyst 工具条。教程练习 1 的开始部分介绍了相关步骤。
  2. 单击 Geostatistical Analyst 工具条上的 Geostatistical Analyst 下拉箭头,然后单击地统计向导

    Geostatistical Analyst 快捷菜单

    将弹出地统计向导 对话框。

选择方法并确定输入数据

步骤:
  1. 地统计方法下,单击面插值
  2. 由于关注的是预测肥胖率(而非人口计数等),应选择类型旁边的比率(二项式)
  3. 选择源数据集旁边的 child_obesity,以指定包含学区肥胖率的面要素类。
  4. 选择计数字段旁边的 5th_obese

    该字段包含五年级学生的肥胖人数。

  5. 选择 population 字段旁边的 5th_total

    该字段包含五年级学生的总人数。

  6. 由于本练习中不会用到二级变量,请保留数据集 2 的默认值。

    地统计向导的面板 1
    地统计向导的面板 1

  7. 单击下一步开始创建面插值模型。

调整变异分析

您现在看到的便是向导的变异分析面板。在整个面插值工作流中,该步骤耗费时间最长,对于获取准确预测结果也最为关键。其目的是更改右侧的参数,以便使大部分经验协方差(蓝色十字符号)落入置信区间内(红色条)。如果正确指定模型,预计约有 90% 的经验协方差会落在置信区间内。

通过下图可以发现默认模型并不合适;大部分经验协方差都落在置信区间外。需要通过执行一些操作来使模型适合。

地统计向导的面板 2
地统计向导的面板 2

步骤:
  1. 可以发现经验协方差在约 12,000 米的距离处变为负值。这表示应通过将步长大小更改为 1000 且将步长数保持在 12 来开始执行。(这两个参数的乘积应大概等于经验协方差最初变为负值对应的距离。)

    以下协方差曲线看起来效果更好,但模型仍然有待改进。Y 轴上的较大经验协方差还是个问题。

    地统计向导的面板 2
    地统计向导的面板 2

  2. 要改善这种结果,应在“模型”下将类型更改为 K-Bessel

    此模型与数据非常拟合;大部分经验协方差落入置信区间内,其他一些则刚好落在区间边界处。但是,确信此模型合适之前,还需检查交叉验证结果。

    地统计向导的面板 2
    地统计向导的面板 2

  3. 单击下一步查看“搜索邻域”面板。

修改搜索邻域

“搜索邻域”面板显示了五年级肥胖率的预览表面。单击预览表面上面的任一点便可获得该点的预测肥胖率。例如,在下图中,点 (1974946, 540966.7) 的预测值为 0.3331771。这表示模型预测该位置处任意五年级学生都有 33% 的肥胖概率。

地统计向导的面板 3
地统计向导的面板 3

步骤:
  1. 单击下一步查看“交叉验证”面板。

检查交叉验证

步骤:
  1. 单击向导面板右侧图下方的正态 QQ 图选项卡。

    地统计向导的面板 4
    地统计向导的面板 4

    可以看到标准均方根值为 1.147508。此结果不错,因为该值的理想值应接近 1。正态 QQ 图还表明标准误差接近于正态分布,因为各点落在一对一的线的附近。我们将使用此模型进行预测。

  2. 单击完成,然后在方法报告 对话框中单击确定

    ArcMap 中将显示肥胖率预测表面。根据分析目的的不同,该肥胖率表面可能就是所需要的结果。这种情况下,工作流可就此结束。然而,您还要预测块组级别的五年级学生的肥胖率,因此需要继续执行该面插值工作流的第二部分。

    洛杉矶五年级学生的肥胖率表面
    洛杉矶五年级学生的肥胖率表面

    注注:

    上图中的图层已被裁剪为所关注的区域,并且图层已重命名为 5 年级肥胖率。要了解如何对图层进行裁剪和重命名,请参阅教程练习 1

预测人口普查区块组中的肥胖率

使用面插值创建适当的预测表面后,可使用面插值图层到面工具通过该表面预测洛杉矶块组中的五年级肥胖率。

步骤:
  1. 在 ArcMap 内容列表中右键单击 5 年级肥胖率图层,然后单击预测到面打开“面插值图层到面”工具对话框。

    预测到面

    注注:

    也可以从 Geostatistical Analyst 工具箱的“使用地统计图层”工具集中访问“面插值图层到面”工具。

  2. 确认输入面插值地统计图层已设置为 5 年级肥胖率
  3. 单击输入面要素下拉箭头,然后单击 LA_blocks 指定洛杉矶块组的面要素类。
  4. 单击输出面要素类浏览按钮导航到保存输出的位置,然后输入 LA_blocks_obesity 作为输出面要素类的名称。
  5. 由于要传递所有来自 LA_blocks 要素类的字段,请确认已选中从输入要素追加所有字段

    “面插值图层到面”地理处理工具对话框
    “面插值图层到面”地理处理工具对话框

  6. 单击确定以运行工具。

    包含洛杉矶块组中五年级肥胖率预测结果的面要素类即被添加到 ArcMap。包含所预测肥胖率的字段将标注为已预测。此外,预测的标准误差存储在标注为 StdError 的字段中。

    洛杉矶块组中五年级学生肥胖率的预测结果
    洛杉矶块组中五年级学生肥胖率的预测结果

    注注:

    下图中的符号系统已从学区的肥胖率导入,以便能够相对直观地进行比较。

  7. 也可以通过所预测肥胖率的标准误差对块组进行符号化。标准误差存储在 LA_blocks_obesity 的 StdError 字段中。可利用它为预测的肥胖率创建误差幅度。

    低标准误差以浅红色的阴影进行符号化。较大块组通常具有较小标准误差,因为较大区域具有更多与其的相关信息,因此预测的不确定性更小。

    洛杉矶块组中肥胖率的标准误差
    洛杉矶块组中肥胖率的标准误差

根据在学区中采样得出的肥胖率对洛杉矶块组中的五年级肥胖率进行预测的工作流就此完成。

预测缺失数据的学区中的肥胖率

要预测缺失数据的学区中的肥胖率,需要再次使用面插值图层到面工具

步骤:
  1. 在 ArcMap 内容列表中右键单击肥胖率表面图层,然后单击预测到面打开“面插值图层到面”工具对话框。

    预测到面

  2. 确认输入面插值地统计图层已设置为 5 年级肥胖率
  3. 单击输入面要素下拉箭头,然后单击 Missing_zones 指定缺失数据的学区的面要素类。
  4. 单击输出面要素类浏览按钮导航到保存输出的位置,然后输入 Missing_zones_obesity 作为输出面要素类的名称。
  5. 由于要传递所有来自 Missing_zones 要素类的字段,请确认已选中从输入要素追加所有字段

    “面插值图层到面”地理处理工具对话框
    “面插值图层到面”地理处理工具对话框

  6. 单击确定以运行工具。

    包含缺失的洛杉矶学区中五年级肥胖率预测结果的面要素类即被添加到 ArcMap。包含所预测肥胖率的字段将标注为已预测。此外,预测的标准误差存储在标注为 StdError 的字段中。

    缺失学区中五年级学生的预测肥胖率
    缺失学区中五年级学生的预测肥胖率

    注注:

    已从学区的肥胖率导入符号系统。

对缺失数据的洛杉矶学区中的五年级肥胖率进行预测的工作流即已完成。

可以关闭 ArcMap 而不保存结果。

数据参考

相关主题

5/10/2014