解释 GWR 结果
从地理加权回归 (GWR) 工具生成的输出包括以下内容:
- 输出要素类
- 可选系数栅格表面
- 整体模型结果的消息窗口报告
- 显示模型变量和诊断结果的辅助表
- 预测输出要素类
下文中将使用一系列运行 GWR 和解释 GWR 结果的步骤对以上每项输出进行说明。通常将以普通最小二乘法 (OLS) 开始回归分析。有关详细信息,请参阅回归分析基础知识和解释 OLS 回归结果。回归分析的一种常用方法是在移动到 GWR 之前识别可能的最佳 OLS 模型。此方法为以下步骤提供了上下文环境。
(A) 如有必要,打开结果窗口。在已使用 OLS 回归工具识别了一个或多个候选回归模型之后,请使用 GWR 运行这些模型。从 GWR 模型中排除所有局部二进制(哑元)变量,因为这些变量将导致局部多重共线性出现问题,且 GWR 不需要这些变量。您需要为输入要素类提供想要建模/解释/预测的因变量和所有模型解释变量。还需要为输出要素类、核类型(固定或自适应)和带宽方法(AIC、CV 或用户提供的值)提供路径名称。对于“带宽方法”,如果选择“带宽参数”,则需要(为“固定”核类型)提供特定的距离或(为“自适应”核类型)提供特定的相邻点的数目。还可以为 GWR 工具文档中所述的可选参数提供值。一个值得特别关注的可选参数是系数栅格工作空间。为此参数提供文件夹路径名称时,GWR 工具将为模型截距和每个解释变量创建系数栅格表面(详见下文)。
(B) 检查写入到结果 窗口的统计汇总报表。右键单击结果 窗口中的消息条目,然后选择查看,将在消息对话框中显示 GWR 汇总报表。如果在前景中执行此工具,还将在进度对话框中显示汇总报表。以下是对每个已报告的诊断的描述。
- Bandwidth 或 Neighbors:是指用于各个局部估计的带宽或相邻点数目,并且可能是“地理加权回归”的最重要参数。它控制模型中的平滑程度。通常,您将通过程序选择所需的带宽值或相邻点值,方法是为带宽方法参数选择 AICc(修正的 Akaike 信息准则)或 CV(交叉验证)。这两个选项都将尝试识别最佳固定距离或最佳自适应相邻点数目。由于“最佳”条件对于 AICc 和 CV 并不相同,因此通常会获得不同的最佳值。还可以通过为带宽方法选择“带宽参数”来提供精确的固定距离或特定的相邻点数目。
带宽单位取决于指定的核类型。如果选择“固定”,带宽值将使用与输入要素类相同的单位来反映距离(例如,如果使用 UTM 坐标对输入要素类进行投影,报告的距离将以米为单位)。如果选择“自适应”,带宽距离将根据输入要素类中要素的空间密度发生变化。带宽将成为最近相邻点数的函数,这样每个局部估计都将基于相同数量的要素。将报告用于分析的相邻点的数目,而不是特定距离。
- ResidualSquares:指模型中的残差平方和(残差为观测所得 y 值与 GWR 模型所返回的 y 值估计值之间的差值)。此测量值越小,GWR 模型越拟合观测数据。此值还在其他多个诊断测量值中使用。
- EffectiveNumber:此值反映了拟合值的方差与系数估计值的偏差之间的折衷,与带宽的选择有关。带宽接近无穷大时,每个观测值的地理权重都将接近 1,系数估计值与全局 OLS 模型的相应值将非常接近。对于较大的带宽,系数的有效数量将接近实际数量;局部系数估计值将具有较小的方差,但偏差将非常大。相反,带宽接近零时,每个观测值的地理权重都将接近零(回归点本身除外)。对于非常小的带宽,系数的有效数量为观测值的数量,局部系数估计值将具有较大方差但偏差较低。该有效数量用于计算多个诊断测量值。
- Sigma:此值为正规化剩余平方和(剩余平方和除以残差的有效自由度)的平方根。它是残差的估计标准差。此统计值越小越好。Sigma 用于 AICc 计算。
- AICc:这是模型性能的一种度量,有助于比较不同的回归模型。考虑到模型复杂性,具有较低 AICc 值的模型将更好地拟合观测数据。AICc 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。如果两个模型的 AICc 值相差大于 3,具有较低 AICc 值的模型将被视为更佳的模型。将 GWR AICc 值与 OLS AICc 值进行比较是评估从全局模型 (OLS) 移动到局部回归模型 (GWR) 的优势的一种方法。
- R2:R 平方是拟合度的一种度量。其值在 0.0 到 1.0 范围内变化,值越大越好。此值可解释为回归模型所涵盖的因变量方差的比例。R2 计算的分母为因变量值平方和。向模型中再添加一个解释变量不会更改分母但会更改分子;这将出现改善模型拟合的情况(但可能为假象)。请参阅下文中的“校正的 R2”。
- R2Adjusted:由于上述 R2 值问题,校正的 R 平方值的计算将按分子和分母的自由度对它们进行正规化。这具有对模型中变量数进行补偿的效果,因此校正的 R2 值通常小于 R2 值。但是,执行此校正时,无法将该值的解释作为所解释方差的比例。在 GWR 中,自由度的有效值是带宽的函数,因此与像 OLS 之类的全局模型相比,校正程度可能非常明显。因此,AICc 是对模型进行比较的首选方式。
消息窗口诊断将与模型变量和参数的相关汇总信息一起写入到辅助表 (_supp) 中。
(C) 检查输出要素类残差。
详细指定的回归模型的偏高预计值和偏低预计值将会随机分布。偏高预计值和/或偏低预计值的聚类表明至少丢失了一个关键解释变量。检查 OLS 和 GWR 模型残差的分布格局可了解是否可从这些分布格局中确定可能丢失的那些变量。对回归残差运行空间自相关(Moran's I) 工具可确保回归残差在空间上随机分布。高残差和/或低残差(模型偏高预计值和偏低预计值)在统计学上的显著聚类表明错误地指定了 GWR 模型。
除回归残差之外,输出要素类包含表示观测所得和预测的 y 值、条件数 (cond)、Local R2、解释变量系数和标准误差的字段:
- 条件数:此诊断用于评估局部多重共线性。存在较强局部多重共线性的情况下,结果将变得不稳定。与大于 30 的条件数相关联的结果可能不可靠。
- Local R2:这些值的范围是 0.0 与 1.0 之间,表示局部回归模型与观测所得 y 值的拟合程度。如果值非常低,则表示局部模型性能不佳。映射 Local R2 值以查看哪些位置 GWR 预测较准确和哪些位置不准确可为获知可能在回归模型中丢失的重要变量提供相关线索。
- 已预测:这些值是由 GWR 计算所得的估计(或拟合)y 值。
- 残差:要获得残差值,可从观测所得 y 值中减去拟合 y 值。标准化残差的平均值为零,标准差为 1。在 ArcMap 中执行 GWR 时,将向内容列表中自动添加包含标准化残差的由冷色到暖色渲染的地图。
- 系数标准误差:这些值用于衡量每个系数估计值的可靠性。标准误差与实际系数值相比较小时,这些估计值的可信度会更高。较大标准误差可能表示局部多重共线性存在问题。
(D) 检查由 GWR 创建的系数栅格表面(和/或包含面数据的系数栅格表面,面数据即要素级别系数的渐变色彩渲染)以更好地了解模型解释变量中的局部变化。使用 GWR 对某些变量(因变量)进行建模时,您通常会关注预计值或了解生成因变量结果的各个因素。然而,您可能还会关注如何检查整个研究区域中因变量与各解释变量之间的关系的空间一致(静态)程度。将系数分布作为表面进行检查将显示变化的位置和变化的程度。您可通过对此变化的了解确定操作策略:
- 通过统计学上表示较小局部变化的较大全局变量可确定全局策略。
- 通过统计学上表示较强局部变化的较大全局变量可确定局部策略。
- 某些变量可能并不是在全局范围内各区域中均比较显著,因为在某些区域中,它们是正相关的关系,而在其他区域中它们则是负相关的关系。
(E) 地图 GWR 预测。将 GWR 应用于采样数据时,可使用它进行预测。为因变量未知的位置指定包含所有解释变量的要素类。GWR 使用输入要素类中的已知因变量值校准回归方程,然后创建具有因变量估计值的新输出要素类。