探索性回归的工作原理

寻找一个正确指定的 OLS 模型会比较困难,特别当存在很多潜在的解释变量,而且您认为这些解释变量都可作为对要尝试建模的变量(因变量)非常重要的影响因素时。探索性回归工具可帮助您对这一情况进行简化。探索性回归工具是一种数据挖掘工具,此工具将尝试解释变量的所有可能组合,以便了解哪些模型可以通过所有必要的 OLS 诊断。通过评估候选解释变量的所有可能组合,可以大大增加找到最佳模型的机会,从而解决您的问题或回答您的问题。虽然探索性回归与逐步回归(可在许多统计软件包中找到)相似,但探索性回归并非只是寻找具有较高校正 R2 值的模型,而是寻找满足 OLS 的所有要求和假设的模型。

使用“探索性回归”工具

当运行探索性回归工具时,您要指定每个模型应包含的解释变量的最小数量和最大数量,以及校正 R2系数 p 值方差膨胀因子 (VIF) 值Jarque-Bera p 值空间自相关 p 值的阈值条件。探索性回归针对至少具有解释变量的最小数量但不超过解释变量的最大数量的模型的候选解释变量的每种可能组合运行 OLS。此工具将根据搜索条件对每个尝试的模型进行评估。当找到满足以下条件的模型时:

它随后会对该模型的残差运行空间自相关 (Global Moran’s I) 工具。如果空间自相关 p 值也大于在工具的搜索条件中指定的值(可接受的最小空间自相关 p 值),则该模型将被视为合格模型列出。探索性回归工具还将对具有三个最高校正 R2 结果的模型使用空间自相关工具,进行回归残差检验。

合格模型下所列出的模型即为符合指定搜索条件的模型。如果采用的是最大 p 值系数边界最大 VIF 值边界可接受的最小 Jarque Bera p 值可接受的最小空间自相关 p 值的默认值,则您的合格模型也将是正确指定的 OLS 模型。正确指定的 OLS 模型满足以下条件:

当指定输出结果表时,满足最大 VIF 值边界以及所有解释变量满足最大系数 p 值中断的模型将被写入表中。该表不仅是在检查文本报表文件中包括的模型时有用。

一些注意事项

请注意,与使用逐步回归等方法类似,使用探索性回归工具同样存在争议。夸张地说,对于此问题大致可分为两派:科学方法观点和数据挖掘者的观点。

科学方法观点

科学方法的强烈支持者可能会反对探索性回归方法。从他们的角度来说,您应建立正式的假设,然后才能对数据进行探索,以避免创建的模型仅对数据进行了拟合而无法反映更广泛的活动过程。构建模型时如果导致过度拟合某一特定数据集,则可能导致所构建的模型与其他数据集完全不相关 - 有时,事实上即使增加新的观察点都会导致过度拟合的模型变得不稳定(性能可能下降和/或解释变量系数显著性变小)。模型不够强大时,即使对于新的观察,毫无疑问,在关键流程中也不会获得尝试建模的数据。

此外,请认识到,回归统计基于概率论。当运行数以千计的模型时,会大大增加不恰当地拒绝零假设的机率(一种值为 1 的统计误差)。例如,当选择 95% 的置信度时,您会面临特定的风险;如果对数据重采样 100 次,此概率显示 100 个样本当中会有多达 5 个样本会产生误报。会为每个系数计算 P 值;零假设是指系数实际上为零,因此,与该系数关联的解释变量对您的模型没有帮助。概率论表明,在 100 个样本中具有多达 5 个错误样本的情况下,p 值可能具有统计显著性,原因只是因为您恰好选择了无法支持结论的观察现象。当只运行一个模型时,95% 的置信度似乎有些保守。随着您所尝试的模型数量的增加,您将无法根据结果得出结论。探索性回归工具可以在几分钟内尝试数千个模型。输出报表文件全局汇总部分将报告所尝试的模型数量。

数据挖掘者的观点

另一方面,数据挖掘学派的研究人员可能觉得无法先验知晓有助于任何给定真实结果的所有因素。我们尝试回答的问题常常非常复杂,有关特定主题的理论可能并不存在,或者可能已经过时。数据挖掘者是归纳分析(例如由探索性回归提供的分析)的有力支持者。他们鼓励跳出思维的框框,利用探索性回归方法,推动假设理论的发展。

建议

我们认为,当与判断力结合使用时,探索性回归是一个宝贵的数据挖掘工具,它可以帮助您找到正确指定的 OLS 模型。我们的建议是,您应始终选择受到理论、专家指导和常识所支持的候选解释回归变量。使用一部分数据对回归模型进行校正,并用剩余的数据对其进行验证,或者在其他数据集上对模型进行验证。如果您打算根据结果进行推理,您至少要执行灵敏度分析,例如自举分析法。

使用探索性回归工具比只根据校正 R2 值来评估模型性能的其他探索性回归方法更具优势。探索性回归工具将寻找通过上述所有 OLS 诊断的模型。

5/10/2014