最小二乗法(Ordinary Least Squares)ツールの結果の解析
[最小二乗法(Ordinary Least Squares)] ツール(以下、「OLS ツール」)によって生成される出力には、次のものが含まれます。
- 出力フィーチャクラス
- 統計結果のメッセージ ウィンドウ レポート
- PDF レポート ファイル(オプション)
- 説明変数の係数のテーブル(オプション)
- 回帰診断のテーブル(オプション)
これらの出力については、以下に示す、OLS ツールを実行し、OLS ツールの結果を解釈する手順において説明します。
(A)OLS ツールを実行するには、[入力フィーチャクラス] に、[個別値フィールド]、モデリング/説明/予測する [従属変数]、[説明変数] のリストを指定する必要があります。また、[出力フィーチャクラス] にパスを指定する必要もあり、オプションで、[出力レポート ファイル]、[係数出力テーブル]、および [診断出力テーブル] にパスを指定することもできます。
OLS ツールを実行したら、最初に OLS サマリ レポートを確認します。これは、[結果] ウィンドウに書き込まれています。[結果] ウィンドウのメッセージ エントリを右クリックして、[表示] を選択すると、サマリが [メッセージ] ダイアログ ボックスに表示されます。OLS ツールをフォアグラウンドで実行すると、サマリは進行状況ダイアログ ボックスにも表示されます。
(B)下記の手順に従って、サマリ レポートを調べます。
統計レポートの分析
- モデルのパフォーマンスを評価します。[Multiple R-Squared](R2)および [Adjusted R-Squared](補正 R2) の値は、モデルのパフォーマンスを計測するための基準です。有効な値の範囲は 0.0 ~ 1.0 です。[Adjusted R-Squared] の値は、データと関連付けられているためモデルの複雑さ(変数の数)を反映し、モデルのパフォーマンスを計測するためにはより正確な基準であるため、常に [Multiple R-Squared] の値よりも若干低い値になります。モデルに説明変数をさらに追加すると、通常、[Multiple R-Squared] の値は高くなりますが、[Adjusted R-Squared] の値は低くなる場合があります。空き巣の回帰モデルを作成しているとします(各国勢調査区域に関連付けられている空き巣の数を従属変数 y とします)。[Adjusted R-Squared] の値が [0.39] であれば、モデル(線形回帰を使用してモデリングされた説明変数)は従属変数の値変動の約 39% を説明できていることになります。つまり、このモデルは、発生した空き巣のおよそ 39% について物語っていることになります。
- モデル内の各説明変数を評価します。これらには、係数、確率またはロバスト確率、および VIF(Variance Inflation Factor: 分散拡大要因)があります。各説明変数の係数は、説明変数の従属変数に対するリレーションシップの強度とタイプの両方を反映します。係数に関連付けられている符号が負であれば、リレーションシップも負です(たとえば、都市中心部からの距離が遠ければ遠いほど、空き巣の数も少なくなるなど)。符号が正であれば、リレーションシップも正です(たとえば、人口が多ければ多いほど、空き巣の数も多くなるなど)。係数は、それに関連付けられている説明変数と同じ単位で示されます(0.005 の係数に人口数を表す変数が関連付けられている場合は、0.005 人として解釈できます)。係数は、関連付けられている説明変数の 1 単位の変化に対して予想される従属変数の変化を反映し、その他のすべての変数は一定に保たれます(たとえば、国勢調査区域の人口が 1 人増加するたびに空き巣の数が 0.005 件増加することが予想され、その他のすべての説明変数は一定に保たれるなど)。説明変数が統計的に有意であるかどうかを評価するためには、t 検定が使用されます。その帰無仮説は、係数が実質的には 0 であること(したがって、モデルにとって無意味であること)です。確率またはロバスト確率(p 値)が非常に小さければ、係数が実質的に 0 である可能性も低くなります。Koenker 検定(下記を参照)が統計的に有意である場合は、ロバスト確率を使用して説明変数の統計的な有意性を評価します。統計的に有意な確率には、その横にアスタリスク(*)が表示されています。統計的に有意な係数に関連付けられている説明変数は、従属変数に対して有効なリレーションシップを持っていることが理論上または常識的に推定される場合、モデリング対象のリレーションシップが主に線形である場合、および変数がモデルの他の説明変数と重複していない場合は、回帰モデルにとって重要です。VIF は、説明変数がどれほど重複しているかを計測するための基準です。一般的に、7.5 より大きい VIF 値に関連付けられている説明変数は、回帰モデルから(1 つずつ)削除する必要があります。たとえば、回帰モデルに人口変数(人口数)と雇用変数(被雇用者数)がある場合、これらは通常、大きい VIF 値に関連付けられており、これらの変数の両方が同じことを物語っているため、どちらかをモデルから削除する必要があります。
- モデルの有意性を評価します。[Joint F-Statistic](Joint F 統計) と [Joint Wald Statistic](Joint Wald 統計) は、全体的なモデルの統計的な有意性を計測するための基準です。[Joint F-Statistic] は、[Koenker (BP) Statistic](Koenker(BP)統計、下記を参照)が統計的に有意ではない場合にのみ信頼できます。[Koenker (BP) Statistic] が有意であれば、[Joint Wald Statistic] を確認して全体的なモデルの有意性を判断します。これらのテスト両方の帰無仮説は、モデルの説明変数が有効ではないということです。信頼度が 95% の場合に、p 値(確率)が 0.05 未満であれば、モデルが統計的に有意であることを示します。
- 定常性を評価します。[Koenker (BP) Statistic](Koenker のスチューデント化された Bruesch-Pagan 統計)は、モデルの説明変数が、地理空間とデータ空間の両方にある従属変数に対して一貫性のあるリレーションシップを持っているかどうかを判断するためのテストです。モデルが地理空間で一貫している場合、説明変数によって表される空間プロセスは、スタディ エリア全体で同じように動作します(プロセスは定常である)。モデルがデータ空間で一貫している場合、予測値と各説明変数のリレーションシップの値変動は、説明変数の値が変化しても変化しません(モデルに不均一分散がない)。犯罪を予測するとし、説明変数の 1 つが所得であるとします。予測が、中所得世帯が少ないロケーションについては中所得世帯が多いロケーションよりも正確である場合、モデルには不均一分散の問題があることになります。このテストの帰無仮説は、モデルが定常であることです。信頼度が 95% の場合に、p 値(確率)が 0.05 未満であれば、不均一分散または非定常性が統計的に有意であることを示します。このテストの結果が統計的に有意である場合は、ロバスト係数標準誤差および確率を確認して、各説明変数の有効性を評価します。通常、統計的に有意な非定常性がある回帰モデルは、[地理空間加重回帰分析(Geographically Weighted Regression)](GWR)ツールの分析に適切な候補です。
- モデルの偏りを評価します。[Jarque-Bera Statistic](Jarque-Bera 統計) の値は、残差(従属変数の観測値または既知の値から予測値または推定値を減算したもの)が正規分布しているかどうかを示します。このテストの帰無仮説は、残差が正規分布していることです。したがって、これらの残差のヒストグラムを作成すると、典型的な釣鐘曲線(ガウス分布)に似た形状が示されます。このテストの p 値(確率)が小さい場合(たとえば、信頼度が 95% で、0.05 未満であるなど)、残差は正規分布せず、モデルに偏りがあることを示します。残差(下記を参照)に統計的に有意な空間的自己相関がある場合、その偏りは、モデルが正しく指定されていない(主要な変数がモデルにない)ことの結果であることがあります。正しく指定されていない OLS モデルの結果は信頼できません。非線形リレーションシップをモデリングしようとしている場合や影響力のある外れ値がデータに含まれている場合、または高レベルの不均一分散が存在する場合は、統計的に有意な Jarque-Bera 検定が実行されることもあります。
- 残差の空間的自己相関を評価します。常に、[空間的自己相関分析(Spatial Autocorrelation(Morans I))] ツールを回帰残差で実行して、それらが空間的にランダムであることを確認します。高い残差および低い残差の統計的に有意なクラスタリング(モデルの下方予測および上方予測)は、主要な変数がモデルにないこと(モデルが正しく指定されていないこと)を示します。OLS の結果は、モデルが正しく指定されていない場合は信頼できません。
- 最後に、「回帰分析の基礎」の「回帰モデルの不適切な指定」セクションを参照して、OLS 回帰モデルが適切に指定されていることをチェックします。適切に指定された回帰モデルを見つけられない場合は、[予備回帰分析(Exploratory Regression)] ツールが非常に役立ちます。OLS サマリ レポートの最後にある「注釈」を参照すると、各統計検定の目的を再確認し、モデルが 1 つ以上の診断に失敗したときの解決法を得ることができます。
(C)オプションの [出力レポート ファイル] のパスを指定すると、PDF が作成されます。これには、サマリ レポート内のすべての情報に加えて、モデルを評価するのに役立つ追加のグラフィックスが含まれています。レポートの最初のページには、それぞれの説明変数に関する情報があります。サマリ レポートの最初のセクションと同様に(上記 2 を参照)、この情報を利用して、各説明変数の係数が統計的に有意であるかどうか、適切な記号(+/-)が使用されているかどうかを確認します。Koenker 検定が統計的に有意である場合(上記 4 を参照)、ロバスト確率を信頼して、変数がモデルにとって意味があるかどうかを判断できます。統計的に有意な係数には、確率とロバスト確率、またはそのいずれかの列の p 値の横にアスタリスク(*)が表示されます。また、レポートのこのページの情報から、説明変数のいずれかが重複していないか(問題のある多重共線性を示していないか)を判断することもできます。他の方法を指示する理論がない限り、高い分散拡大係数(VIF)値を持つ説明変数を 1 つずつ削除して、残りのすべての説明変数の VIF 値が 7.5 より小さくなるようにする必要があります。
[出力レポート ファイル] の次のセクションには、OLS の診断確認の結果が表示されます。このページには、それぞれの確認が重要である理由を説明する「注釈」も含まれています。モデルによるこれらの診断のいずれかが失敗した場合、「一般的な回帰分析の問題」に記載の表をご参照ください。ここには、それぞれの問題の重要度が示され、可能な解決法が提示されています。レポートの残りのページにあるグラフも、モデルに関する問題の特定や解決に役立ちます。
[出力レポート ファイル] の 3 番目のセクションには、モデルの各変数の分布を示すヒストグラムと、従属変数と各説明変数との間のリレーションシップを示す散布図があります。モデルの偏り(統計的に有意な Jarque-Bera の p 値によって示される)に問題が生じた場合、ヒストグラム間の偏った分布を特定し、これらの変数を変換して、偏りがなくなりモデルのパフォーマンスが改善されたことを確認します。散布図は、どの変数が最善の予測子であるかを示します。これらの予測子を使用して、変数間の非線形リレーションシップを確認することもできます。場合によっては、1 つ以上の変数を変換すると、非線形リレーションシップが修正され、モデルの偏りがなくなることもあります。データ内の外れ値によって、偏ったモデルが生じる可能性もあります。ヒストグラムと散布図の両方を確認して、これらのデータ値とデータのリレーションシップ、またはそのいずれかを確認します。外れ値を含めた場合と含めない場合のモデルを実行して、結果に与える影響の違いを確認します。外れ値が無効なデータ(エラーとして入力または記録される)であることがわかると、関連付けられたフィーチャをデータセットから削除することができます。外れ値が有効なデータを反映していて、分析結果に非常に大きな影響を与えている場合は、外れ値を含めた場合と含めない場合の両方の結果をレポートすることができます。
モデルを適切に指定すると、上方予測と下方予測にランダム ノイズが反映されます。ランダム ノイズのヒストグラムを作成すると、(釣鐘曲線のような)正規分布になります。[出力レポート ファイル] の 4 番目のセクションには、モデルの上方予測と下方予測のヒストグラムが示されます。ヒストグラムのバーは実際の分布を示します。ヒストグラムの上部に重ねて表示される青いラインは、残差が実際に正規分布した場合にヒストグラムが取る形状を示します。完璧な正規分布は期待できないため、Jarque-Bera 検定を確認して、正規分布からの偏差が統計的に有意であるかどうかを判断します。
Koenker 診断により、モデリングするリレーションシップが、分析範囲全体にわたって変化するのか(非定常性)、または予測する変数の大きさを基準として変化するのか(不均一分散)がわかります。[地理空間加重回帰分析(Geographically Weighted Regression)] を使用すると、非定常性の問題が解決します。[出力レポート ファイル] のセクション 5 のグラフは、不均一分散の問題があるかどうかを示します。この散布図(下記)は、モデルの残差と予測値との間のリレーションシップを表します。犯罪率をモデリングする場合を考えます。グラフに円錐形状が表示され、グラフの左側にポイント、右側に最大幅の拡散が表示される場合、モデルが、犯罪率の低い領域では適切に予測しているが、犯罪率の高い領域では適切に予測していないことを示しています。
レポートの最後のページには、レポートの作成時に使用されたパラメータ設定のすべてが記録されます。
(D)[出力フィーチャクラス] にあるモデルの残差を調べます。適切に指定された回帰モデルの上方予測と下方予測は、ランダムに分散されます。上方予測および下方予測のクラスタリングは、少なくとも 1 つの主要な説明変数がないことを示します。モデルの残差のパターンを調べて、どの変数が不足しているかを特定するためのヒントがあるかどうかを確認します。回帰残差で [ホット スポット分析(Hot Spot Analysis)] ツールを実行すると、幅広いパターンを特定できることがあります。不適切に指定されたモデルの対処方法の概要を以下に示しています。「回帰分析の詳細」
(E) 係数テーブルと診断テーブルを確認します。係数テーブルと診断テーブルを作成するかどうかはオプションです。効果的なモデルを見つけ出すプロセスを行っている間に、これらのテーブルを作成するかどうかを選択します。モデルを構築するプロセスは反復的であり、一般的に、いくつかの適切なモデルに絞り込むまで、多数のさまざまなモデル(異なる説明変数)を試す必要があります。レポートの [Corrected Akaike Information Criterion (AICc)](補正赤池情報量基準(AICc))の値を確認することで、モデルを比較できます。[AICc] の値がより小さいモデルが、より適切なモデルです(つまり、モデルの複雑さを考慮すると、[AICc] の値が小さければ小さいほど、観測されたデータにより近似していることを示します)。
最終的な OLS モデルの係数テーブルと診断テーブルを作成して、OLS レポートの重要な要素を記録します。係数テーブルには、モデルで使用されている説明変数とその係数のリスト、標準化係数、標準誤差、確率などが含まれます。係数は、関連する説明変数が 1 単位変化した場合に、従属変数がどれだけ変化するかを評価したものです。係数の単位は、説明変数と一致します。たとえば、全人口の説明変数の場合、その変数の係数の単位は人になります。説明変数が鉄道駅からの距離(メートル)の場合、係数の単位はメートルになります。係数が標準偏差に変換される場合、標準化係数と呼ばれます。標準化係数を使用すると、さまざまな説明変数の従属変数に対する影響を比較できます。+/- 記号を取った(絶対値にした)最大の標準化係数を持つ説明変数は、従属変数に対して最大の影響力を持ちます。ただし、係数の解釈では、標準誤差のみが考慮されます。標準誤差は、無限にデータをリサンプリングしたりモデルを再調整したりしたと仮定した場合に、同じ係数を取得できる確率を示します。係数に対して大きな標準誤差とは、リサンプリング処理によって取り得る係数値の範囲が広いことを意味します。小さい標準誤差とは、係数がほぼ一定になることを示しています。
診断テーブルには、各診断テストの結果と、それらの結果の解釈方法のガイドラインが含まれます。
参考資料
「空間統計リソース ページ」には、OLS の学習に役立つ優れたリソースが多数あります。まず、「回帰分析の基本」を読むか、Esri Virtual Campus にある 1 時間の無料 Web セミナー「Regression Analysis Basics」をご覧ください。次に、「Regression Analysis tutorial」を学習してください。回帰分析を独自のデータに適用します。詳細については、「一般的な問題のテーブル」と「回帰分析の詳細」と呼ばれる資料をご参照ください。適切に指定されたモデルを見つけられない場合は、[予備回帰分析(Exploratory Regression)] ツールが非常に役立ちます。