統計解析

基本的に、GIS データはフィーチャ属性とそれらの位置に関する情報です。この情報は、ビジュアルに解析できるマップを作成するために使用されます。統計解析は、GIS データから追加情報を抽出するのに役立ちます。このような情報は、属性値の分布、データに空間トレンドがあるかどうか、フィーチャが空間パターンを形成するかどうかといったマップ情報を調べるだけでは明らかにならないことがあります。個別属性表示や選択といった個々のフィーチャに関する情報を提供する検索関数とは異なり、統計解析はフィーチャ全体の特性を明らかにします。

ここで説明する統計解析手法の一部は、特定の環境でデータを選択して表示できる ArcMap などの対話型アプリケーションに最適です。ここで説明する方法の一部は、ArcMap のメニューやツールバーに含まれており、それらに相当するジオプロセシング ツールはありません。空間統計ツールといった他の手法は、ジオプロセシング ツールとして実装されています。

統計解析の使用

統計解析はデータを調査するためによく使用されます。たとえば、特定の属性の値の分布や異常値(飛び抜けて高いまたは低い値)を調べるために使用されます。この情報は、マップ上にクラスや範囲を定義するとき、データを再分類するとき、データ エラーを調べるときに役立ちます。

次の例では、この地域の国勢統計区によって高齢者(各統計区の平均年齢 65 歳以上)の分布を計算しており、これには平均、標準偏差、分布値を示すヒストグラムが含まれています。ほとんどの統計区では、高齢者の割合が平均値を下回っていますが、非常に高い割合を示す統計区がいくつかあります。

要約統計量とヒストグラム

統計解析には、データを集計するという用途もあります。これは各土地利用カテゴリの合計面積を計算するなど、多くの場合はカテゴリに対して実行されます。また、各流域の平均水位を計算するなど、空間的な集計を作成することもできます。集計データは調査地域の状態をよく理解するのに役立ちます。

次の例では、土地利用クラスごとに、そのクラスの土地区画の数、土地区画の最大サイズと最小サイズ、土地区画の平均サイズ、クラスの合計面積が要約統計量として計算されています。

土地区画フィーチャのサイズは土地利用クラスによって異なり、統計情報がそのパターンを示します。
要約統計量によってデータのパターンが明らかになることがあります。

統計解析は、フィーチャ グループの中心、方向トレンド、フィーチャがクラスタを形成するかどうかといった空間パターンを特定して確定する目的でも使用されます。パターンがマップ上で明らかなこともありますが、マップから結論を引き出すのは難しいことがあります。データを分類およびシンボル表示する方法によって、パターンがわかりにくいこともあれば、必要以上に強調されていることもあります。統計解析関数は、元のデータを解析して、パターンの存在と明確さを確認するために使用できる手段を提供します。

次の解析例は、一連の空き巣被害の平均中心と、シカの目撃情報の標準偏差を表す楕円(方向トレンド)を示しています。

空間統計は地理的なパターンやトレンドを示すことができます。

次の解析例は、高齢者の数が多い(オレンジ)または少ない(青)国勢統計区の統計的に重要なクラスタを示しています。

空間統計は地理的なパターンやトレンドを示すことができます。

統計解析の種類

ArcGIS for Desktop の統計解析関数には、非空間解析(表形式)と空間解析(位置を含む)があります。

非空間統計解析は、フィーチャに関連付けされている属性値を解析するために使用されます。これらの値には、レイヤのフィーチャ属性テーブルから直接アクセスします。非空間解析の例としては、平均と標準偏差が挙げられます。

この例では、[要約統計量(Summary Statistics)] ツールを使用して、合計、平均、標準偏差を含め、国勢統計区の空いている土地区画の数を計算しています。

要約統計量

ヒストグラムや Q-Q プロットといったチャートやグラフは、非空間データを解析するもう 1 つの方法です。どの場合も、解析されるのは値だけです。値が関連付けられているフィーチャの位置(およびフィーチャ間の空間リレーションシップ)は考慮されません。

次の例では、ヒストグラムが空いている土地区画の分布を示しています(X 軸は空いている土地区画の数、Y 軸は国勢統計区の数)。

データ値の分布を示すヒストグラム

正規 Q-Q プロットは、標準正規分布(ヒストグラム上では釣鐘曲線)に対する値の分布の類似性を評価するために使用されます。正規 Q-Q プロット上の直線は正規分布の期待値を示しており、値が直線に近づけば近づくほど、分布が正規分布に近づきます。次の例では、土壌サンプルのリン成分の濃度が正規分布に近づいています。

データ値の分布を正規分布と比較する正規 Q-Q プロット

[Normal QQ Plot] ツールは、Geostatistical Analyst エクステンションで提供されるデータ探査ツールの 1 つです。

これに対し、空間統計解析は、フィーチャがどれくらいまとまっているまたは分散しているか、特定の方向を向いているか、クラスタを形成するかどうかといった、フィーチャ間の空間リレーションシップに焦点を合わせます。空間リレーションシップは、通常は距離として定義されますが(フィーチャがどれくらい離れているか)、フィーチャ間に他の関係を持たせることもあります。

次の例では、[標準距離の算出(Standard Distance)] ツールの出力(円)は、計算上の中心から各野生動物の目撃点までの距離を使って計算されています。

ポイント グループの標準距離と平均中心

一部の空間統計解析は、フィーチャの空間リレーションシップとフィーチャに関連付けられている属性の値の両方を考慮します。これらは加重統計解析と呼ばれており、空間リレーションシップは値によって制御されます。加重空間統計解析は、試験の最高得点と最低得点がほぼ同じである学校がクラスタを形成するかどうかなど、同様の値を持つフィーチャがまとまって存在しているかどうかを調べるために使用されます。

次の例では、公園の中心が各公園を訪れた人の数によって加重されています(緑の円のサイズによって表現されています)。

加重平均中心

統計解析関数は、説明的か推定的かによって分類することもできます。説明的な統計解析は、平均値、値の度数分布、フィーチャ グループの方向トレンドなど、解析している値またはフィーチャの特性を集計します。多くの場合、説明的な統計解析は同じエリアで 2 つのフィーチャ セットを比較するのに役立ちます。

次の例は、同じ国勢統計区の高齢者の分布(上)を 5 歳以下の子供の分布(下)と比較しています。

ヒストグラムと要約統計量は人口を比較するための手段です。

次の例では、インディアンと黒人の標準距離を示す円により、このエリアの黒人人口の分布のほうがまとまっていることが示されています。

標準距離と平均中心は人口を比較するための手段です。

推定的な統計解析は、確率論を使用して、(既知の値を使って)値が発生する可能性を予測する、またはデータに見られるパターンまたはトレンドが変化しない可能性を査定します。統計解析関数は、パターンまたはリレーションシップの計測を可能にします。さらに、この計測値で統計検定を実行し、それが何らかの信頼レベルで意味を持つかどうかを判定します。統計解析によって空き巣被害が集中していることが示された場合は、統計テストを実行して、そのクラスタが偶発的なものかどうかを調べます。たとえば、90% の確率でクラスタが偶発的なものではなかったことが判明した場合は、それらの被害に何らかのつながりがあることがわかります。統計テストは蓋然性を判断するために、既存のフィーチャから取得した計測値と、同じエリアに(ランダムに)分散する同じ数のフィーチャから取得されることが期待される計測値とを比較します。

次の例では、左のマップが同じ国勢統計区の高齢者の数が多いクラスタ(オレンジ)と少ないクラスタ(青)を 90% の確率で示し、右のマップが 99% の確率でそれらのクラスタを示しています。

異なり確率レベルで検出されたクラスタの比較

統計解析関数

ArcGIS for Desktop の統計解析関数は、ArcMap、ArcCatalog、ジオプロセシングのほか、Spatial AnalystGeostatistical Analyst の 2 つのエクステンションに含まれています。

表統計

単一フィールドの値を集計する説明的な統計解析は、ArcMap のテーブル ウィンドウ、ArcCatalog のテーブル プレビュー タブ、([解析] ツールボックス内の)[統計] ツールセットなど、ArcGIS for Desktop のいくつかの場所で提供されます。

関数

場所

統計情報

出力

[統計情報] メニュー オプション

ArcMap のテーブル ウィンドウまたは ArcCatalog のテーブル プレビュー タブ

データ数、最小値、最大値、合計値、平均値、標準偏差、頻度分布

結果はウィンドウに表示されます。

[要約統計量(Summary Statistics)] ツール

[解析ツールボックス]/[解析ツールセット]

最小値、最大値、合計値、平均値、標準偏差、範囲、最初のレコード、最後のレコード

結果は新しいテーブルに書き出されます。

1 つのフィールドに対する要約統計量のコア関数を示すテーブル

1 つ以上のフィールドを 1 つのフィールドに集計するには(たとえば、各土地利用クラスの土地区画の数をカウントする、各土地利用クラスの面積を合計する、各クラスの土地区画の平均サイズを求めるなど)、ArcMap テーブル ウィンドウの [サマリ] オプションを使用するか、ArcToolbox の [解析] ツールボックスの [統計] ツールセットの [頻度(Frequency)] ツールを使用します。

関数

場所

統計情報

出力

[統計情報] メニュー オプション

ArcMap テーブル ウィンドウ(フィールド名を右クリック)

最小値、最大値、平均値、合計値、標準偏差、分散

結果は新しいテーブルに書き出されます。

[頻度(Frequecy)] ツール

[解析ツールボックス]/[解析ツールセット]

データ数、合計値

結果は新しいテーブルに書き出されます。

複数のフィールドに対する要約統計量のコア関数を示すテーブル

空間統計解析

[空間統計 ツール] ツールボックス には、一連のフィーチャの分布を解析し、パターンを解析し、クラスタを特定するための統計解析ルーチンが含まれています。

機能エリア

ツールセット

ツール

地理的分布特性の算出

地理的分布特性の算出

平均中心、中心フィーチャ、標準距離、分布指向性分析(Standard Deviational Ellipse)、リニア平均方向

地理パターン解析

パターン分析

平均最近隣距離分析、空間的自己相関分析、高/低クラスタ分析(Getis-Ord General G)

地理クラスタ解析

クラスタ分析のマッピング

クラスタ/外れ値分析(Anselin Local Moran's I)、ホット スポット分析(Getis-Ord Gi*)

回帰分析

空間関係のモデリング

最小二乗法(Ordinary Least Squares)、予備回帰分析(Exploratory Regression)、地理空間加重回帰分析(Geographically Weighted Regression)

[空間統計] ツールの関数と位置

ラスタの統計情報

Spatial Analyst には、主に属性値を集計して要約統計量を新しいラスタ レイヤのセルに割り当てるためにラスタを解析する統計解析関数がいくつか含まれています。これらは、Spatial Analyst ツールボックスのさまざまなツールセットに配置されています。

ツール

場所

入力

出力

機能

セル統計(Cell Statistics)

ローカル ツールセット

複数のラスタ

ラスタ

複数の入力に基づいてセルごとに指定された統計情報を計算する

フォーカル統計(Focal Statistics)

近傍解析ツールセット

ラスタ

ラスタ

各セルのまわりに定義された近傍内にあるラスタの値を集計し、その値を出力ラスタのセルに割り当てます。

ポイント統計(Point Statistics)

近傍解析ツールセット

ポイント フィーチャ

ラスタ

定義された近傍内にあるポイント フィーチャの属性の値を集計し、それらの値を出力ラスタのセルに割り当てます。

ライン統計(Line Statistics)

近傍解析ツールセット

ライン フィーチャ

ラスタ

定義された近傍内にあるライン フィーチャの属性の値を集計し、それらの値を出力ラスタのセルに割り当てます。

ゾーン統計(Zonal Statistics)

ゾーン ツールセット

ラスタまたはポリゴン フィーチャ

ラスタまたは集計テーブル

入力ラスタまたはポリゴン データセットのカテゴリまたはクラス(ゾーン)により、ラスタ サーフェスの値を集計します。

ラスタ統計情報ツールの集計テーブル

データ探査ツール

Geostatistical Analyst は、一連のサンプリング ポイントからのサーフェスの作成に焦点を合わせていますが、チャートやグラフを使ってデータ値をビジュアルに探査するためのツールも搭載しています。これらは、サーフェスの作成に先立ち、特定のデータ セットを使用するためのパラメータを決定するためによく使用されますが、一般に、データ セットを探査する目的でも使用することができます。これらのツールにより、値の分布、データに方向トレンドが存在するかどうか、2 つの属性間にリレーションシップがあるかどうか(たとえば、それらの値のばらつきが揃っている、または反比例するなど)を調べることができます。ツールは、Geostatistical Analyst ツールバー[データの調査] オプションから使用することができます。

関連トピック

5/10/2014