シグネチャ ファイル、クラス、およびクラスタの解析の作成
ArcGIS Spatial Analyst エクステンションを使用して、ラスタ セルをクラスまたはクラスタにグループ化して分類を作成できます。クラスは通常、森林、居住地域、水域などの既知のカテゴリで、一方クラスタはセルの属性の統計情報に基づいてグループ化したセルです。シグネチャは、クラスまたはクラスタを代表するセルのサブセットです。シグネチャの統計情報は、シグネチャ ファイルに格納され、入力バンド内の交差するすべてのセルの分類に使用されます。
クラスとは
クラスは、意味のある位置のグループに対応します。たとえば、森林、水、高い小麦の生産高はすべてクラスです。
各位置は、値のセットまたはベクタで特性付けられ、各変数、または入力バンドについて 1 つの値をとります。各位置は、多次元属性空間内の 1 ポイントとして視覚化でき、その空間の軸は入力バンドの変数に対応します。この多次元属性空間内にあるポイントのグループがクラスタと呼ばれ、この場合、クラスタは何か意味のあるものを示すので、クラスとしても見なすことができます。2 つの位置の属性(バンド値のベクトル)が似ている場合、その 2 つの位置は同じクラスタに属します。
クラスをその属性値で分離または区別できる場合は、既知のクラスが属性空間内でクラスタを形成できます。属性空間内の自然なクラスタに対応する位置は、層の自然発生的なクラスと解釈できます。
教師付き分類のクラスの指定
教師付き分類では、解析地域を分類するクラスが分かっていて、各クラスを代表するサンプル位置が解析地域にあります。たとえば、衛星写真から土地利用マップを作成する場合、クラスには都市部、水域、森林、農地、道路などがあります。目的は、解析エリア内の個々の位置を既知のクラスに割り当てることです。あるクラスに属すると特定できるサンプル位置が多いほど、またクラス内のセル値が均質になるほど、その後の分類が良好に行われます。既知のクラス位置を示す実際の位置は、トレーニング サンプルと呼ばれます。
トレーニング サンプルはポリゴン レイヤまたはラスタ上で特定できます。トレーニング サンプルを定義するときに、既存のラスタを参照として指定できます。通常、ラスタの最初の 3 つのレイヤのカラー合成が背景として表示され、トレーニング サンプルの作成時に囲むエリアを特定するための参照として使用されます。
教師なし分類によるクラスタの作成
教師なし分類の最初のステップはクラスタを作成することです。統計的に、クラスタは自然発生的なデータのグループです。[ISO クラスタ] ツールには、入力 ラスタ バンド、クラス数、出力シグネチャ ファイルの名前、反復回数、最小クラス サイズ、およびクラスタを計算するサンプル ポイントを収集する間隔が必要です(最後の 3 つのパラメータについては後述)。
[ISO クラスタ] ツールは、特定したクラスタのセルのサブセットについて、多変量統計情報を持つシグネチャ ファイルを返します。得られた計算により、どのセル位置がどのクラスタに属するか、クラスタの平均値、および分散-共分散マトリックスが得られます。この情報が、ASCII シグネチャ ファイルに保存されます。シグネチャ ファイルは、残りの未サンプリング セルのクラスタ化と分類に重要です。
クラスまたはクラスタの統計情報の格納: シグネチャ ファイル
シグネチャ ファイルは、着目する各クラスまたは各クラスタの多変量統計情報を格納する ASCII ファイルです。このファイルには各クラスまたは各クラスタの平均値、クラスまたはクラスタ内のセルの数、およびクラスまたはクラスタの分散-共分散マトリックスがあります。
シグネチャ ファイルは任意のテキスト エディタで表示できます。
任意のクラスまたはクラスタについて、分散-共分散マトリックスの左上から右下にある対角値は変数の分散値で、バンドのマトリックスの行/列の交点で指定される入力ラスタ バンドに対応します。マトリックス内のその他の値はすべて、共分散値です。
教師なし分類でクラスタを決定する手順
教師なし分類でクラスタを作成するために使用するアルゴリズムの名前は、ISO クラスタ(Iso Cluster)です。ISO クラスタ(Iso Cluster)アルゴリズムの接頭辞「Iso」は、Iterative Self Organizing(ISO: 反復自己組織化)のクラスタ化の方法を意味しています。クラスタは、解析エリアのセルのサブセットを使用して計算されます。クラスタの計算はすべて、多変量属性空間にあるセルの値に対して行われます。空間的な特性に基づく計算は行われません。つまり、平均値は、異なる入力バンドの属性値から得られます。分散と共分散の値は、バンド内、およびバンド外の変動から計算されます。
次の例では、K-mean 法、つまり ISO クラスタ化の手法を使用しています。方法を理論的に説明するために、2 つのバンドを持つラスタを使用しています。同じ方法が、入力された多数のバンド、または n 次元空間でも使用できます。次の説明は、ISO クラスタ化手法をよりよく理解できるように概念的なものです。
- 空のグラフが作成され、X 軸に最初のバンド値の範囲、Y 軸に 2 番目のバンドの値の範囲がプロットされます。
- 45 度の直線が作図され、指定したクラス数に分割されます。これらの各線分長の中央のポイントが、クラスの初期平均値です。
- 各サンプル セルがグラフにプロットされ、そのポイントから 45 度のライン上にある平均値を示す各中央ポイントまでの距離が得られます。距離の計算には、ピタゴラスの定理を使用します。サンプル ポイントが、平均の中央ポイントが最も近いクラスタに割り当てられます。
- 次のサンプル ポイントがプロットされ、前述の手順がすべてのサンプル ポイントについて繰り返されます。
- 前述のプロセスが反復されます。次の反復の前に、前の反復でクラスタに現在割り当てられているセル位置の値に基づいて、各クラスタについて新しい平均値を持つ中央ポイントが計算されます。各クラスタについて新しい平均値の中央ポイントを使用して、前述の 2 つのステップが繰り返されます。
- 平均値が更新され、前述のステップが繰り返されます。ユーザ指定の反復回数に到達するまで、または反復内の新しい平均値を使用することで、あるクラスタから別のクラスタに変化するセルの割合が 2 % 未満になるまで、平均値を更新する反復プロセスが続行されます。
クラスタ化は、各バンド内の値の範囲の影響を受けます。この値の範囲により、平均値からサンプル ポイントまでのユークリッド距離の計算に使用する X 軸と Y 軸の値が決まります。各バンドの属性を同等に考慮するには、教師付き分類と教師なし分類のいずれを実行する場合でも、各バンドの値の範囲を同様にする必要があります。あるバンドの値の範囲が他のバンドに比べて小さい場合、多変量空間のユークリッド距離が小さくなり、いくつかのクラスタの平均値が 0 になることがあります。クラスタの平均値が 0 の場合、最終的な分類、およびシグネチャ ファイルに依存するその他の多変量解析ツールは失敗します。理想的には、すべてのバンドを同じ値の範囲に正規化する必要があります。