生成特征文件、类和聚类分析
借助 ArcGIS Spatial Analyst 扩展模块,您可以通过将栅格像元分组到类或聚类中来创建分类。类通常指一个已知类别,例如森林、居民区或水体,而聚类则是根据像元属性的统计信息得到的像元分组。特征是代表类或聚类的像元的子集。特征的统计信息存储在一个特征文件中,此特征文件将用于对位于输入波段交集中的所有像元进行分类。
什么是类?
一个类对应于一个有意义的位置分组。例如,森林、水域和小麦高产区都是类。
每个位置均可将值集或值矢量、与每个变量对应的一个值或输入波段作为特性。每个位置都能够以点的形式显示在轴与输入波段中的变量相对应的多维属性空间中。此多维属性空间中的点分组被称为聚类。在这种情况下,由于该聚类引用了一些有意义的对象,因此又可将其视为一个类。如果两个位置的属性(波段值的矢量)相似,则这两个位置将归属于同一个聚类。
如果可以按类的属性值对类进行分隔或区分,则已知类也可以在属性空间中形成聚类。可以将属性空间中对应于自然聚类的位置解释为地层的自然出现的类。
确定用于监督分类的类
在监督分类中,您应清楚要将研究地点划分为哪些类,并且在研究地点中存在代表每个类的样本位置。例如,如果您正在根据卫星影像创建土地利用地图,则可以将该地图划分为如下几个类:市区、水域、森林、原野和道路。这样做的目的是将研究区域内的每个位置分配给一个已知类。可以确定出的属于一个类的样本位置越多,类中的像元值越相似,所产生的分类结果就会越好。将用于确定已知类位置的实际位置称为训练样本。
可在面图层或栅格上识别训练样本。定义训练样本时,可以将现有栅格识别为参考。通常,将栅格中前三个图层的彩色合成显示为背景,并将其作为识别生成训练样本时要圈定区域的参考。
在非监督分类过程中创建聚类
非监督分类过程的第一步是创建聚类。从统计学观点来看,聚类是数据中的自然产生的分组。Iso 聚类工具需要输入栅格波段、类数、输出特征文件的名称、迭代次数、最小类大小以及对计算聚类所依据的采样点进行提取时参照的时间间隔(将在下文中对最后三个参数进行说明)。
此工具会返回一个特征文件,其中包含关于所识别聚类的像元子集的多元统计信息。计算结果可以确定出像元位置与聚类之间的所属关系、聚类的平均值以及方差协方差矩阵。此类信息存储在 ASCII 特征文件中。对其余未采样的像元进行聚类和分类处理时,特征文件必不可少。
存储类或聚类统计信息:特征文件
特征文件是用于存储感兴趣的每个类或聚类的多元统计信息的 ASCII 文件。该文件包括每个类或聚类的平均值、类或聚类中像元的数目以及类或聚类的方差协方差矩阵。
可以使用任何文本编辑器来显示特征文件。
对于任何类或聚类,在方差协方差矩阵中从左上角移至右下角的对角线值是与特定输入栅格波段(通过波段矩阵中的行/列交集确定)相对应的变量的方差值。此方差协方差矩阵中的所有其他值都是协方差值。
如何为非监督分类确定聚类
在非监督分类过程中创建聚类时使用名为 Iso Cluster 的算法。isodata 聚类算法的前缀 Iso 代表迭代自组织 (ISO),这是一种用于执行聚类操作的方法。聚类是通过研究区域内像元的子集计算而来的。所有聚类计算都是针对多元分析属性空间中的像元值执行的,而不基于任何空间特征。也就是说,平均值是根据不同输入波段的属性值计算出来的。而方差值和协方差值则是根据波段内以及两个波段之间的方差计算出来的。
以下示例使用了 K 均值或 ISO 聚类方法。将使用双波段栅格从理论上阐述此方法。对于输入的所有波段或在 n 维空间中,此方法均有效。为更好地理解 ISO 聚类方法,下文从概念上进行了说明。
- 使用绘制在 x 轴上的第一个波段内的值范围和绘制在 y 轴上的第二个波段内的值范围创建一个空图。
- 绘制一条 45 度的线,然后将其划分成线段,线段数与所指定的类数相同。其中每条线段的中心点即是类的初始平均值。
- 将每个采样像元绘制在图上,然后确定出该点与 45 度线上的每个平均中心点之间的距离。在属性空间中,使用勾股定理计算出该距离。将采样点分配到通过最近平均中心点表示的聚类中。
- 绘制下一个采样点,然后针对所有采样点重复执行上述步骤。
- 上述过程将进行迭代。在进行下一次迭代之前,将根据当前分配到上一次迭代中的聚类的像元位置值计算出各聚类的新平均中心点。使用各聚类的新平均中心点重复执行前两个步骤。
- 更新平均值,然后重复执行先前的步骤。更新平均值的迭代过程将继续进行,直到达到用户定义的迭代次数,或者直到只有不到百分之二的像元从一个聚类转换到与迭代中的新平均值相关的另一个聚类中。
聚类过程对各波段内的值范围很敏感。此值范围用于确定计算平均值点和采样点之间的“欧氏”距离时所依据的 x 和 y 轴上的值。要使各波段的属性数大致相同,无论是执行监督分类,还是执行非监督分类,各波段的值范围都应类似。当一个波段的值范围相对于其他波段较小时,多元空间中的“欧氏”距离可能会过小而导致几个聚类的平均值等于 0。如果任何一个聚类的平均值为 0,则最终分类和基于特征文件的任何其他多元分析工具都将失败。理想情况下,应将所有波段归一化到相同的值范围。