分组分析的工作原理

当我们观察周围的世界时,我们会很自然地对所看到的事物进行组织、分组、区别和划分,以便帮助我们更好地了解周围的一切;这类心理分类过程是学习和理解的基础。同样,为了帮助您了解以及更好地理解数据,您可以使用分组分析工具。它会执行一个分类过程来查找数据中存在的自然聚类。给定要创建的组数,它将寻找一个能够使每个组中的所有要素都尽可能相似但各个组之间尽可能不同的解。要素相似性是基于您为分析字段参数指定的一组特性,同时还可以包括空间属性或空间-时间属性。当指定了空间或空间-时间空间约束时,算法将采用连通图(最小跨度树)来查找自然分组。当指定了 NO_SPATIAL_CONSTRAINT 时,分组分析工具使用 K 均值算法。

虽然存在数百个类似这样的聚类分析算法,但它们都被归类为 NP 难题。这意味着可确保某个解能够完美地实现组内相似性和组间差异最大化的唯一方法就是对要分组的要素的每一种可能组合都进行尝试。虽然这对于少量的要素是可行的,但问题很快会变得非常棘手。

不但确保找到最佳解非常困难,而且尝试找到一种最适合所有可能数据情景的分组算法也不现实。各个组包含的形状、大小和密度各不相同;属性数据可能包括各种范围、对称性、连续性和测量单位。这就是过去 50 年来开发了如此众多不同聚类分析算法的原因。因此,最适合将分组分析视为一种可帮助您更好地了解数据基本结构的探索性工具。

可能的应用

应用此工具的一些方法如下:

输入

此工具将获取点、折线或面输入要素、唯一 ID 字段、输出要素类的路径、一个或多个分析字段、表示所要创建的组数的整数值以及应在分组算法中应用的空间约束的类型(如果有)。另外,还有许多可选的参数,包括允许您创建 PDF 输出报表文件的参数。

分析字段

选择反映比率间隔序数测量系统的数值字段。虽然标称数据可以使用哑元(二进制)变量进行表示,但它们通常不像其他数值变量类型一样起作用。例如,您可以创建一个名为 Rural 的变量,并向每个要素(如每个人口普查区)分配 1(如果大部分是乡村)和 0(如果大部分是城市)。但是,如果要与分组分析结合使用,那么此变量更好的表示方法是,使用与每个要素相关的乡村面积的数量或比例来表示。

您应该选择您认为可以将一组要素与另一组要素区别开来的变量。例如,假设您想要按学生在标准化成绩测试中的成绩对学区进行分组。您可以选择各种分析字段,如整体测试得分、数学和阅读等特定科目的成绩、满足一些最低考试得分阈值的学生比例等等。当运行分组分析工具时,会为每个变量计算 R2 值。例如,在下面的汇总中,根据学生测试得分、该地区未上完中学的成人比例、每个学生的开支以及学生与教师的平均比率,来对学区进行分组。请注意,TestScores 变量具有最高的 R2 值。这表明此变量能够最有效地将学区分组。R2 值反映在分组流程之后原始 TestScores 数据中的变化的保留程度,因此,特定变量的 R2 值越大,变量越能更好地对要素进行区分。

分组分析变量汇总

开始行动开始行动:

R2 的计算公式如下:

(TSS - ESS) / TSS

其中 TSS 是总平方和,ESS 是回归平方和。TSS 的计算方法是先计算平方,然后再计算变量全局平均值偏差的总和。ESS 的计算方法相同,不同之处在于偏差是分组计算。从所属组的平均值减去每个值,然后再计算平方和总和。

组数

有时,您会知道最适合于您的问题的组数。例如,如果您有五位销售经理,并且要为每一位经理指定自己的相邻区域,那么您可以为组数参数使用 5。但是,在许多情况下,对于选择具体组数您没有任何标准;而只是希望得到一个数,这个数能够最恰当地对要素相似性和差异性进行区分。为帮助您解决这种情形,您可以选中评估最佳组数参数,然后让分组分析工具评估将要素分为 2、3、4 和多达 15 个组时的有效性。分组有效性通过 Calinski-Harabasz 伪 F 统计量来测量,它是一个反映组内相似性和组间差异性的比率。

Calinski-Harabasz 伪 F 统计量

空间约束

如果您希望生成的分组在空间上邻近,可指定空间约束。可以启用面邻接类的 CONTIGUITY 选项,来指示仅当要素与组中的另一成员共享某条边 (CONTIGUITY_EDGES_ONLY) 或共享某条边或某个折点 (CONTIGUITY_EDGES_CORNERS) 时,才表示这些要素属于同一个组。但是,如果数据集包括不连续面或根本没有相邻邻域的面的聚类,则面邻接选项并不是很好的选择:

不连续面

DELAUNAY_TRIANGULATIONK_NEAREST_NEIGHBORS 选项都适合点或面要素;这些选项用于指示,仅当某个要素至少有一个其他组成员是自然邻域 (Delaunay Triangulation) 或“K 最近邻”时,该要素才能包括在组中。例如,如果选择 K_NEAREST_NEIGHBORS 并为相邻要素的数目参数输入 12,则组中每一个要素都将处于组中至少另外一个要素的 12 个最近的相邻要素范围内。

DELAUNAY_TRIANGULATION 选项不得用于具有重合要素的数据集。另外,由于 Delaunay 三角测量方法会将要素转换为泰森面来确定邻域关系,特别是与面要素的邻域关系,有时是与数据集中外围要素的邻域关系,因此使用此选项所得的结果可能不会始终与您的预期相符。在下图中,请注意其中一些分组的原始面并不连续;但是,当它们转换为泰森面时,所有分组的要素事实上确实共享了一条边:

Delaunay 三角测量示例
对于 Delaunay 三角测量,泰森面邻接定义了邻域关系。

如果想让生成的组在空间和时态上都邻近,可使用生成空间权重矩阵工具创建空间权重矩阵文件 (SWM),然后为空间关系的概念化参数选择 SPACE_TIME_WINDOW。然后,可以在运行分组分析时,为权重矩阵文件参数指定您使用生成空间权重矩阵工具创建的 SWM 文件。

注注:

虽然要素之间的空间关系存储在 SWM 文件中,并由分组分析工具用于施加空间约束,但在分组过程中并不涉及实际的权重。SWM 文件只用于跟踪同一个组中可以包含哪些要素以及不可以包含哪些要素。

对于许多分析,施加空间或空间-时间约束既不必要,也没有什么帮助作用。例如,假设您想按犯罪者的属性(身高、年龄、犯罪严重程度等等)对犯罪事件进行分组。虽然同一个人所犯的罪行可能往往是邻近的,但您并不可能找到某特定区域中的所有犯罪都是同一个人所为。对于这种类型的分析,您应为空间约束参数选择 NO_SPATIAL_CONSTRAINT。但是,您可能选择在分析字段列表中包括一些空间变量(如与银行相邻),以便捕获您正分析的犯罪的某些空间特点。

K 均值

当为空间约束参数选择了 NO_SPATIAL_CONSTRAINT 时,将使用 K 均值算法进行分组。“K 均值”算法的目标是对要素进行划分,从而使所有组的每一个组中要素之间的差异最小化。由于该算法属于 NP 难题,因此将采用启发式贪婪算法对要素进行分组。贪婪算法始终收敛于局部最小值,但并不总是能够找到全局(最佳)最小值。

“K 均值”算法首先确定用于增长每个组的种子要素。因此,种子数始终与组数相匹配。第一个种子是随机选择的。但是,虽然采用的是随机分量,但选择剩余种子时会应用一个权重,该权重将有利于选择与现有的一组种子要素最远的后续种子(这部分算法称为 K 均值 ++)。由于在为初始化方法选择 FIND_SEED_LOCATIONSUSE_RANDOM_SEEDS 时将使用随机分量查找种子要素,因此每次运行此工具所获得的分组结果可能都会有所不同。

确定种子要素后,将向最近的种子要素(在数据空间中最近)分配所有要素。对于要素的每个聚类,将计算一个均值数据中心,并将每个要素重新分配给最近的中心。计算每个组的均值数据中心并随后向最近的中心重新分配要素这一过程将会一直继续,直至组成员关系稳定为止(最大迭代次数为 100)。

最小跨度树

当指定空间约束以将组成员资格限制为相连或相邻要素时,工具首先会构造一个表示要素间邻域关系的连通图。连通图上的最小跨度树将汇总要素空间关系和要素数据相似性。要素将成为最小跨度树中通过权重边进行连接的节点。每个边的权重与其连接的对象的相似性成正比。构建最小跨度树后,树中的分支(边)将被剪除,从而生成两个最小跨度树。要剪除的边会被选择,以使生成的组中的差异最小化,同时避免(如果可能)单一化(组中只具有一个要素)。在每次迭代时,将通过这种剪除过程对其中一个最小跨度树进行分割,直至获得指定的组数。所采用的发布方法被称为 SKATER (Spatial "K"luster Analysis by Tree Edge Removal)。虽然在每次迭代时会选择可优化组相似性的分支进行剪除,但并不保证最终结果是最佳的。

输出

分组分析工具会创建许多输出。所有这些输出(包括可选的 PDF 报表文件)均可从结果 窗口进行访问。如果禁用后台处理,结果还将被写入进度 对话框。这些消息(如下所示)汇总了可选 PDF 报表(下面会进行介绍)中显示的信息。

分组分析进度窗口

分组分析工具的默认输出是一个新的输出要素类,它包含分析中使用的字段,以及一个名为 SS_GROUP 的用于标识每个要素所属的组的新整型字段。此输出要素类会添加到内容列表中,并会向 SS_GROUP 字段应用一种独特的颜色渲染方案。空心渲染表示要素不能添加到任何组,通常是因为它们没有相邻要素。如果为空间约束指定 NO_SPATIAL_CONSTRAINT,则将向输出要素类添加一个附加字段 SS_SEED,以指示进行分组时所使用的是哪些种子要素。

分组分析输出要素类
使用邻接空间约束进行分组

分组分析报表文件

如果为输出报表文件参数指定了路径,则会创建一个用于汇总所创建的组的 PDF。

注注:

创建可选报表文件会大大增加处理时间。因此,虽然分组分析将始终创建一个显示组成员资格的输出要素类,但如果指定超过 15 个组或超过 15 个变量,则不会创建 PDF 报表文件。

整个报表中会包括箱形图,因此,报表中的第一个元素是显示如何解释这些箱形图的图(参见下文)。分组分析报表中的箱形图以图形的形式描述每个分析字段和组的九个汇总值:最小数据值、下四分位数、中值、上四分位数、最大数据值、数据异常值(小于或大于四分位距 1.5 倍的值)、组最小值、组均值和组最大值。落在上须或下须之外的任何 "+" 标志代表数据异常值。
开始行动开始行动:

四分位距 (IQR) 是上四分位数减去下四分位数。低异常值将是小于 1.5*IQR (Q1-1.5*IQR) 的值,而高异常值将是大于 1.5*IQR (Q3+1.5*IQR) 的值。异常值在箱形图中显示为 "+" 符号。

报表的第一页对每个组中的各个变量(分析字段)进行相互比较。例如,在下面的报表中,对人口普查区域执行分组分析,从而创建四个组。每个组的汇总统计使用不同的颜色(蓝色、红色、绿色和金黄色)打印。第一组汇总统计采用黑色进行打印,因为这些统计数据是针对每个分析字段中所有数据的全局均值、标准差 (Std.Dev.)、最小值、最大值和 R2 值。某个特定变量的 R2 值越大,该变量区分要素的性能越好。在全局汇总之后,将报告每个组中每个变量的均值、标准差、最小值、最大值和共享值。例如,在下面的报表中,您会看到组 1(蓝色)包含全局 AGE_UNDER5 变量中 52% 的值范围;全局值范围是 0 到 1,453 个 5 岁以下的儿童,蓝色组包含 488 到 1,246 个 5 岁以下儿童的区域。蓝色组区域 5 岁以下儿童的平均数量是 805.3750。蓝色组统计汇总右侧的箱形图显示该组的值与该相同分析字段的全局值的关系。请注意,箱形图上的蓝点落在上四分位数之外,第一条蓝色垂线(表示蓝色组区域的最小值)高于此字段的全局均值。事实上,观察所有变量的蓝点落在箱形图中的位置,您会看到除 MEDIANRENT 变量之外,所有分析字段中的均值均高于上四分位数。与其他组相比,该组具有最高的值范围。

开始行动开始行动:

共享值是该组与全局范围的比率。例如,对于组 1 和 AGE_UNDER5 变量,通过将组范围 (1246-488=758) 除以全局范围 (1453-0=1453) 得到 52% 的比率,当取两个有效位时,得到 0.52。

组汇总
输出报表的第 1 部分

报表的第二部分比较每个组的变量范围,一次一个分析字段(变量)。通过这种方式,很容易了解哪个组中的每个变量具有最高和最低值范围。组最小值、均值和最大值叠加在反映所有值的箱形图的顶部。请注意组 4(橙色)的 MEDIANRENT 变量具有最低值。该组的最小值、均值和最大值小于任何其他组。

变量汇总
输出报表的第 2 部分

平行的箱形图汇总了各个组以及组中的各个变量。在下图中,请注意组 1(蓝色)反映具有平均租金、有孩子的女户主家庭的最高值 (FHH_CHILD)、住宅单元数量的最高值 (HSE_UNITS) 以及 5 岁以下儿童的最高值的区域。组 2(红色)反映具有最高中值租金、有孩子的女户主家庭的最低数量、超出住宅单元平均数量(尽管少于组 1 或组 3 中的区域)以及 5 岁以下儿童最少的区域。

组分析箱形图
输出报表中的平行箱形图

当选中评估最佳组数参数时,PDF 报表文件将包括伪 F 统计量值的图表。图表上的圆点是最大 F 统计量,表示使用多少个组来区分指定的要素和变量最有效。在下图中,与四个组相关的 F 统计量是最高的。具有较高伪 F 统计量的五个组也是不错的选择。

伪 F 统计量图
输出报表中的伪 F 统计量图

最佳范例

虽然倾向于将尽可能多的分析字段包括在内,但对分组分析工具而言,最好从单个变量开始构建。较少的分析字段的结果更易于解释。而且,字段较少时,还易于确定哪些变量是最佳辨别因素。

在许多情况下,您可能运行分组分析工具多次,以寻找最佳组数、最有效的空间约束以及能够对要素进行最有效分组的分析字段的组合。由于创建输出报表会大大增加处理时间,因此在尝试不同的输入参数时,您可能不想创建报表。

其他资源

Duque, J. C.、R. Ramos 和 J. Surinach。2007. “Supervised Regionalization Methods:A Survey”,国际区域科学评论 30:195–220.

Assuncao, R. M.、M. C. Neves、G. Camara 和 C. Da Costa Freitas。2006. “Efficient Regionalisation Techniques for Socio-economic Geographical Units using Minimum Spanning Trees”,国际地理信息科学学报 20 (7):797–811.

Jain, A. K. 2009 年。“Data Clustering:50 years beyond K-Means.”Pattern Recognition Letters

Hinde, A.、T. Whiteway、R. Ruddick 和 A. D. Heap。2007 年。“Seascapes of the Australian Margin and adjacent sea floor:Keystroke Methodology”,澳大利亚地球科学局,2007 年 10 月记录,58pp。

5/10/2014