相似性搜索工作原理

相似性搜索工具用于识别哪些候选要素要匹配的一个或多个输入要素最相似(或最相异)。相似性基于数值属性(感兴趣属性)的指定列表。如果指定了一个以上的要匹配的输入要素,相似性将基于每个感兴趣属性的平均值。输出要素类(输出要素)将包含要匹配的输入要素以及找到的所有匹配的候选要素,这些要素以相似程度排序(由最相似或最不相似参数指定)。返回的匹配数基于结果数参数的值。

可能的应用

匹配方法

匹配可基于属性值、等级属性值或属性剖面(余弦相似性)。下面介绍每种方法采用的算法。对于所有方法,如果有一个以上的要匹配的输入要素,则需要将这些要素的属性取平均值来创建复合目标要素,以用于匹配过程。平均感兴趣属性

属性值

匹配方法参数选择 ATTRIBUTE_VALUES 时,工具首先标准化所有感兴趣属性。对于每个候选要素,将从目标要素中减去标准化值,求得平方差,然后再将每个平方差相加。相加的总和即为该候选要素的相似性指数。所有候选要素经处理后,按照指数从小(最相似)到大(最不相似)的顺序对候选要素进行分级。

开始行动开始行动:

属性值的标准化涉及 Z 变换,即从所有属性值的平均值中减去每个属性值然后除以所有值的标准差。标准化将所有属性放在同一比例,即使它们由不同类型的数字表示时也是如此:比率(数字 0 到 1.0)、人口(数值大于 100 万)、距离(例如千米)。

等级属性值

匹配方法参数选择 RANKED_ATTRIBUTE_VALUES 时,工具首先为目标要素和所有候选要素对感兴趣属性进行分级排序。然后为每个候选要素对目标要素相关的每个属性平方差求和。如果目标的人口值在所有候选要素中为第 10 大值,而所考虑的候选要素的人口为第 15 大值,此候选要素的平方秩人口差将为 10 - 15 = -5 和 -5**2 = 25。所有感兴趣属性的平方秩人口差的总和即为此候选要素的相似性指数。所有候选要素经处理后,按照指数从小(最相似)到大(最不相似)的顺序对候选要素进行分级。

属性剖面

匹配方法参数选择 ATTRIBUTE_PROFILES 时,此工具首先将所有感兴趣属性标准化(此方法需要最少两个感兴趣属性)。然后用余弦相似性数学方法比较每个候选要素的标准化属性矢量与所匹配目标要素的标准化属性矢量。两个矢量 A 和 B 的余弦相似性按照如下方式计算:

余弦相似性方程

余弦相似性与属性量的匹配无关,而此方法主要关注这些属性的关系。如果您在比较的矢量(目标与候选要素之一)中创建标准化属性的剖面图(折线图),则可以看到非常相似或非常不同的剖面:

属性剖面

余弦相似性指数范围为 1.0(完全相似)到 -1.0(完全不相似),并在 SIMINDEX(余弦相似性)字段中加以报告。您可以使用此相似性方法以可能更大或更小的比例找出具有相同特征的地方。

最佳范例

制图相似性模式

如果您将结果数参数设定为非常大的值(大于等于候选要素中的要素数),工具将对所有候选要素进行分级排序。此分析的输出将显示相似性的空间模式。注意,在分级排序所有候选要素时,您可以获取有关相似性和相异性的信息。

等级相似性地图

包括空间变量

假设您知道某濒危物种在某地(面区域)生存很好,您希望找到该物种也可能茁壮成长的其他地方。您可能想寻找与物种成功存活环境相似的地方,但可能还需要这些地方足够大,足够紧凑以保证物种成活。在此分析中,您可以计算每个面区域的紧凑性指标(一般紧凑性测量基于与圆圈区域具有相同周长的面的面积)。运行相似性搜索工具时,您可以将您的紧凑性测量和能够反应面的尺寸 (Shape_Area) 的属性包括在追加到输出的字段参数中。就紧凑性和面积排列出前 10 个匹配解决方案将有助于识别再引入物种的最适宜位置。

或许您是一个对扩大业务感兴趣的零售商。如果您已经拥有成功店铺,可以通过能够反映成功关键特征的属性来帮助查找扩大业务的候选位置。假设您销售的产品对大学生最有吸引力,并且您想避免靠近您的现有店铺或远离竞争者。在运行相似性搜索工具之前,您可以使用近邻分析工具创建空间变量:与大学或大学生密度较大处之间的距离、与现有店铺的距离以及与竞争者的距离。运行相似性搜索工具时,您可以将这些空间变量包括在追加到输出的字段参数之中。

5/10/2014