Как работает Поиск сходства (Similarity Search)

Инструмент Поиск сходства (Similarity Search) определяет, какой из Объектов-кандидатов (Candidate Features) имеет наибольшее сходство (или наибольшее различие) с одним или более Входных объектов сопоставления (Input Features To Match). Сходство основывается на определенных числовых атрибутах (Атрибуты интереса (Attributes Of Interest)). Если указывается более одного Входного объекта для сопоставления (Input Features To Match), то сходство основывается на средних значениях для каждого из Атрибутов интереса. Выходной класс объектов (Выходные объекты (Output Features)) будет содержать Входные объекты для сопоставления, а также все найденные подходящие Объекты-кандидаты, упорядоченные по сходству (в соответствии с заданным параметром Наибольшее или наименьшее сходство (Most Or Least Similar). Число совпадений будет зависеть от значения параметра Число результатов (Number Of Results).

Возможное применение

Методы сопоставления

Сопоставление может производиться на основе значений атрибутов, ранжированных атрибутов или профилей атрибутов (косинусоидальное сходство). Алгоритмы для каждого из этих методов описаны ниже. При всех методах, если имеется более одного входного объекта для сопоставления, атрибуты для всех объектов усредняются для создания составного целевого объекта, который будет использоваться в процессе сопоставления. Усредненные атрибуты интереса

Значения атрибута

При выборе ATTRIBUTE_VALUES в качестве параметра Метода сопоставления (Match Method) инструмент сначала стандартизирует все Атрибуты интереса (Attributes of Interest). Затем, для каждого кандидата он вычитает стандартизированные значения из целевых, возводит разницу в квадрат и суммирует возведенные в квадрат разницы в одно целое. Полученная сумма есть индекс сходства для данного кандидата. Когда таким образом будут обработаны все кандидаты, они будут ранжированы от наименьшего индекса (больше сходства) до наибольшего (меньше сходства).

Более подробноБолее подробно:

Стандартизация значений атрибутов включает z-трансформацию (z-transform), где каждое значение вычитается из средней величины всех значений и делится на стандартное для всех значений отклонение. Стандартизация расставляет все эти атрибуты на одни весы, даже когда они представлены совершенно разными типами чисел: коэффициентами (от 0 до 1,0), численностью население (значение свыше 1 миллиона) и расстояниями (например, километрами).

Ранжированные значения атрибутов

Если вы выберете RANKED_ATTRIBUTE_VALUES в качестве параметра Метода сопоставления (Match Method), инструмент ранжирует каждый из Атрибутов интереса (Attributes of Interest) как для целевого объекта, так и для всех кандидатов. Затем инструмент по каждому кандидату суммирует возведенную в квадрат разницу для каждого атрибута по отношению к целевому объекту. Если значение численности населения для целевого объекта будет 10-й по величине среди кандидатов, а численность населения объекта-кандидата – 15-й по величине, то сумма возведенной в квадрат разницы этих рангов для данного кандидата будет 10 – 15 = -5, -5 в квадрате = 25. Сумма возведенных в квадрат разниц рангов для всех Атрибутов интереса (Attributes of Interest) будет индексом сходства для данного кандидата. Когда таким образом будут обработаны все кандидаты, они будут ранжированы от наименьшего индекса (больше сходства) до наибольшего (меньше сходства).

Профили атрибутов

При выборе ATTRIBUTE_PROFILES в качестве параметра Метода сопоставления (Match Method) инструмент сначала стандартизирует все Атрибуты интереса (Attributes of Interest) (для этого метода требуется минимум два Атрибута интереса (Attributes of Interest)). Затем он использует математику косинусоидального сходства для сравнения вектора стандартизированных атрибутов для каждого кандидата с вектором стандартизированных атрибутов для сопоставляемого целевого объекта. Косинусоидальное сходство двух векторов, А и В, рассчитывается так:

Уравнение косинусоидального сходства

Косинусоидальное сходство не связано с сопоставлением величин атрибутов, этот метод скорее сфокусирован на отношениях между атрибутами. Если вы создали профиль (линейная диаграмма) стандартизированных атрибутов в двух сравниваемых векторах (целевой объект и один из кандидатов), вы можете увидеть очень похожие или очень разные профили:

Профили атрибутов

Индекс косинусоидального сходства может иметь значения от 1.0 (полное сходство) до -1.0 (полное различие) и указывается в поле SIMINDEX (косинусоидальное сходство). Этот метод сходства можно использовать для поиска мест с одинаковыми характеристиками, но, возможно, в большем или меньшем масштабах.

Рекомендации

Модели сходства

Если вы установите параметр Число результатов (Number of Results) на очень большое значение (равное или большее, чем число объектов в списке Объектов-кандидатов (Candidate Features)), инструмент ранжирует всех кандидатов. Результаты анализа покажут пространственную структурную закономерность (spatial pattern) сходства. Обратите внимание на то, что при ранжировании всех кандидатов вы получите информацию и о сходстве, и о различии.

Карта упорядоченного сходства

Включая пространственные переменные

Вероятно, вам известны места (полигоны, площади), где очень хорошо живется определенным вымирающим видам животных, и вы хотите найти другие места, в которых им будет так же хорошо. Вы будете стараться найти места, которые имеют сходство с благополучными, но вам также потребуется найти места и достаточно большие, и достаточно компактные, в которых бы эти вымирающие виды процветали. При таком анализе рассчитывается показатель (метрика) компактности для каждой полигональной области (обычные измерения компактности определяются как площадь полигона по отношению к площади круга, длина окружности которого равна периметру полигона). Затем, когда вы будете использовать инструмент Поиск сходства (Similarity Search), вы можете добавить свои измерения компактности и атрибут, отражающий размер полигона (Shape_Area), в параметр Поля для присоединения к выходным данным (Fields To Append To Output). Отобрав первую десятку полученных результатов по условиям компактности и площади, вы сможете выбрать наиболее подходящие места для воспроизводства упомянутых выше видов животных.

Предположим, что вы являетесь розничным торговцем и заинтересованы в расширении своего бизнеса. Если у вас уже есть успешные торговые предприятия, то вы можете использовать атрибуты, отражающие ключевые характеристики успешности, которые помогут вам найти новые места-кандидатуры для расширения. Предположим. что продаваемая вами продукция будет представлять интерес в первую очередь для студентов колледжей, и что вы не хотите размещать свои новые точки вблизи уже существующих или вблизи магазинов конкурентов. Перед тем, как воспользоваться инструментом Поиск сходства (Similarity Search), вы запустите инструмент <Ближайший объект (Near), чтобы создать свои пространственные переменные: расстояние до колледжей или мест с высокой плотностью студентов колледжей, расстояние до существующих магазинов и расстояние до магазинов конкурентов. Затем, когда вы будете использовать инструмент Поиск сходства (Similarity Search), вы можете добавить эти пространственные переменные в параметр Поля для присоединения к выходным данным (Fields To Append To Output).

5/10/2014