Как работает инструмент Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G)

Инструмент Кластеризация с высокими/низкими значениями (High/Low Clustering) измеряет концентрацию высоких или низких значений в изучаемой области.

Вычисления

Математические расчеты для статистики Общего индекса G

Смотрите дополнительные расчеты Общего индекса G.

Заметьте, что только разница между числителем и знаменателем является взвешиванием (wij). Кластеризация с высокими/низкими значениями работает только с положительными значениями. Следовательно, если ваши веса двоичные (0/1) или всегда меньше 1, диапазон для Общего индекса G будет между 0 и 1. Двоичное взвешивание рекомендуется для этого статистического показателя. Выберите значения Фиксированный диапазон расстояний (Fixed Distance Band), Близость полигонов (Polygon Contiguity), К ближайшего соседства (K Nearest Neighbors) или Триангуляция Делоне (Delaunay Triangulation) для параметра Представление пространственных отношений (Conceptualization of Spatial Relationships). Выберите Нет (None) для параметра Стандартизация (Standardization).

Интерпретация

Инструмент Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G) (High/Low Clustering (Getis-Ord General G)) — это статистический показатель, который означает, что результаты анализа интерпретируются в контексте нулевой гипотезы. Нулевая гипотеза для статистического показателя Кластеризация с высокими/низкими значениями утверждает, что нет пространственной кластеризации в значениях объектов. Когда p-значение, полученное в результате работы данного инструмента, мало и статистически значимо, нулевая гипотеза может быть отвергнута (см. Что такое z-оценка? Что такое p-значение?). Если нулевая гипотеза отвергнута, тогда знак z-оценки имеет значение. Если z-оценка положительная, наблюдаемый Общий индекс G больше ожидаемого Общего индекса G, указывающего на кластеризацию высоких атрибутивных значений в области изучения. Если z-оценка отрицательная, наблюдаемый Общий индекс G меньше ожидаемого Общего индекса G, указывающего на кластеризацию низких атрибутивных значений в области изучения.

Инструмент Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G) подходит наилучшим образом, когда данные распределены достаточно равномерно, но вам нужно найти неожиданные всплески высоких значений в пространстве. К сожалению, когда и высокие и низкие значения кластеризуются, они имеют тенденцию к отмене друг друга. Если вы заинтересованы в измерении пространственной кластеризации как высоких, так и низких значений, используйте инструмент Пространственная автокорреляция (Spatial Autocorrelation).

Нулевая гипотеза как для инструмента Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G), так и для инструмента Пространственная автокорреляция (Spatial Autocorrelation (Global Moran I)) основана на полной пространственной случайности. Величины случайно распределены среди объектов в наборе данных, отражающих случайные пространственные процессы. Однако, интерпретация z-оценок для инструмента Кластеризация с высокими/низкими значениями сильно отличается от интерпретации z-оценок для инструмента Пространственная автокорреляция.

Результат

Кластеризация с высокими/низкими значениями

Пространственная автокорреляция

P-значение статистически не значимо.

Вы не можете отклонить нулевую гипотезу. Вполне возможно, что пространственное распределение значений атрибутов объектов - результат случайных пространственных процессов. Иначе говоря, наблюдаемая пространственная структура значений может быть одним из возможных вариантов полной пространственной случайности.

P-значение статистически значимо, и z-оценка — положительная.

Вы можете отклонить нулевую гипотезу. Пространственное распределение высоких значений в наборе данных более кластеризовано пространственно, чем, если бы обозначенные пространственные процессы были действительно случайными.

Вы можете отклонить нулевую гипотезу. Пространственное распределение высоких/низких значений в наборе данных пространственно более кластеризовано, чем это наблюдалось бы, если обозначенные пространственные процессы были бы действительно случайными.

P-значение статистически не значимо, и z-оценка — негативная.

Вы можете отклонить нулевую гипотезу. Пространственное распределение низких значений в наборе данных более кластеризовано пространственно, чем, если бы обозначенные пространственные процессы были действительно случайными.

Вы можете отклонить нулевую гипотезу. Пространственное распределение высоких и низких значений в наборе данных более дисперсно пространственно, чем, если бы обозначенные пространственные процессы были действительно случайными. Дисперсная пространственная модель часто отражает некоторый тип конкурентного процесса: объект с высокими значениями располагается рядом с другими объектами с высокими значениями, объект с низкими значениями располагается рядом с другими объектами с низкими значениями.

Результат

Инструмент Кластеризация в высокими/низкими значениями (High/Low Clustering) возвращает 5 результатов вычислений: Наблюдаемое общее G (Observed General G), Ожидаемое среднее G (Expected General G), Дисперсия (Variance), z-оценка и p-значение. Эти значения отображаются в окне результатов, а также передаются в качестве производных выходных данных для потенциального использования в моделях и скриптах. Дополнительно, этот инструмент создаст HTML файл с графическим представлением результатов. Двойным щелчком по HTML-файлу в окне результатов можно открыть HTML-файл в установленном по умолчанию браузере.

Кроме того, если щелкнуть правой кнопкой мыши запись Сообщения (Messages) в окне Результаты (Results), а затем выбрать Вид (View), результаты можно будет просмотреть в диалоговом окне Сообщение (Message).

Результаты работы инструмента отображаются в окне результатов.

Часто задаваемые вопросы

В. Результаты работы инструмента Анализ горячих точек (Getis-Ord Gi*) показывают статистическую значимость "горячих" точек. Почему результаты, полученные из инструмента Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G) не являются тоже статистически значимыми?

О. Глобальные статистические показатели такие как Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G) (High/Low Clustering (Getis-Ord General G)) оценивают общую структуру и тренд ваших данных. Они наиболее эффективны, когда пространственные закономерности устойчивы в пределах области интереса. Локальные статистические показатели (такие как Анализ горячих точек) оценивают каждый объект в контексте соседних объектов и сравнивают локальные ситуации с глобальной ситуацией. Рассмотрим пример. Когда вы рассчитываете среднее для набора значений, вы также выполняете расчет глобальных статистических параметров. Если все значения около 20, тогда среднее значение тоже будет около 20, и этот результат даст вам хорошее представление о наборе данных в целом. Но, если половина значений близко к 1, а другая половина близка к 100, этот будет означать, что среднее значение где-то около 50. На самом деле, может и вообще не быть значений, близких к 50. Поэтому, среднее значение не является хорошей характеристикой набора данных в целом. Если вы создаете гистограмму значений данных, тем не менее, вы увидите картину бимодального распределения. Таким же образом, глобальная пространственная статистика, включая инструмент Кластеризация с высокими/низкими значениями, наиболее эффективна, когда анализируемые пространственные процессы последовательны по области изучения. Тогда результаты будут хорошим представлением всей пространственной структуры. Более подробно см.Getis and Ord (1992) и анализ SIDS, который они представляют.

 

В. Почему результаты инструмента Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G) отличаются от результатов инструмента Пространственная автокорреляция?

О. См. таблицу выше. Эти инструменты измеряют разные пространственные структуры.

 

В. Можно сравнивать z-оценки или p-значения с результатами анализа различных областей изучения?

О. Результаты на самом деле нельзя сравнивать до тех пор, пока области изучения и параметры анализа не зафиксированы (то же и для всех типов анализа, которые вы хотите сравнить). Однако, если область изучения состоит из фиксированного набора полигонов, и анализ параметров фиксированный, вы можете сравнить z-оценки для определенного атрибута во времени. Предположим, например, что вы хотите проанализировать тренды в кластеризации медицинских покупок на региональном уровне для определенной страны. Вы можете запустить инструмент Кластеризация с высокими/низкими значениями для каждого временного периода, а затем создать линейный граф с результатами. Если вы обнаружили, что z-оценки - статистически значимые и увеличивающиеся, вы можете сделать заключение, что интенсивность пространственной кластеризации для больших покупок увеличивалась.

 

В. Влияет ли размер объекта на анализ?

О. Размер ваших объектов может влиять на результат. Если, к примеру, ваши большие полигоны имеют низкие значения и ваши маленькие полигоны имеют высокие значения, даже если концентрация высоких и низких значений приблизительна равная, наблюдаемый Общий индекс G может быть выше, чем ожидаемый Общий индекс G, т.к. имеется меньше пар маленьких полигонов в пределах указанных расстояний.

Возможные приложения

Дополнительные ресурсы

Getis, Arthur, and J. K. Ord. "Анализ пространственных взаимосвязей, с использованием статистики расстояний." Географический Анализ 24, no. 3. 1992.

Энди Митчелл (Mitchell, Andy). The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.

9/11/2013