Как работает инструмент Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G)
Инструмент Кластеризация с высокими/низкими значениями (High/Low Clustering) измеряет концентрацию высоких или низких значений в изучаемой области.
Вычисления
Смотрите дополнительные расчеты Общего индекса G.
Заметьте, что только разница между числителем и знаменателем является взвешиванием (wij). Кластеризация с высокими/низкими значениями работает только с положительными значениями. Следовательно, если ваши веса двоичные (0/1) или всегда меньше 1, диапазон для Общего индекса G будет между 0 и 1. Двоичное взвешивание рекомендуется для этого статистического показателя. Выберите значения Фиксированный диапазон расстояний (Fixed Distance Band), Близость полигонов (Polygon Contiguity), К ближайшего соседства (K Nearest Neighbors) или Триангуляция Делоне (Delaunay Triangulation) для параметра Представление пространственных отношений (Conceptualization of Spatial Relationships). Выберите Нет (None) для параметра Стандартизация (Standardization).
Интерпретация
Инструмент Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G) (High/Low Clustering (Getis-Ord General G)) — это статистический показатель, который означает, что результаты анализа интерпретируются в контексте нулевой гипотезы. Нулевая гипотеза для статистического показателя Кластеризация с высокими/низкими значениями утверждает, что нет пространственной кластеризации в значениях объектов. Когда p-значение, полученное в результате работы данного инструмента, мало и статистически значимо, нулевая гипотеза может быть отвергнута (см. Что такое z-оценка? Что такое p-значение?). Если нулевая гипотеза отвергнута, тогда знак z-оценки имеет значение. Если z-оценка положительная, наблюдаемый Общий индекс G больше ожидаемого Общего индекса G, указывающего на кластеризацию высоких атрибутивных значений в области изучения. Если z-оценка отрицательная, наблюдаемый Общий индекс G меньше ожидаемого Общего индекса G, указывающего на кластеризацию низких атрибутивных значений в области изучения.
Инструмент Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G) подходит наилучшим образом, когда данные распределены достаточно равномерно, но вам нужно найти неожиданные всплески высоких значений в пространстве. К сожалению, когда и высокие и низкие значения кластеризуются, они имеют тенденцию к отмене друг друга. Если вы заинтересованы в измерении пространственной кластеризации как высоких, так и низких значений, используйте инструмент Пространственная автокорреляция (Spatial Autocorrelation).
Нулевая гипотеза как для инструмента Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G), так и для инструмента Пространственная автокорреляция (Spatial Autocorrelation (Global Moran I)) основана на полной пространственной случайности. Величины случайно распределены среди объектов в наборе данных, отражающих случайные пространственные процессы. Однако, интерпретация z-оценок для инструмента Кластеризация с высокими/низкими значениями сильно отличается от интерпретации z-оценок для инструмента Пространственная автокорреляция.
Результат | Кластеризация с высокими/низкими значениями | Пространственная автокорреляция |
---|---|---|
P-значение статистически не значимо. | Вы не можете отклонить нулевую гипотезу. Вполне возможно, что пространственное распределение значений атрибутов объектов - результат случайных пространственных процессов. Иначе говоря, наблюдаемая пространственная структура значений может быть одним из возможных вариантов полной пространственной случайности. | |
P-значение статистически значимо, и z-оценка — положительная. | Вы можете отклонить нулевую гипотезу. Пространственное распределение высоких значений в наборе данных более кластеризовано пространственно, чем, если бы обозначенные пространственные процессы были действительно случайными. | Вы можете отклонить нулевую гипотезу. Пространственное распределение высоких/низких значений в наборе данных пространственно более кластеризовано, чем это наблюдалось бы, если обозначенные пространственные процессы были бы действительно случайными. |
P-значение статистически не значимо, и z-оценка — негативная. | Вы можете отклонить нулевую гипотезу. Пространственное распределение низких значений в наборе данных более кластеризовано пространственно, чем, если бы обозначенные пространственные процессы были действительно случайными. | Вы можете отклонить нулевую гипотезу. Пространственное распределение высоких и низких значений в наборе данных более дисперсно пространственно, чем, если бы обозначенные пространственные процессы были действительно случайными. Дисперсная пространственная модель часто отражает некоторый тип конкурентного процесса: объект с высокими значениями располагается рядом с другими объектами с высокими значениями, объект с низкими значениями располагается рядом с другими объектами с низкими значениями. |
Результат
Инструмент Кластеризация в высокими/низкими значениями (High/Low Clustering) возвращает 5 результатов вычислений: Наблюдаемое общее G (Observed General G), Ожидаемое среднее G (Expected General G), Дисперсия (Variance), z-оценка и p-значение. Эти значения отображаются в окне результатов, а также передаются в качестве производных выходных данных для потенциального использования в моделях и скриптах. Дополнительно, этот инструмент создаст HTML файл с графическим представлением результатов. Двойным щелчком по HTML-файлу в окне результатов можно открыть HTML-файл в установленном по умолчанию браузере.
Кроме того, если щелкнуть правой кнопкой мыши запись Сообщения (Messages) в окне Результаты (Results), а затем выбрать Вид (View), результаты можно будет просмотреть в диалоговом окне Сообщение (Message).
Часто задаваемые вопросы
В. Результаты работы инструмента Анализ горячих точек (Getis-Ord Gi*) показывают статистическую значимость "горячих" точек. Почему результаты, полученные из инструмента Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G) не являются тоже статистически значимыми?
О. Глобальные статистические показатели такие как Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G) (High/Low Clustering (Getis-Ord General G)) оценивают общую структуру и тренд ваших данных. Они наиболее эффективны, когда пространственные закономерности устойчивы в пределах области интереса. Локальные статистические показатели (такие как Анализ горячих точек) оценивают каждый объект в контексте соседних объектов и сравнивают локальные ситуации с глобальной ситуацией. Рассмотрим пример. Когда вы рассчитываете среднее для набора значений, вы также выполняете расчет глобальных статистических параметров. Если все значения около 20, тогда среднее значение тоже будет около 20, и этот результат даст вам хорошее представление о наборе данных в целом. Но, если половина значений близко к 1, а другая половина близка к 100, этот будет означать, что среднее значение где-то около 50. На самом деле, может и вообще не быть значений, близких к 50. Поэтому, среднее значение не является хорошей характеристикой набора данных в целом. Если вы создаете гистограмму значений данных, тем не менее, вы увидите картину бимодального распределения. Таким же образом, глобальная пространственная статистика, включая инструмент Кластеризация с высокими/низкими значениями, наиболее эффективна, когда анализируемые пространственные процессы последовательны по области изучения. Тогда результаты будут хорошим представлением всей пространственной структуры. Более подробно см.Getis and Ord (1992) и анализ SIDS, который они представляют.
В. Почему результаты инструмента Кластеризация с высокими/низкими значениями (Общий показатель Getis-Ord G) отличаются от результатов инструмента Пространственная автокорреляция?
О. См. таблицу выше. Эти инструменты измеряют разные пространственные структуры.
В. Можно сравнивать z-оценки или p-значения с результатами анализа различных областей изучения?
О. Результаты на самом деле нельзя сравнивать до тех пор, пока области изучения и параметры анализа не зафиксированы (то же и для всех типов анализа, которые вы хотите сравнить). Однако, если область изучения состоит из фиксированного набора полигонов, и анализ параметров фиксированный, вы можете сравнить z-оценки для определенного атрибута во времени. Предположим, например, что вы хотите проанализировать тренды в кластеризации медицинских покупок на региональном уровне для определенной страны. Вы можете запустить инструмент Кластеризация с высокими/низкими значениями для каждого временного периода, а затем создать линейный граф с результатами. Если вы обнаружили, что z-оценки - статистически значимые и увеличивающиеся, вы можете сделать заключение, что интенсивность пространственной кластеризации для больших покупок увеличивалась.
В. Влияет ли размер объекта на анализ?
О. Размер ваших объектов может влиять на результат. Если, к примеру, ваши большие полигоны имеют низкие значения и ваши маленькие полигоны имеют высокие значения, даже если концентрация высоких и низких значений приблизительна равная, наблюдаемый Общий индекс G может быть выше, чем ожидаемый Общий индекс G, т.к. имеется меньше пар маленьких полигонов в пределах указанных расстояний.
Возможные приложения
- Поиск неожиданных всплесков в числе обращений в больницу, что может свидетельствовать об обострении локальных или региональных проблем со здоровьем.
- Сравнение пространственных закономерностей различных типов розничной продажи в городе, чтобы увидеть, какие типы кластеризуются с конкуренцией для использования в сравнении покупок (автомобильные представительства, например) и какие типы отражают конкуренцию (центры/спортзалы, например).
- Определяя уровень, на котором пространственные явления кластеризуются, чтобы проверить изменения в различные временные периоды и в различных местах. Например, известно, что города и их население являются кластерами. Используя анализ Высокой/Низкой кластеризации, вы можете сравнивать уровень населения, которое кластеризуется в пределах одного города во времени (анализ роста урбанизации и плотности).
Дополнительные ресурсы
Getis, Arthur, and J. K. Ord. "Анализ пространственных взаимосвязей, с использованием статистики расстояний." Географический Анализ 24, no. 3. 1992.
Энди Митчелл (Mitchell, Andy). The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.