Как работает географически взвешенная регрессия (ГВР)
Географически взвешенная регрессия (ГВР) (Geographically Weighted Regression) — один из нескольких методов пространственного регрессионного анализа, все чаще используемого в географии и других дисциплинах. Метод ГВР создает локальную модель переменной или процесса, который вы предсказываете или изучаете, применяя уравнение регрессии к каждому пространственному объекту в наборе данных. ГВР создает отдельные уравнения путем включения зависимых и независимых переменных объектов, попадающих в пределы диапазона каждого целевого объекта. Форма и размер диапазона зависит от таких параметров как Тип ядра (Kernel type), Метод задания ширины диапазона (Bandwidth method), Расстояние (Distance) и Количество соседей (Number of neighbors).
Замечания и советы по реализации
В глобальных регрессионных моделях, таких как МНК (OLS), результаты ненадежны, когда у двух или более переменных наблюдается мультиколлинеарность (когда 2 или более переменных избыточны или вместе "рассказывают одну и ту же историю"). Инструмент ГВР строит уравнение локальной регрессии для каждого объекта в наборе данных. Когда значения для конкретной независимой переменной кластеризуются в пространстве, вы вероятнее всего будете иметь проблемы с локальной мультиколлинеарностью. Число обусловленности в выходном классе объектов указывает на нестабильность результатов вследствие локальной мультиколлинеарности. Как правило, не стоит доверять результатам для объектов с Числом обусловленности более 30; равным 0; или равным 1.7976931348623158e+308.
Требовательность к созданию модели часто свидетельствует о наличии проблем с глобальной или локальной мультиколлинеарностью. Чтобы обнаружить местоположение проблемы, запустите модель, используя МНК и проверьте значение фактора, увеличивающего дисперсию, для каждой переменной величины. Если некоторые из значений Фактора, увеличивающего дисперсию, - большие (выше 7,5, например), глобальная мультиколлинеарность не позволяет работать методу ГВР (географически взвешенная регрессия). Однако, вероятнее всего, проблемой является локальная мультиколлинеарность. Попытайтесь создать тематическую карту для каждой независимой переменной. Если карта раскрывает пространственную кластеризацию идентичных значений, следует рассмотреть вариант исключения тех переменных из модели или комбинирования тех переменных с другими независимыми переменными для увеличения вариации значений. Если, например, вы моделируете домашние значения и имеете переменные для спален и ванных комнат отдельно, вы, возможно, захотите объединить их, чтобы увеличить вариацию значений или представить их как ванная комната/спальня. При конструировании моделей ГВР, избегайте использования бинарных значений, пространственной кластеризации номинальных переменных, или переменных с очень малым числом возможных значений.
Проблемы с локальной мультиколлинеарностью могут также помешать Методу задания ширины диапазона (Bandwidth method) AIC и CV выполнить разрешение оптимального расстояния или количества соседей. Попробуйте указать определенное расстояние или количество соседей, затем проверьте все числа обусловленности в Выходном классе объектов, чтобы увидеть, какие значения ассоциированы с локальными проблемами мультиколлинеарности (числа обусловленности более 30). Вы можете захотеть временно убрать эти проблемные объекты до того, как вы не найдете оптимального расстояния/числа соседей. Помните, что результаты, ассоциированные с Числом обусловленности большим 30, ненадежны.
Число обусловленности является индикатором того, насколько чувствительно решение линейного уравнения к небольшим изменениям в коэффициентах матрицы. Результаты индивидуальных объектов, когда число обусловленности больше 30, не включаются в вариацию оценок параметра; это влияет на диагностику стандартной ошибки, глобальный коэффициент рассеяния, и стандартизованные невязки.
Пользователь может изменить пороговое число обусловленности путем переустановки регистра:
[HKEY_CURRENT_USER\Software\ESRI\GeoStatisticalExtension\DefaultParams\GWR]
"Пороговое число обусловленности"="40"
Оценки параметров и спрогнозированные значения для ГВР рассчитываются с помощью следующей функции пространственного взвешивания: exp(-d^2/b^2). Могут быть различия в функции взвешивания в различных программных продуктах , в которые внедрена ГВР. Следовательно, результаты, полученные из инструмента ГВР (GWR) (ESRI) могут не совпадать с результатами, получаемыми в специализированных пакетах, рассчитанных на проведение ГВР.
Дополнительные ресурсы
Существует целый ряд хороших ресурсов, содержащих подробную информацию как о МНК (OLS), так и о Географически взвешенной регрессии. Начните с чтения документации по Основам регрессионного анализа или просмотрите бесплатный одночасовой веб-семинар ESRI Virtual Campus по Основам регрессионного анализа. Затем поработайте с обучающим руководством по Регрессионному анализу. Как только вы начнете создавать ваши собственные регрессионные модели, рекомендуем ознакомиться с дополнительной документацией по Интерпретации результатов МНК и Интерпретации результатов ГВР, чтобы вы смогли лучше понимать результаты регрессии и диагностики.
Другие ресурсы
Стюарт Фотерингэм (Fotheringham, Stewart A.), Крис Брансдон (Chris Brunsdon) и Мартин Чарльтон (Martin Charlton). Geographically Weighted Regression: the analysis of spatially varying relationships. John Wiley & Sons, 2002.
Энди Митчелл (Mitchell, Andy). The ESRI Guide to GIS Analysis, Volume 2.ESRI Press, 2005.