Интерпретация результатов инструмента Исследовательская регрессия (Exploratory Regression)

После запуска инструмента Исследовательская регрессия (Exploratory Regression) основным результатом является отчет. Этот отчет можно увидеть в окне сообщений геообработки после запуска инструмента на переднем плане или же в окне Результаты (Results). При необходимости также создается таблица, которая может помочь исследовать протестированные модели. Одна из целей отчета — показать, дают ли потенциальные независимые переменные правильные модели OLS. Если не удалось получить проходящие модели (модели, соответствующие всем указанным критериям после запуска инструмента Исследовательская регрессия (Exploratory Regression), в отчете также будет показано, какие переменные являются согласованными предикторами, что позволяет определить, в каких диагностических тестах возникла ошибка. Стратегии по устранению проблем, связанных с каждым диагностическим тестом, указаны в документе Основы регрессионного анализа (см. раздел Типичные проблемы с регрессией, последствия и решения) и в разделе Что вам не говорят о регрессионном анализе. Дополнительные сведения о том, как узнать, является ли модель OLS правильной, см. в разделах Основы регрессионного анализа и Интерпретация результатов МНК (метода наименьших квадратов).

Отчет

В отчете инструмента Исследовательская регрессия (Exploratory Regression) пять разделов. Каждый из них описывается ниже.

Разделы отчета

1. Лучшие модели по числу независимых переменных

Раздел 1 отчета инструмента Исследовательская регрессия (Exploratory Regression)

Первый набор сводных данных в отчете группируется по числу независимых переменных в проверенных моделях. Если указать число 1 для параметра Минимальное число независимых переменных (Minimum Number of Explanatory Variables) и значение 5 для параметра Максимальное число независимых переменных (Maximum Number of Explanatory Variables), в отчете будет 5 сводных разделов. В каждом из них указывается три модели с наибольшими скорректированными значениями R2, а также все проходящие модели. В каждом разделе также указаны диагностические значения для каждой модели: скорректированный информационный критерий Акаике — AICc, p-значение Жака-Бера — JB, стьюдентизированное Кенкером p-значение Бреуша-Пагана — K(BP), наибольший Фактор увеличения дисперсии — VIF, а также измерение пространственной автокорреляции отклонений (p-значение глобального индекса Морана I) — SA. Эти сводные сведения позволяют понять, как хорошо ваши модели прогнозируют данные (Adj R2) и проходят ли модели все указанные диагностические критерии. Если вы приняли все критерии поиска по умолчанию (параметры Минимальный допустимый выровненный R-квадрат (Minimum Acceptable Adj R Squared), Максимальный порог p-значения коэффициента (Maximum Coefficient p-value Cutoff), Максимальный порог значения VIF (Maximum VIF Value Cutoff), Минимально допустимое p-значение Жака-Бера (Minimum Acceptable Jarque Bera p-value) и Минимально допустимое p-значение пространственной автокорреляции (Minimum Acceptable Spatial Autocorrelation p-value)), все модели в списке Проходящие модели (Passing Models) будут правильными моделями OLS.

Если проходящих моделей нет, в остальном отчете все равно будет представлена полезная информация о переменных отношений, которая может помочь при принятии решений о дальнейших действиях.

2. Глобальная сводка исследовательской регрессии

Раздел 2 отчета инструмента Исследовательская регрессия (Exploratory Regression)

Раздел Глобальная сводка исследовательской регрессии — это важное место для начала анализа, особенно если вы не нашли проходящие модели, так как в нем показано, почему модели не прошли проверки. В данном разделе перечислены пять диагностических тестов и процент моделей, прошедших каждый из них. Если проходящих моделей нет, эта информация позволит определить, в каком тесте возникают проблемы.

Часто неприятности возникают с тестом глобального индекса Морана I для пространственной автокорреляции (SA). Если у всех проверенных моделей есть невязки регрессии с пространственной автокорреляцией, чаще всего это указывает на отсутствие важных независимых переменных. Один из лучших способов узнать, отсутствуют ли независимые переменные — изучить карту невязок, созданную инструментом Регрессия методом наименьших квадратов (OLS). Выберите одну из моделей исследовательской регрессии, которая хорошо прошла все другие критерии (используйте списки наибольших значений R-Squared или выберите модель из дополнительной выходной таблицы) и запустите OLS с использованием этой модели. Выходные данные инструмента Регрессия методом наименьших квадратов (OLS) — это карта невязок модели. Изучите невязки модели, чтобы получить сведения о недостающих данных. Попробуйте сформировать наибольшее число потенциальных пространственных переменных, таких как расстояние до центра города, больниц и других географических объектов. Попробуйте использовать переменные пространственного режима. Например, если все недооценки расположены в сельских областях, создайте бинарную переменную и посмотрите, улучшатся ли результаты регрессионного анализа.

Другой диагностический тест, которые вызывает проблемы — это тест Жака-Бера для невязок с нормальным распределением. Если ни одна из моделей не проходит тест Жака-Бера (JB), налицо проблема со смещением модели. Распространенные причины смещения модели:

При просмотре матрицы рассеивания потенциальных независимых переменных по отношению к зависимой переменной, вы увидите, имеет ли место одна из этих проблем. Дополнительные стратегии описаны в документе Основы регрессионного анализа. Если модели не проходят тест пространственной автокорреляции (SA), исправьте сначала эти проблемы. Смещение может быть вызвано отсутствием важных независимых переменных.

3. Сводка значимости переменных

Раздел 3 отчета инструмента Исследовательская регрессия (Exploratory Regression)

В разделе Сводка значимости переменных (Summary of Variable Significance) представлены сведения об отношениях переменных и их согласованности. В нем указана каждая потенциальная независимая переменная с отношением количества раз, когда она была статистически значимой. У первых нескольких переменных в списке самые большие значения столбца % Significant. Вы также можете увидеть стабильность отношений переменных, изучив столбцы % Negative и % Positive. Сильные предикторы будут постоянно значимы (% Significant), а отношения будут стабильными (в основном отрицательными или в основном положительными).

Эта часть отчета также позволяет повысить эффективность модели. Это особенно важно при работе с множеством потенциальных независимых переменных (больше 50) и использовании моделей с пятью или большим числом предикторов. При наличии большого числа независимых переменных и проверке многих комбинаций, вычисления могут занять длительное время. В некоторых случаях, по факту, инструмент не закончит работу из-за ошибок памяти. Рекомендуется постепенно увеличить число проверяемых моделей: начните с установки для параметров Минимальное число независимых переменных (Minimum Number of Explanatory Variables) и Максимальное число независимых переменных (Maximum Number of Explanatory Variables) значение 2, затем 3, затем 4 и т. д. С каждым запуском удаляется переменные, которые редко являются статистически значимыми для проверяемых моделей. В разделе Сводка значимости переменных (Summary of Variable Significance) вы сможете найти эти переменные, а также сильные предикторы. Удаление даже одной потенциальной независимой переменной из списка может значительно сократить время работы инструмента Исследовательская регрессия (Exploratory Regression).

4. Сводка мультиколлинеарности

Раздел 4 отчета инструмента Исследовательская регрессия (Exploratory Regression)

Раздел отчета Сводка мультиколлинеарности (Summary of Multicollinearity) можно использовать вместе с разделом Сводка значимости переменных (Summary of Variable Significance) для определения того, какие потенциальные независимые переменные можно удалить из анализа для улучшения производительности. Раздел Сводка мультиколлинеарности (Summary of Multicollinearity) позволяет узнать, сколько раз каждая независимая переменная была включена в модель с высокой степенью мультиколлинеарности, а также узнать другие независимые переменные, также включенные в эти модели. Если две (или более) независимых переменных часто обнаруживаются в моделях с высокой мультиколлинеарностью, эти переменные могут описывать один и тот же аспект явления. Так как требуется включать только переменные, которые описывают уникальный аспект зависимой переменной, можно выбрать только одну из избыточных переменных для дальнейшего анализа. Можно выбрать самую полезную переменную в разделе Сводка значимости переменных (Summary of Variable Significance).

5. Дополнительные сводные данные диагностики

Раздел 5 отчета инструмента Исследовательская регрессия (Exploratory Regression)

Конечные сводные данные диагностики отображают наибольшие p-значения Жака-Бера (Сводка нормальности остатков (Summary of Residual Normality)) и наибольшие p-значения глобального индекса Морана I (Сводка пространственной автокорреляции остатков (Summary of Residual Autocorrelation)). Чтобы пройти эти диагностические тесты, необходимы большие p-значения.

Эти сводные данные не слишком полезны, если модели проходят тест Жака-Бера и тест пространственной автокорреляции (глобальный индекс Морана I), так как если критерий статистической значимости равен 0,1, все модели со значениями более 0,1 также будут проходящими. Но эти сводные данные полезны, если у вас нет проходящих моделей, и вы хотите узнать, насколько вы далеки от нормально распределенных невязок или невязок без статистически значимой пространственной автокорреляции. Например, если p-значения для сводки Жака-Бера равны 0,000000, ясно, что вы очень далеки от нормально распределенных невязок. Или же, если p-значения равны 0,092, то вы близки к нормально распределенным невязкам (к слову, в зависимости от выбранного уровня значимости p-значение 0,092 может быть достаточным). Эти сводные данные демонстрируют, насколько серьезна проблема, и, если ни одна из моделей не является проходящей, какие переменные, связанные с моделями, хотя бы близки к прохождению тестов.

Таблица

Таблица исследовательской регрессии

Если указано значение для параметра Выходная таблица результатов (Output Results Table), будет создана таблица со всеми моделями, соответствующими критериям Максимальный порог p-значения коэффициента (Maximum Coefficient p-value Cutoff) и Максимальный порог значения VIF (Maximum VIF Value Cutoff). Даже если проходящих моделей нет, существует вероятность того, что в выходной таблице будут какие-то модели. Каждая строка в таблице представляет модель, соответствующую критериям коэффициентов и значений VIF. Столбцы в таблице описывают диагностические тесты и независимые переменные модели. Диагностические данные: Adjusted R-Squared (R2), скорректированный информационный критерий Акаике — AICc, p-значение Жака-Бера — JB, стьюдентизированное Кенкером p-значение Бреуша-Пагана — K(BP), наибольший Фактор увеличения дисперсии — VIF, а также p-значение глобального индекса Морана I — SA. Вы можете отсортировать модели по их значениям AICc. Чем меньше значение AICc, тем лучше работает модель. Вы можете отсортировать значения AICc в ArcMap, дважды щелкнув столбец AICc. Если вы выбираете модель для применения в анализе OLS (для изучения невязок), то помните о том, что нужно выбрать модель с малым значением AICc и проходящими значениями для максимального числа других диагностических данных. Например, если вы изучили выходной отчет и поняли, что тест Жака-Бера вызвал проблемы, ищите модель с наименьшим значением AICc, которая соответствует всем критериям кроме Жака-Бера.

Дополнительные ресурсы

Если у вас нет опыта регрессионного анализа в ArcGIS, настоятельно рекомендуем просмотреть бесплатный семинар по регрессии Esri Virtual Campus, а затем запустить Руководство по регрессионному анализу перед использованием инструмента Исследовательская регрессия (Exploratory Regression).

Возможно, вы также захотите просмотреть следующие разделы:

Кроме того, на странице ресурсов по пространственной статистике можно найти новые видео, учебные пособия и другие материалы.

9/11/2013