Интерпретация результатов ГВР (OLS)

Результатами работы инструмента Метод наименьших квадратов являются:

Ниже представлено отображение и описание каждого из этих элементов в виде серии шагов от запуска МНК до интерпретации результатов его работы.

(A) Чтобы запустить инструмент МНК, укажите входной класс объектов с полем уникального ID, зависимую переменную, которую требуется смоделировать/объяснить/спрогнозировать, и список независимые значения. Кроме того, нужно будет указать путь к выходному классу объектов и, если это необходимо, пути к выходному файлу отчета, выходной таблице коэффициентов и выходной таблице диагностики.

Инструмент OLS
Диалоговое окно инструмента Наименьшие квадраты (Ordinary Least Squares)

После выполнения МНК сначала требуется проверить итоговый отчет, который записывается в окно Результаты (Results). Если щелкнуть правой кнопкой мыши запись Сообщения (Messages) в окне Результаты (Results) и выбрать Вид (View), результаты можно будет просмотреть в диалоговом окне Сообщение (Message). Если инструмент OLS будет работать на переднем плане, итоговый отчет также будет показан в диалоговом окне работы инструмента.

(B) Просмотрите сводный отчет, используя приведенные ниже инструкции:

Отчет OLS
Компоненты Статистического отчета о МНК

Разделы статистического отчета

  1. Оценка производительности модели. Оба значения Multiple R-Squared и Adjusted R-Squared являются показателями производительности модели. Возможные значения варьируются от 0.0 до 1.0. Значение Adjusted R-Squared всегда несколько ниже, нежели Multiple R-Squared, поскольку отражает сложность модели (количество переменных), что, в свою очередь, связано с целостностью данных, поэтому гораздо точнее отражает производительность модели. Добавление дополнительных независимых переменных в модель, как правило, повышает значение Multiple R-Squared, но понижает при этом значение Adjusted R-Squared. Предположим, вы создаете регрессионную модель домовых краж (количество домовых краж по каждому кварталу является зависимой переменной, y). Значение Adjusted R-Squared, равное 0,39 показывает, что ваша модель (или независимые переменные, cмоделированные с использованием линейной регрессии) объясняет порядка 39 процентов случаев поведения зависимой переменной. Иными словами, ваша модель описывает около 39% домовых краж.
    Производительность модели
    Значения R-Squared определяют производительность модели
  2. Оценка каждой независимой переменной в модели: Coefficient (коэффициент), Probability (Вероятность) или Robust Probability (Устойчивая вероятность) и Variance Inflation Factor (VIF) (Фактор, увеличивающий дисперсию). Коэффициент для каждой независимой переменной отражает силу и тип отношений между независимой и зависимой переменной. Если коэффициент отрицательный, отношения являются "негативными" (например, чем больше расстояние от центра города, тем меньше количество домовых краж). Если значение положительно, связь между показателями прямая (например, чем больше население, тем больше количество домовых краж). Коэффициенты приводятся в тех же единицах, что и связанные с ними независимые переменные (коэффициент 0.005 связан с переменной, представляющей численность населения, которую можно указать как 0.005 человек). Коэффициент отражает ожидаемое изменение в зависимой переменной для каждого изменения в связанной независимой переменной, хранящей все остальные константы переменных (например, при добавлении очередного жильца в квартал (который "хранит" все остальные независимые переменные), ожидается повышение значения домовых краж на 0,005). Тест T используется для проведения оценки того, являются ли независимые переменные значимыми. Нулевая гипотеза означает, что для всех случаев коэффициент близок к нулю (и, соответственно, не подходит для моделирования). В случаях, когда вероятность или устойчивая вероятность (p-значения) являются очень маленькими, шанс того, что коэффициент равен нулю, также невелик. Если тест Koenker (см. ниже) является статистически значимым, используйте значения устойчивой вероятности для оценки статистической значимости независимых переменных. Статистические значимости вероятности помечены звездочкой (*). Независимая переменная, связанная со статистически значимым коэффициентом, важна для модели регрессии, если теоретическое/часто встречаемое значение поддерживает корректное отношение с зависимой переменной, если моделируемое отношение является, в основном, линейным и если переменная не является избыточной для всех остальных независимых переменных в модели. Фактор, увеличивающий дисперсию (VIF ), измеряет избыточность среди независимых переменных. По опыту, независимые переменные, связанные со значениями фактора VIF, больше, чем 7,5 должны быть удалены (по одному) из модели регрессии. Если, например, в модели имеется переменная населения (количество человек) и переменная трудящихся (количество работающих человек), явную связь между ними можно найти по высокому значению VIF, увеличивающего дисперсию, который показывает, что обе переменных говорят об одном и том же, следовательно, одну из них из модели можно удалить.
    Анализ независимых переменных
    Оценка того, какие переменные являются статистически значимыми.
  3. Оценка значимости модели. Показатели Соединенная F-статистика (Joint F-Statistic) и Соединенная статистика Вальда (Joint Wald Statistic) отвечают за общую статистическую значимость модели. Joint F-Statistic является надежным только в том случае, когда показатель Koenker (BP) statistic (см. ниже) не является статистически значимым. В противном случае желательно проанализировать Joint Wald Statistic, чтобы определить общую значимость модели. Нулевая гипотеза для обоих тестов подразумевает, что независимые переменные в модели являются неэффективными. Для уровня надежности в 95%, a p-значение (вероятность) менее 0.05 показывает статистическую значимость модели.
    Общая производительность модели
    Оценка общей статистической значимости регрессионной модели.
  4. Оценка стационарности. Статистика Кенкера (BP) (Koenker (BP) Statistic) (стьюдентизированная Кенкером статистика Бреуша-Пагана) – это тест на определение того, имеют ли независимые переменные в модели постоянную связь с зависимой переменной как в географическом пространстве, так и в пространстве данных. Если модель согласована в географическом пространстве, то процессы, представленные независимыми переменными, ведут себя одинаково по всей области исследования (являются стационарными). Если модель согласована в пространстве данных, то разница в отношениях между предсказанными значениями и каждой независимой переменной не меняется при изменении самой переменной (в модели нет гетероскедастичности). Предположим, вы хотите предсказать преступление, и на входе у вас есть одна независимая переменная. У модели будет сомнительная гетероскедастичность, если предсказания были более точными для участков с низкими значениями медианы, нежели для участков с большим значением. Нулевая гипотеза для этого теста заключается в том, что модель является стационарной. Для 95% уровня надежности p-значение (вероятность) менее 0.05 означает статистически значимую гетероскедастичность и/или нестационарность. В случае, когда результаты теста являются статистически значимыми, проанализируйте стандартные ошибки и вероятности коэффициента надежности для оценки эффективности каждой независимой переменной. Регрессионные модели со статистически значимой нестационарностью зачастую являются отличными данными для анализа Географически взвешенной регрессии (ГВР).
    Оценка стационарности и зависимости дисперсии от случайной величины
    Оценка стационарности: если критерий Кенкера статистически значимый (*), примите во внимание устойчивые вероятности, чтобы оценить, статистически значимые ваши независимые коэффициенты или нет.
  5. Оценка смещения модели. Статистика Жака-Бера (Jarque-Bera) показывает, являются ли невязки (полученные/известные зависимые переменные минус предсказанные/ожидаемые значения) нормально распределенными. Нулевая гипотеза для данного теста заключается в том, что невязки распределены нормально, поэтому, если вы построите для них гистограмму, она будет выглядеть как классическая колоколообразная кривая или Гауссово распределение. Когда p-значение (вероятность) для этого теста мала (например, менее 0.05 для 95% уровня надежности), невязки не распределены нормально, это значит, что модель смещена. Если у вас есть статистически значимая пространственная автокорреляция невязок (см. ниже), смещение может быть результатом ошибок спецификации модели (потеря ключевой переменной в модели). Результаты такой модели являются ненадежными. Статистически значимый тест Жака-Бера также может возникнуть, если вы пытаетесь смоделировать нелинейные отношения, а данные содержат значительные выбросы или сильно зависимы дисперсии от случайной величины.
    Результаты теста Жака-Бера
    Оценка смещения модели.
  6. Оценка пространственной автокорреляции невязок. Всегда запускайте инструмент Пространственная автокорреляция (Индекс Морана I) для невязок регрессии, чтобы убедиться, что они пространственно случайны. Статистически значимая кластеризация высоких и/или низких невязок (пере- или недооценка модели) показывает, что в модели потеряна ключевая переменная (ошибка спецификации). Результаты МНК не могут быть достоверными в таком случае.
    Оценка пространственного распределения остатков регрессии
    Используйте инструмент Пространственная автокорреляция, чтобы убедиться, что данные о невязках модели не являются пространственно автокоррелированными.
  7. Наконец, обратитесь к разделу Почему не работает модель регрессии в документации Основы регрессионного анализа, чтобы убедиться, что ваша модель настроена соответствующим образом. Если возникают трудности при поиске правильной модели регрессии, инструмент Исследовательская регрессия (Exploratory Regression) может оказаться полезным. Замечания по интерпретации в конце сводного отчета OLS напоминают о цели каждого статистического теста и помогают найти решения, если ваша модель не проходит один или несколько диагностических проверок.
    Замечания по интерпретации
    Отчет о МНК включает замечания, которые помогают интерпретировать выходные данные.

(C) Если вы указали путь к дополнительному выходному файлу отчета, создается PDF-файл со всей информацией в сводном отчете и дополнительными графиками, позволяющими оценить вашу модель. На первой странице отчета представлены сведения о каждой независимой переменной. Как и в первом разделе сводного отчета (см. пункт 2 выше), вы используете эту информацию, чтобы определить, являются ли коэффициенты для каждой независимой переменной статистически значимыми и содержат ли ожидаемый знак (+/-). Если критерий Кенкера статистически значимый (см. пункт 4 выше), то можно доверять только устойчивым вероятностям, чтобы оценить, помогает ли переменная вашей модели или нет. Статистически значимые коэффициенты содержат знак звездочки (*) рядом со своими p-значениями для вероятностей и/или столбцов устойчивой вероятности. По информации на этой странице также можно определить, являются ли независимые переменные избыточными (проблемная мультиколлинеарность). Если теория не говорит иное, независимые переменные с большими значениями Фактора увеличения дисперсии (VIF) следует удалить по одной, пока значения VIF для всех оставшихся независимых переменных не будут меньше 7,5.

Страница 1 отчета OLS

В следующей разделе выходного файла отчета перечисляются результаты диагностических проверок OLS. На этой странице также представлены замечания по интерпретации, описывающие необходимость каждой проверки. Если ваша модель не проходит одну из этих проверок, в таблице типичных проблем с регрессией можно найти серьезность каждой проблемы и возможный путь ее устранения. Графики на остальных страницах отчета также помогают вам выявить и устранить проблемы с моделью.

Страница 2 отчета OLS

В третьем разделе выходного файла отчета представлены гистограммы с распределением каждой переменной в модели, а также диаграммы рассеивания, показывающие отношения зависимой и независимой переменной. Если у вас возникают проблемы со смещением модели (это обозначается статистически значимым p-значением Жака-Бера), найдите в гистограммах распределения с асимметрией и попробуйте преобразовать эти переменные, чтобы увидеть, устраняет ли это смещение и улучшается ли производительность модели. Диаграммы рассеивания показывают, какие переменные являются лучшими предикторами. Используйте эти диаграммы рассеивания, чтобы проверить переменные на наличие нелинейных отношений. В некоторых случаях преобразование одной или нескольких переменных устраняет нелинейные отношения и смещение модели. Выбросы в данных также могут привести к получению смещенной модели. Проверьте гистограммы и диаграммы рассеивания на наличие таких данных или отношений. Попробуйте запустить модель с выбросами и без них, чтобы оценить, как они влияют на результаты. Вы можете обнаружить, что выброс – это некорректные данные (введенные или записанные с ошибкой) и сможете удалить связанный объект из набора данных. Если выброс отражает корректные данные и сильно влияет на результаты анализа, вы можете провести ваш анализ с выбросами и без них.

Страница 3 отчета OLS

После получения правильно настроенной модели переоценки и недооценки будут отражать случайный шум. Если вам нужно создать гистограмму случайного шума, обычно это кривая с нормальным распределением (в виде колокола). Четвертый раздел выходного файла отчета представляет гистограмму переоценок и недооценок модели. Полосы на гистограмме отображают фактическое распределение, а синяя линия сверху диаграммы показывает форму, которую бы приняла гистограмма, если остатки имели нормальное распределение. Вряд ли вы получите идеальные результаты, поэтому следует проверить тест Жака-Бера, чтобы определить, является ли отклонение от нормального распределение статистически значимым или нет.

Страница OLS 4

Диагностика Кенкера позволяет определить, меняются ли моделируемые отношения в изучаемой области (нестационарность) или зависят от величины переменной, которую вы пытаетесь предсказать (зависимость дисперсии от случайной величины). Географически взвешенная регрессия (Geographically_Weighted_Regression) позволяет устранить проблемы с нестационарностью. На графике в разделе 5 файла выходного отчета будет показано, имеется ли проблема с зависимостью дисперсии от случайной величины. На диаграмме рассеивания (см. ниже) показано отношение остаточных и прогнозируемых значений модели. Предположим, вы моделируете частоту преступлений. Если на графике показана коническая форма с точкой слева и расширением справа от графика, это указывает на то, что ваша модель хорошо прогнозирует расположения с низкой частотой преступлений, и плохо прогнозирует расположения с высокой частотой преступлений.

Страница OLS 5

На последней странице отчета показаны все настройки параметров, использованные при создании отчета.

(D) Изучите невязки модели в выходном классе объектов. Пере- и недооценки для правильно настроенной модели регрессии будут распределены случайно. Кластеризация переоценок и/или недооценок является доказательством того, что потеряна как минимум одна независимая переменная. Проверьте "рисунок" невязок модели, чтобы посмотреть, не говорит ли он о том, какие переменные могли быть утеряны. Иногда запуск инструмента Анализ горячих точек (Hot Spot Analysis) для нее может помочь определить более общие закономерности. Дополнительные стратегии для обработки неправильно определенной модели см. в разделе Что вам не говорят о регрессионном анализе.

Картографическое представление невязок
Результат МНК: Картографическое представление невязок

(E) Просмотрите таблицы коэффициентов и диагностики. Создавать их необязательно. Если вы находитесь в процессе поиска эффективной модели, можно обойтись без них. Но этот процесс итеративен, поэтому может быть перепробовано огромное количество моделей (с разными независимыми переменными) до тех пор, пока не будет найдена лучшая. Вы можете использовать Скорректированный информационный критерий Акаике (Corrected Akaike Information Criterion (AICc)) в отчете, чтобы сравнить модели между собой. Модель с меньшим значением AICc лучше (то есть, наиболее точно отражает данные наблюдений).

Выходные данные AICc
Для сравнения регрессионных моделей можно использовать значение AICc.

Создание таблиц коэффициентов и диагностических таблиц для ваших итоговых моделей OLS захватывает важные элементы отчета OLS. Таблица коэффициентов включает список независимых переменных, используемых в моделях, с их коэффициентами, стандартизированными коэффициентами, стандартными ошибками и вероятностями. Коэффициент – это оценка того, насколько зависимая переменная изменится при изменении на 1 единицу связанной независимой переменной. Единицы измерения для коэффициентов совпадают с единицами независимых переменных. Если, например, у вас есть независимая переменная для общей численности населения, то единицы измерения коэффициента для этой переменной представляют собой количество людей; если другая независимая переменная показывает расстояние (в метрах) от железнодорожной станции, то единицы коэффициента представляют собой метры. Когда коэффициенты конвертируются в стандартные отклонения, они называются стандартизированными коэффициентами. Вы можете использовать стандартизированные коэффициенты для сравнения эффектов, которые различные независимые переменные оказывают на зависимую переменную. Независимая переменная с наибольшим стандартизированным коэффициентом, после того, как вы откинете знак +/- (то есть возьмете абсолютное значение), имеет наибольший эффект на зависимую переменную. Интерпретации коэффициентов, однако, могут быть сделаны только при учете стандартной ошибки. Стандартные ошибки показывают, насколько вероятно, что вы получите те же коэффициенты, если вы пересчитаете данные и перекалибруете свою модель много раз. Большие стандартные ошибки для коэффициентов означают, что процесс пересчета выдаст широкий диапазон возможных значений коэффициентов; маленькие стандартные ошибки означают, что коэффициент будет достаточно постоянен.

Таблица коэффициентов
Таблица коэффициентов включает вычисленные коэффициенты, стандартные ошибки и вероятности переменных.

Таблица диагностики включает результаты для каждого диагностического теста, наряду с некоторыми инструкциями по интерпретации этих результатов.

Диагностика OLS
Таблица диагностики включает заметки об интерпретации результатов теста диагностики модели.

Дополнительные ресурсы

Существует целый ряд хороших ресурсов, которые помогут вам узнать больше о регрессии OLS на странице Ресурсы о пространственной статистике. Начните с чтения документации по Основы регрессионного анализа или просмотрите бесплатный одночасовой веб-семинар Esri Virtual Campus по Основы регрессионного анализа. Затем поработайте с обучающим руководством по Регрессионный анализ. Примените регрессионный анализ к собственным данным, изучите таблицу типичных проблем и статью Что вам не говорят о регрессионном анализе для поиска дополнительных стратегий. Если возникают трудности при поиске правильной модели регрессии, то для Вас может оказаться полезным инструмент Исследовательская регрессия (Exploratory Regression).

9/11/2013