Что вам не говорят о регрессионном анализе
Регрессионный анализ используется для понимания, моделирования, прогнозирования и объяснения сложных явлений. Он помогает ответить на такие вопросы, как "Почему в США есть города, в которых оценки по тестам намного больше средних по стране?" и "Почему существуют области в городе с высоким уровнем грабежей домов?" Вы можете использовать регрессионный анализ, например, для объяснения ожирения среди детей с помощью набора связанных переменных, таких как доход, образование и доступность здоровой пищи.
Обычно регрессионный анализ позволяет ответить на эти вопросы и принять соответствующие меры. Если, например вы обнаружите, что степень ожирения среди детей меньше в школах, в которых на обед подаются свежие фрукты и овощи, вы сможете использовать эту информацию для принятия решений о программах питания в школах. Аналогично, если знать переменные, описывающие высокий уровень преступлений, можно прогнозировать будущие преступления и более эффективно выделять ресурсы для их предотвращения.
Вот, что вам говорят о регрессионном анализе.
А не говорят о нем то, что не всегда получается легко найти набор независимых переменных, с помощью которых можно ответить на ваши вопросы или объяснить сложное явление, которое вы пытаетесь смоделировать. Ожирение среди детей, уровень преступности, школьные оценки и почти все, что вы захотите смоделировать с помощью регрессионного анализа — это все очень сложные явления, которые редко дают простые ответы. Если вы пытались создать собственную модель регрессии, вы и сами это знаете.
К счастью, при запуске инструмента регрессии по методу наименьших квадратов вы получаете набор средств диагностики, позволяющих узнать, правильно ли вы настроили модель, которой можно доверять. В данном документе описываются шесть проверок, которые необходимо пройти, чтобы быть уверенным в своей модели. Эти проверки и методы, которые можно использовать для решения распространенных задач регрессионного анализа — это ресурсы, которые действительно могут значительно облегчить вашу работу.
Осознав информацию, представленную далее, вы можете решить использовать инструмент Исследовательская регрессия (Exploratory Regression) для поиска модели, соответствующей всем требованиям метода наименьших квадратов.
Приступая к работе
Выбор переменной, которую требуется изучить, спрогнозировать или смоделировать — это ваша первая задача. Эту переменную называют зависимой переменной. Ожирение среди детей, уровень преступности, школьные оценки — это зависимые переменные, моделируемые в примерах, приведенных ранее.
Затем необходимо решить, какие факторы могут объяснить вашу зависимую переменную. Такие переменные называют независимыми. В примере с ожирением среди детей независимыми переменными могут быть доход, образование и доступность здоровой пищи. Вам нужно провести собственные исследования, чтобы определить все существенные независимые переменные. Изучите теорию и существующую литературу, поговорите с экспертами и всегда полагайтесь на здравый смысл. Предварительные исследования значительно повышают ваши шансы найти хорошую модель.
После выбора зависимых и независимых переменных вы можете приступать к анализу. Всегда начинайте анализ с использования инструмента Наименьшие квадраты (Ordinary Least Squares) или Исследовательская регрессия (Exploratory Regression), так как они выполняют важные диагностические проверки и позволяют понять, нашли ли вы полезную модель или вам нужно еще потрудиться.
Инструмент OLS создает несколько выходных объектов, в том числе карту невязок регрессии и итоговый отчет. На карте невязок регрессии отображаются недооценки и переоценки вашей модели. Анализ этой карты — важный шаг при поиске хорошей модели. Итоговый отчет, в основном, числовой и содержит данные обо всех диагностических методах, используемых при прохождении шести проверок, описанных далее.
Шесть проверок
Проверка 1. Помогают ли эти независимые переменные моей модели?
Изучив теорию и существующие исследования, вы получите набор потенциальных независимых переменных. Для каждой переменной могут существовать понятные причины для включения в модель. Но после запуска модели вы обнаружите, что некоторые независимые переменные являются статистически значимыми, а другие — нет.
Как узнать, какие независимые переменные являются статистически значимыми? Инструмент OLS вычисляет коэффициент для каждой независимой переменной в модели и выполняет статистический тест, чтобы определить, помогает ли эта переменная модели или нет. Статистический тест вычисляет вероятность того, что значение коэффициента фактически равно нулю. Если коэффициент равен нулю (или очень близок к нему), связанная независимая переменная не помогает вашей модели. Если, с другой стороны, статистический тест возвращает малую вероятность (p-значение) для определенной независимой переменной, это указывает, что коэффициент вряд ли будет равен нулю (вероятность этого мала). Если вероятность меньше 0,05, звездочка рядом с вероятностью в отчете OLS указывает, что связанная независимая переменная важна для вашей модели (другими словами, ее коэффициент статистически значим с уровнем уверенности 95%). Итак, вы ищете независимые переменные, связанные со статистически значимыми вероятностями (ищите переменные со звездочками).
Инструмент OLS вычисляет вероятность и устойчивую вероятность для каждой независимой переменной. При обработке пространственных данных отношения, моделируемые в области изучения, часто изменяются. Эти отношения называют нестационарными. При наличии нестационарых отношений можно доверять только устойчивым вероятностям при оценке статистической значимости независимой переменной.
Как узнать, являются ли отношения в вашей модели нестационарными? В итоговый отчет OLS включен еще один статистический тест, статистика Кенкера (стьюдентизированная Кенкером статистика Бреуша-Пагана). Звездочка рядом с p-значением Кенкера указывает на то, что моделируемые отношения содержат статистически значимую нестационарность, поэтому следует принять во внимание устойчивые вероятности.
Обычно независимые переменные удаляются из модели, если не являются статистически значимыми. Однако, если теория говорит, что переменная очень важна, или определенная переменная является стержнем для вашего анализа, вы можете сохранить ее, даже если она статистически не значима.
В процессе поиска правильной модели OLS вы, скорее всего, опробуете различные независимые переменные. Помните, что коэффициенты независимых переменных (и их статистическая значимость) могут радикально изменяться в зависимости от переменных, включенных в модель.
Проверка 2. Соответствуют ли отношения ожиданиям?
Важно не только определить, помогает ли независимая переменная вашей модели, но и также проверить знак (+/-), связанный с каждым коэффициентом, чтобы отношения соответствовали вашим ожиданиям. Знак коэффициента независимой переменной определяет, являются ли отношения положительными или отрицательными. Предположим, вы моделируете уровень преступности, и одна из независимых переменных — это средний доход в районе. Если коэффициент переменной дохода отрицательный, это значит, что уровень преступности уменьшается при увеличении дохода в районе (отрицательные отношения). Если вы моделируете ожирение среди детей и у переменной доступности фастфуда положительный коэффициент, это означает, что степень ожирения увеличивается при повышенном доступе к фастфуду (положительные отношения).
При создании списка потенциальных независимых переменных необходимо для каждой из них включить ожидаемые отношения (положительные или отрицательные). Следует также не доверять моделям с отношениями, не соответствующими теории и/или здравому смыслу. Предположим, вы создаете модель для прогнозирования частоты лесных пожаров, а ваша модель регрессии вернула положительный коэффициент для переменной осадков. Вероятно, не следует ждать увеличения числа лесных пожаров с большим количеством дождей.
Непредвиденные знаки коэффициентов часто указывают на другие проблемы вашей модели, которые будут проявляться при продолжении проверок. Знаку и значению коэффициентов независимых переменных можно доверять, только если модель пройдет все шесть проверок. Если модель прошла все проверки с непредвиденным знаком коэффициента, возможно, вы сможете обнаружить какую-то новую закономерность. Может быть, что между частотой лесных пожаров и уровнем осадком имеют место положительные отношения, так как основным источником пожаров в изучаемой области являются молнии. Может быть полезным получить данные о молниях для вашей области изучения, чтобы посмотреть, улучшит ли это работу модели.
Проверка 3. Являются ли какие-либо независимые переменные избыточными?
При выборе независимых переменных для анализа ищите переменные, которые описывают различные аспекты моделируемого явления и избегайте переменные, говорящие об одном и том же. Например, если вы моделируете характеристики домов, не следует одновременно включать независимые переменные для площади дома и числа спален. Обе эти переменные связаны с размером дома, а применение обеих переменных может сделать модель нестабильной. По большому счету, нельзя доверять модели с избыточными переменными.
Как узнать, являются ли две или более переменных избыточными? К счастью, если у вас больше двух независимых переменных, инструмент OLS вычисляет Фактор увеличения дисперсии (VIF) для каждой из них. Значение ФУД (VIF) — это измерение избыточности переменной, которое помогает решить, какие переменные можно удалить из модели без ухудшения силы модели. Как правило, значение ФУД (VIF) выше 7,5 является проблематичным. Если у вас есть две или более переменных со значением ФУД (VIF) больше 7,5, удалите их по одной и запустите OLS повторно до устранения избыточности. Помните, что не следует удалять все переменные с высоким значением ФУД (VIF). В примере моделирования характеристик домов, у площади дома и числа спален будут высокие значения ФУД (VIF). После удаления одной из этих переменных избыточность будет устранена. Важно включить в анализ переменную, отражающую размер дома. Но не следует моделировать этот аспект избыточными переменными.
Проверка 4. Является ли моя модель смещенной?
Это может казаться сложным вопросом, но ответ довольно прост. В правильно настроенной модели OLS невязки модели (переоценки и недооценки) распределены нормально со средним числом, равным нулю (график в виде колокола). Если модель смещена, распределение невязок несбалансированно, как показано ниже. Вы не можете полностью доверять прогнозируемым результатам, если модель смещена. К счастью, существует несколько способов устранения этой проблемы.
Статистически значимая диагностика Жака-Бера (ищите звездочку), указывает на то, что модель смещена. Иногда модель хорошо работает с малыми значениями и плохо с большими (или наоборот). В примере с ожирением среди детей это означает, что в местах с малой степенью ожирения модель работает хорошо, а в областях с высокой степенью ожирения, прогнозируемые результаты неточны. Смещение модели может возникать из-за выбросов данных, влияющих на оценку модели.
Чтобы устранить смещение модели, создайте матрицу рассеяния для всех переменных модели. Нелинейные отношения между зависимой переменной и одной из независимых переменных часто приводят к смещению модели. В матрице рассеяния это может выглядеть как кривая линия. Линейные отношения выглядят как прямые диагональные линии.
Если между зависимой переменной и одной из независимых переменных существуют нелинейные отношения, вам нужно проделать определенную работу. OLS — это метод линейной регрессии, предполагающий, что вы моделируете линейные отношения. Если отношения нелинейные, вы можете попробовать преобразовать переменные, чтобы создать более линейные отношения. К распространенным преобразованиям относятся логарифмическое и экспоненциальное. Установите флажок Показать гистограммы (Show Histograms) (для включения) в мастере Создать матрицу рассеяния (Create Scatterplot Matrix), чтобы включить гистограмму для каждой переменной в матрицу рассеяния. Если некоторые независимые переменные сильно искажены, можно попробовать устранить смещение модели, выполнив и их преобразование.
Матрица рассеивания также показывает выбросы данных. Чтобы увидеть, влияет ли выброс на модель, попробуйте запустить инструмент OLS с выбросом и без него, чтобы увидеть, насколько меняется производительность модели и устраняется ли ее смещение. В некоторых случаях (особенно когда вы думаете, что выбросы представляют некорректные данные) вы сможете удалить выбросы из анализа.
Проверка 5. Найдены ли все ключевые независимые переменные?
Зачастую вы приступаете к анализу с гипотезами о том, какие переменные будут важными предикторами. Возможно, вы считаете, что 5 определенных переменных позволят получить хорошую модель, или у вас есть список из 10 переменных, которые могут быть связаны. Важно использовать гипотезы при анализе, но также важно и позволить вашей интуиции выходить за рамки гипотез. Не пытайтесь ограничиться исходным списком переменных и попробуйте учесть все возможные переменные, которые могут повлиять на моделируемое явление. Создайте тематические карты каждой из потенциальных независимых переменных и сравните их с картой зависимых переменных. Еще раз изучите литературу и связанные исследования. Позвольте вашей интуиции найти взаимосвязи в отображенных данных. Обязательно попробуйте сформировать наибольшее число потенциальных пространственных переменных, таких как расстояние от центра города, близость к основным магистралям или доступ к крупным водоемам. Такие типы переменных будут особенно важны для анализа, если вы считаете, что географические процессы влияют на отношения в ваших данных. Если вы не найдете полный набор независимых переменных, которые эффективно опишут структуру ваших данных в зависимой переменной, в вашей модели не будет важных независимых переменных и вы не сможете пройти все описанные в этой статье проверки.
Свидетельством того, что одна или несколько независимых переменных отсутствуют в модели, служит статистически значимая пространственная автокорреляция невязок вашей модели. В регрессионном анализа проблемы с пространственно автокоррелированными невязками обычно принимают форму кластеризации: переоценки объединяются друг с другом, а недооценки — друг с другом. Как узнать, имеется ли статически значимая пространственная автокорреляция среди невязок модели? Запустите инструмент Пространственная автокорреляция (Spatial Autocorrelation) для невязок регрессии, чтобы узнать о наличии проблем с пространственной автокорреляцией. Статистически значимое z-значение указывает на то, что в модели отсутствуют важные независимые переменные.
Поиск этих независимых переменных — это одновременно и искусство, и наука. Попробуйте использовать следующие стратегии:
Изучение карты невязок OLS
Стандартным результатом работы инструмента OLS является карта невязок модели. Красные области – местоположения, где реальные значения (зависимые переменные) больше оцененных в модели. Синие области – местоположения, где реальные значения меньше оцененных в модели. Иногда просто посмотрев на карту невязок, можно понять, какой переменной недостает. Если вы заметили, что в городских областях оценки постоянно завышаются, вы можете добавить переменную, отражающую расстояние от городских центров. Если переоценки связаны с горными вершинами или низинами, возможно, нужно добавить переменную высоты. Видите ли вы региональные кластеры или можете ли выявить тенденции в данных? Если это так, создайте бинарную переменную, чтобы ухватить эти региональные различия. Классическим примером бинарной переменной является переменная, отличающая городские и сельские объекты. Назначив всем сельским объектам значение 1, а другим объектам — значение 0, вы сможете сформулировать пространственные отношения, которые могут быть важны для модели. Иногда создание карты горячих невязок модели помогает отобразить общие региональные закономерности.
Поиск недостающих пространственных переменных не только потенциально улучшает вашу модель, но также помогает взглянуть на моделируемое явление с новых точек зрения.
Хотя и рекомендуется включать бинарные переменные в модель OLS, их лучше удалить при запуске инструмента Географически взвешенная регрессия (Geographically Weighted Regression) (GWR), чтобы избежать проблем с локальной мультиколлинеарностью.
Изучение нестационарности
Можно также попробовать запустить инструмент Географически взвешенная регрессия(Geographically Weighted Regression) и создать поверхности коэффициентов для каждой из независимых переменных и/или карт локальных значений R2. Выберите хорошо работающую модель OLS (с большим значением R2, которое позволяет пройти все или почти все другие диагностические проверки). Так как инструмент GWR создает уравнение регрессии для каждого объекта в области изучения, поверхности коэффициентов показывают, как отношения между зависимыми и независимыми переменными изменяются географически. Карта локальных значений R2 отображает вариации в зависимостях модели. Иногда просмотр этих географических вариаций позволяет сформулировать идеи о недостающих переменных: плохая работоспособность модели рядом с основными магистралями, спад на большом расстоянии от побережья, изменение знака коэффициентов рядом с промышленным районом или сильная тенденция с востока на запад — все это подсказки о пространственных переменных, которые могут улучшить модель.
При изучении поверхностей коэффициентов будьте внимательные с независимыми переменными с коэффициентами, которые меняют знак с плюса на минус. Это важно, так как инструмент OLS скорее всего не будет учитывать потенциал этих нестационарных переменных. Рассмотрим, например, взаимосвязь между ожирением среди детей и доступом к здоровой пище. В областях с низким доходом и плохим доступом к автомобилям, большое расстояние до супермаркета является настоящим препятствием для выбора здорового питания. В областях с высоким доходом с лучшим доступом к автомобилям, наличие супермаркета на небольшом расстоянии может быть нежелательным. Расстояние до супермаркета может совсем не мешать покупке здоровой еды. Хотя инструмент GWR может смоделировать такие типы сложных отношений, OLS этого не умеет. OLS — это глобальная модель, которая ожидает, что отношения переменных будут непротиворечивыми (стационарными) в пределах области изучения. Когда коэффициенты меняют знак, они отменяют друг друга. Представьте это как (+1) + (-1) = 0. Если вы нашли переменные с коэффициентами, которые радикально меняются, особенно если меняются знаки, следует сохранить их в модели, даже если они статистически незначимы. Такие типы переменных будут эффективны после перехода на GWR.
Использование инструмента OLS с меньшими областями изучения
GWR — это невероятно полезный инструмент при работе с нестационарными данными, поэтому может возникнуть искушение сразу перейти к GWR без поиска правильной модели OLS. К сожалению, GWR не предоставляет такие функции диагностики для определения того, являются ли независимые переменные статистически значимы, имеют ли невязки нормальное распределение или является ли ваша модель работоспособной. GWR не исправит неправильно заданную модель, если вы не будете уверены в том, что единственной причиной того, что модель OLS не проходит шесть проверок, является нестационарность данных. Свидетельством нестационарности будут независимые переменные со строгими положительными отношениями в некоторых частях изучаемой области и строгими отрицательными отношениями в других частях. Иногда проблема заключается не в отдельных независимых переменных, а связана с набором независимых переменных, используемых в модели. Может быть так, что один набор переменных формирует лучшую модель для одной части области изучения, а другой набор переменных работает для других частей. Для проверки можно выбрать несколько меньших областей изучения и попробовать использовать модели OLS для каждой из них. Выбирайте подобласти в зависимости от процессов, которые, по вашему мнению, могут быть связаны с моделью (области с высоким и низким доходом, старые дома и новые дома). Или же можно выбрать области на основе карты GWR локальных значений R2. Местоположения с плохими показателями модели лучше смоделировать с другим набором независимых переменных.
Инструмент Анализ группирования (Grouping Analysis) может быть очень полезным для выделения подобластей в широкой области изучения.
Если вам удалось найти правильные модели OLS в нескольких небольших областях изучения, можно сделать вывод, что дело в нестационарности, и перейти к GWR с использованием полного набора независимых переменных из всех моделей. Если вам не удалось получить правильные модели в мелких областях, это может быть связано с тем, что вы пытаетесь смоделировать слишком сложное явление, которое нельзя свести к последовательности числовых измерений и линейных отношений. В этом случае необходимо изучить альтернативные методы анализа.
Для всего этого могут потребоваться определенные усилия, но это прекрасный опыт исследовательского анализа данных, который поможет вам лучше понять имеющиеся данные, найти новые переменные и получить улучшенную модель.
Проверка 6. Как хорошо я описываю зависимую переменную?
Теперь пришло время для оценки производительности модели. Скорректированное значение R2 — это важное измерение того, как хорошо независимые переменные моделируют вашу зависимую переменную. О значении R2 говорят одним из первых при рассказе о регрессионном анализе. Так почему мы оставили эту важную проверку на финал? Вам не говорят о том, что вы не можете доверять значению R2, если вы не прошли все другие проверки, описанные выше. Если модель смещена, она может хорошо работать в некоторых областях или определенном диапазоне значений зависимой переменной, но в других ситуациях она дает неточные показатели. Значение R2 этого не отражает. Аналогично, если имеется пространственная автокорреляция невязок, вы не можете доверять отношениям коэффициентов вашей модели. При наличии избыточных независимых переменных можно получить очень большие значения R2, но модель будет нестабильной. Она не будет отражать истинные отношения, которые вы хотите смоделировать, и может дать совсем другие результаты при добавлении даже небольшой порции новых данных.
После прохождения всех других проверок и выполнения всех необходимых критериев необходимо понять, как модель объясняет значения зависимой переменной за счет оценки скорректированного значения R2. Значения R2 лежат в диапазоне от 0 до 1 и представляют процентное отношение. Предположим, что вы моделируете частоту преступлений и получаете модель, которая прошла все пять предыдущих проверок со скорректированным значением R2, равным 0,65. Так вы будете знать, что независимые переменные в модели дают 65% данных о частоте преступлений (технически говоря, модель объясняет 65 процентов случаев поведения зависимой переменной частоты преступлений). К скорректированным значениям R2 следует подходить очень субъективно. В некоторых областях науки объяснение 23 процентов сложного явления будет большим достижением. В других сферах значение R2 должно быть равно 80 или 90 процентам, чтобы привлечь чье-то внимание. В любом случае, скорректированное значение R2 позволяет понять, как хорошо работает ваша модель.
Другой важный метод диагностики, позволяющий оценить производительность модели — это скорректированный информационный критерий Акаике (Corrected Akaike Information Criterion (AICc). Значение AICc полезно при сравнении нескольких моделей. Например, требуется смоделировать оценки учеников с помощью различных наборов независимых переменных. В одной модели вы можете использовать только демографические переменные, а в другой — переменные, связанные со школой и классом, например затраты на каждого ученика и отношения числа учителей к числу учеников. Если зависимая переменная для всех сравниваемых моделей одна и та же (в этом случае это оценки учеников), вы можете использовать значения AICc из каждой модели для определения лучшей из них. Модель с меньшим значением AICc лучше соответствует реальным данным.
И не забывайте... . .
Проходя все эти этапы создания правильной регрессионной модели, помните, что цель вашего анализа — понять ваши данные и использовать эти знания для решения задач и получения ответов на вопросы. Правда в том, что вы можете попробовать несколько моделей (с преобразованными переменными и без них), изучить несколько мелких областей, проанализировать поверхности коэффициентов и все равно не найти правильную модель OLS. Но, и это важно, вы все равно будете наращивать объем знаний о моделируемом явлении. Если созданная модель, которая, как вы думали, будет прекрасным предиктором, оказалась совсем неточной, это очень полезная информация. Если одна из переменных, о которой вы беспокоитесь, будет иметь строгие положительные отношения в одних областях и отрицательные отношения в других областях, то уже и это знание значительно улучшит ваше понимание проблемы. Выполняемая вами работа, попытка найти хорошую модель с помощью OLS и затем применение GWR для изучения региональных вариаций переменных в модели, всегда будет очень ценной.
Дополнительные сведения о регрессионном анализе см. на странице Ресурсы пространственной статистики.