Метод наименьших квадратов (МНК) (Пространственная статистика)
Резюме
Выполняет глобальный Метод наименьших квадратов (МНК) для линейной регрессии, чтобы создать прогнозы или смоделировать зависимую переменную в терминах её взаимосвязей с описанными переменными.
Доступ к результатам этого инструмента (в том числе дополнительному PDF-файлу отчета) можно получить в окне Результаты (Results). Если отключить фоновую обработку, результаты также будут показаны в диалоговом окне Ход процесса (Progress).
Подробнее о том, как работает Метод наименьших квадратов (МНК)
Рисунок
Использование
-
Результаты регрессии МНК являются заслуживающими доверия только в том случае, если ваши данные и регрессионная модель удовлетворяет всем допущениям, неотъемлемо требуемым этим методом. Проанализируйте таблицу Распространенные проблемы, последствия и решения регрессии в Основах анализа регрессии, чтобы гарантировать, что ваша модель должным образом определена.
-
Зависимые и независимые переменные должны храниться в числовых полях, содержащих разнообразие значений. МНК не может работать, когда все переменные имеют одинаковые значения (например, все значения для поля равны 9.0). Линейные методы регрессии, такие, как МНК, не являются подходящими для предсказания бинарных результатов (например, все значения для зависимой переменной равны или 1 или 0).
-
Поле Уникальный ID связывает интерполяции модели с каждым объектом. Следовательно, значения поля Уникальный ID должны быть уникальными для каждого объекта и, как правило, это поле должно быть постоянным полем, принадлежащим классу объектов. Если у вас нет поля Уникальный ID, вы можете легко создать его путем добавления нового целого поля в вашу таблицу класса объектов и введения значений поля, аналогичных полю FID/OID. Вы не можете непосредственно использовать поле FID/OID для параметра Уникальный ID (Unique ID).
-
Всякий раз, когда есть статистически значимая пространственная автокорреляция остатков регрессии, модель МНК будут считаться неопределенной и, следовательно, результаты регрессии по МНК будут ненадежными. Примените инструмент Пространственная автокорреляция к невязкам вашей регрессии, чтобы оценить потенциальные проблемы. Статистически значимая пространственная автокорреляция невязок регрессии почти всегда указывает на отсутствие в модели одной или нескольких ключевых независимых переменных.
-
Вы должны визуально оценить все очевидные отклонения прогнозов в большую и меньшую сторону в невязках вашей регрессии, чтобы увидеть, дают ли они представления о потенциальных недостающих переменных в вашей регрессионной модели. Иногда проведение Анализа горячих точек по невязкам помогает визуализировать пространственную кластеризацию отклонений прогнозов в большую и меньшую сторону.
-
Если неопределенность является результатом попытки моделировать нестационарные переменные, используя глобальную модель (МНК – это глобальная модель), то для улучшения прогнозов и лучшего понимания нестационарности (региональных вариаций) в ваших независимых переменных может быть использована Географически взвешенная регрессия.
-
Если результатом вычисления является бесконечность или неопределенность, результат для файлов, которые не являются шейп-файлами, будет Null; для шейп-файлов результат будет – DBL_MAX (например, -1.7976931348623158e+308).
Итоговые результаты диагностики модели записываются в итоговый отчет по МНК и в дополнительную выходную таблицу результатов диагностики. Обе записи включают результаты диагностики исправленного Информационного критерия Akaike (AICc), коэффициент определения, соединенную F-статистику, статистику Вальда, стьюдентизированную Кенкером статистику Бреуша-Пагана и статистику Жарке-Бера. Диагностическая таблица также включает неисправленные значения AIC и квадратов Sigma.
-
Дополнительный коэффициент и/или диагностические выходные таблицы, если они уже существуют, будут переписаны, если включена опция перезаписи результатов операций геообработки.
Этот инструмент при необходимости создает PDF-файл отчета со сводным представлением результатов. PDF-файл не отображается автоматически в окне каталога. Если требуется показать PDF-файлы в окне каталога, откройте приложение ArcCatalog, выберите опцию меню Настройка (Customize), щелкните Опции ArcCatalog (ArcCatalog Options) и выберите вкладку Типы файлов (File Types). Нажмите кнопку Новый тип (New Type) и укажите PDF, как показано ниже, для параметра Расширение файла (File Extension).
На компьютерах с языковыми пакетами ArcGIS для китайского или японского языков, в PDF-файле выходного отчета может отсутствовать текст или элементы форматирования. Эти проблемы можно исправить, изменив настройки шрифта.
-
Слои карты можно использовать для определения Входного класса объектов (Input Feature Class). Если в слое есть выборка, только выбранные объекты будут включены в анализ.
Главным результатом применения данного инструмента является итоговый отчет по МНК, который записывается в Окно результатов или, по выбору, записывается вместе с дополнительными графическими данными в выходной файл отчета. Двойной щелчок по PDF-файлу отчета в окне Результаты приведет к открытию файла. Если щелкнуть правой кнопкой мыши пункт Сообщения (Messages) в окне Результаты (Results) и выбрать Вид (View), итоговый отчет по МНК можно будет просмотреть в диалоговом окне Сообщение (Message).
Инструмент МНК также создает выходной класс объектов и дополнительные таблицы с информацией о коэффициентах и диагностике. Все это доступно в окне Результаты. Выходной класс объектов автоматически добавляется в таблицу содержания со схемой отображения горячих/холодных точек, применяемой к невязкам моделей. Полное пояснение по каждому результату см. в Интерпретация результатов по МНК.
Если данный инструмент является частью пользовательского инструмента моделирования, дополнительные таблицы будут отображаться в окне Результаты только в том случае, если перед запуском инструмента они были заданы в качестве параметров модели.
При использовании шейп-файлов, помните, что в них нельзя хранить нулевые (null) значения. Инструменты или другие процедуры, создающие шейп-файлы из прочих входных данных, могут хранить значения NULL в виде 0 или оперировать ими как нулем. В некоторых случаях нули в шейп-файлах хранятся как очень маленькие отрицательные числа. Это может привести к неожиданным результатам. Дополнительные сведения см. в разделе Рекомендации по геообработке выходных данных шейп-файла.
Синтаксис
Параметр | Объяснение | Тип данных |
Input_Feature_Class |
Класс пространственных объектов, содержащий зависимые и независимые переменные для анализа. | Feature Layer |
Unique_ID_Field |
Целое поле, содержащее разное значение для каждого объекта в Входном классе объектов. | Field |
Output_Feature_Class |
Выходной класс объектов с оценками зависимых переменных и невязками. | Feature Class |
Dependent_Variable |
Числовое поле, содержащее значения, для которых вы пытаетесь моделировать. | Field |
Explanatory_Variables [Explanatory_Variables,...] |
Перечень полей, представляющих независимые переменные в вашей регрессионной модели. | Field |
Coefficient_Output_Table (дополнительно) |
Полный путь к дополнительной таблице, в которую будут записаны коэффициенты модели, стандартизированные коэффициенты, стандартные ошибки и вероятности для каждой независимой переменной. | Table |
Diagnostic_Output_Table (дополнительно) |
Полный путь к дополнительной таблице, в которую будут записаны суммарные диагностические параметры модели. | Table |
Output_Report_File (дополнительно) |
Полный путь к дополнительному PDF-файлу, создаваемому инструментом по вашему требованию. Этот файл отчета включает данные диагностики модели, графические данные и примечания, которые помогают интерпретировать результаты регрессии по МНК. | File |
Пример кода
Следующий скрипт в окне Python демонстрирует, как использовать инструмент OrdinaryLeastSquares.
import arcpy
arcpy.env.workspace = r"c:\data"
arcpy.OrdinaryLeastSquares_stats("USCounties.shp", "MYID","olsResults.shp", "GROWTH","LOGPCR69;SOUTH;LPCR_SOUTH;PopDen69","olsCoefTab.dbf","olsDiagTab.dbf")
Следующий автономный скрипт Python демонстрирует, как использовать инструмент OrdinaryLeastSquares.
# Analyze the growth of regional per capita incomes in US
# Counties from 1969 -- 2002 using Ordinary Least Squares Regression
# Import system modules
import arcpy
# Set the geoprocessor object property to overwrite existing outputs
arcpy.gp.overwriteOutput = True
# Local variables...
workspace = r"C:\Data"
try:
# Set the current workspace (to avoid having to specify the full path to the feature classes each time)
arcpy.workspace = workspace
# Growth as a function of {log of starting income, dummy for South
# counties, interaction term for South counties, population density}
# Process: Ordinary Least Squares...
ols = arcpy.OrdinaryLeastSquares_stats("USCounties.shp", "MYID",
"olsResults.shp", "GROWTH",
"LOGPCR69;SOUTH;LPCR_SOUTH;PopDen69",
"olsCoefTab.dbf",
"olsDiagTab.dbf")
# Create Spatial Weights Matrix (Can be based off input or output FC)
# Process: Generate Spatial Weights Matrix...
swm = arcpy.GenerateSpatialWeightsMatrix_stats("USCounties.shp", "MYID",
"euclidean6Neighs.swm",
"K_NEAREST_NEIGHBORS",
"#", "#", "#", 6)
# Calculate Moran's Index of Spatial Autocorrelation for
# OLS Residuals using a SWM File.
# Process: Spatial Autocorrelation (Morans I)...
moransI = arcpy.SpatialAutocorrelation_stats("olsResults.shp", "Residual",
"NO_REPORT", "GET_SPATIAL_WEIGHTS_FROM_FILE",
"EUCLIDEAN_DISTANCE", "NONE", "#",
"euclidean6Neighs.swm")
except:
# If an error occurred when running the tool, print out the error message.
print arcpy.GetMessages()