Исследовательская регрессия (Exploratory Regression) (Пространственная статистика)

Уровень лицензии:BasicStandardAdvanced

Резюме

Инструмент Исследовательская регрессия (Exploratory Regression) оценивает все возможные комбинации входных потенциальных независимых переменных, выполняя поиск моделей OLS, которые наилучшим образом описывают зависимую переменную в контексте критериев, заданных пользователем.

Доступ к результатам этого инструмента (в том числе дополнительному PDF-файлу отчета) можно получить в окне Результаты (Results). Если отключить фоновую обработку, результаты также будут показаны в диалоговом окне Ход процесса (Progress).

Более подробно о работе инструмента Исследовательская регрессия (Exploratory Regression)

Рисунок

График Исследовательская регрессия (Exploratory Regression)
С использованием набора потенциальных независимых переменных находит правильные модели регрессии OLS.

Использование

Синтаксис

ExploratoryRegression_stats (Input_Features, Dependent_Variable, Candidate_Explanatory_Variables, {Weights_Matrix_File}, {Output_Report_File}, {Output_Results_Table}, {Maximum_Number_of_Explanatory_Variables}, {Minimum_Number_of_Explanatory_Variables}, {Minimum_Acceptable_Adj_R_Squared}, {Maximum_Coefficient_p_value_Cutoff}, {Maximum_VIF_Value_Cutoff}, {Minimum_Acceptable_Jarque_Bera_p_value}, {Minimum_Acceptable_Spatial_Autocorrelation_p_value})
ПараметрОбъяснениеТип данных
Input_Features

Класс или слой объектов, содержащий зависимую переменную и потенциальные независимые переменные для анализа.

Feature Layer
Dependent_Variable

Числовое поле, содержащее наблюдаемые значения, которые нужно смоделировать с помощью OLS.

Field
Candidate_Explanatory_Variables
[Candidate_Explanatory_Variables,...]

Перечень полей, используемых в качестве независимых переменных в модели OLS.

Field
Weights_Matrix_File
(дополнительно)

Файл, содержащий пространственные веса, которые определяют пространственные отношения между входными объектами. Этот файл используется для оценки пространственной автокорреляции среди невязок регрессии. Его можно создать с помощью инструмента Построить файл матрицы пространственных весов (Generate Spatial Weights Matrix File). Если файл матрицы пространственных весов не указан, пространственная автокорреляция невязок оцениваются на основании 8 ближайших соседей каждого объекта.

Примечание. Файл пространственной матрицы весов используется только для анализа пространственной структуры в невязках модели. Он не применяется для построения или калибровки моделей OLS.

File
Output_Report_File
(дополнительно)

Файл отчета содержит результаты, в том числе сведения о всех моделях, которые соответствуют введенным критериям. Этот выходной файл также содержит данные диагностики для исправления распространенных проблем регрессии, если вам не удастся найти подходящие модели.

File
Output_Results_Table
(дополнительно)

Дополнительная выходная таблица, содержит независимые переменные и данные диагностики для всех моделей с указанными p-значениями коэффициентов и значениями ФУД (VIF).

Table
Maximum_Number_of_Explanatory_Variables
(дополнительно)

Оцениваются все модели с независимыми переменными, не превышающими введенные здесь значения. Если, например, параметр Минимальное число независимых переменных (Minimum Number of Explanatory Variables) равен 2, а параметр Максимальное число независимых переменных (Maximum Number of Explanatory Variables) равен 3, инструмент Исследовательская регрессия (Exploratory Regression) будет использовать все модели с каждой комбинацией независимых переменных и все модели с каждой комбинацией трех независимых переменных.

Long
Minimum_Number_of_Explanatory_Variables
(дополнительно)

Это значение представляет минимальное число независимых переменных для оцениваемых моделей. Если, например, параметр Минимальное число независимых переменных (Minimum Number of Explanatory Variables) равен 2, а параметр Максимальное число независимых переменных (Maximum Number of Explanatory Variables) равен 3, инструмент Исследовательская регрессия (Exploratory Regression) будет использовать все модели с каждой комбинацией независимых переменных и все модели с каждой комбинацией трех независимых переменных.

Long
Minimum_Acceptable_Adj_R_Squared
(дополнительно)

Это наименьшее значение Выровненного R-квадрата (Adjusted R-Squared), с которым модель проходит проверку. Если модель соответствует всем другим критериям поиска, но значение Выровненного R-квадрата (Adjusted R-Squared) меньше введенного здесь значения, она не будет показана как проходящая модель в выходном файле отчета. Корректные значения параметров лежат в диапазоне от 0,0 до 1,0. Значение по умолчанию равно 0,5, что указывает на то, что проходящие модели будут объяснять минимум 50 процентов вариаций в зависимой переменной.

Double
Maximum_Coefficient_p_value_Cutoff
(дополнительно)

Для каждой оцениваемой модели OLS вычисляет p-значения коэффициентов независимой переменной. Пороговое p-значение, вводимое здесь, представляет уровень уверенности, необходимый для всех коэффициентов в модели, чтобы считать модель проходящей. Небольшие p-значения отражают высокий уровень уверенности. Корректные значения для этого параметра лежат в диапазоне от 1,0 до 0,0, но чаще всего это значения 0,1, 0,05, 0,01, 0,001 и т. д. Значение по умолчанию равно 0,05, что указывает на то, что проходящие модели будут содержать только независимые переменные, коэффициенты которых статистически значимы для 95 % (p-значения меньше 0,05). Чтобы ослабить это значение по умолчанию, введите большее пороговое p-значение, например 0,1. Если вы получаете множество проходящих значений, сделайте этот критерий поиска более строгим, уменьшив пороговое p-значение с 0,05 на 0,01 или меньшее значение.

Double
Maximum_VIF_Value_Cutoff
(дополнительно)

Это значение отражает допустимую избыточность (мультиколлинеарность) независимых переменных модели. Если значение VIF (фактор, увеличивающий дисперсию) больше 7,5, мультиколлинеарность может сделать модель нестабильной. Следовательно, 7,5 — это значение по умолчанию. Если проходящие модели должны быть менее избыточными, введите меньшее значение, например 5,0.

Double
Minimum_Acceptable_Jarque_Bera_p_value
(дополнительно)

p-значение, возвращаемое диагностическим тестом Жака-Бера определяет, имеют ли невязки модели нормальное распределение. Если p-значение статистически значимое (небольшое), невязки модели не являются нормальными, а модель смещена. У проходящих моделей должны быть большие p-значения Жака-Бера. Минимально допустимое p-значение равно 0,1. Только модели с p-значениями больше этого минимума считаются проходящими. Если у вас не получается найти несмещенные проходящие модели и вы решаете ослабить этот критерий, введите меньшее минимальное p-значение, такое как 0,05.

Double
Minimum_Acceptable_Spatial_Autocorrelation_p_value
(дополнительно)

Для моделей, которые соответствуют всем другим критериям, инструмент Исследовательская регрессия (Exploratory Regression) проверяет невязки модели на пространственную кластеризацию с помощью Глобального индекса Морана I. Если p-значение для этого диагностического теста статистически значимо (небольшое), в модели, скорее всего, недостаточно важных независимых переменных (она описывает не все явление). К сожалению, имеется пространственная автокорреляция невязок, модель задана неправильно и вы не можете доверять результатам. У проходящих моделей должны быть большие p-значения для этого теста. Минимальное p-значение по умолчанию равно 0,1. Только модели с p-значениями больше этого минимума считаются проходящими. Если у вас не получается найти правильные модели из-за этого теста и вы решаете ослабить этот критерий, введите меньшее минимальное p-значение, такое как 0,05.

Double

Пример кода

ExploratoryRegression. Пример 1 (окно Python)

Следующий скрипт в окне Python демонстрирует, как использовать инструмент ExploratoryRegression.

import arcpy, os
arcpy.env.workspace = r"C:\ER"
arcpy.ExploratoryRegression_stats("911CallsER.shp", 
                                "Calls", 
                                "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \
                                ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \
                                PopFY;JobsFY;LowEducFY",
                                "BG_911Calls.swm", "BG_911Calls.txt", "",
                                "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")
ExploratoryRegression. Пример 2 (автономный скрипт Python)

Следующий автономный скрипт Python демонстрирует, как использовать инструмент ExploratoryRegression.

# Exploratory Regression of 911 calls in a metropolitan area
# using the Exploratory Regression Tool

# Import system modules
import arcpy, os

# Set geoprocessor object property to overwrite existing output, by default
arcpy.gp.overwriteOutput = True

try:
    # Set the current workspace (to avoid having to specify the full path to
    # the feature classes each time)
    arcpy.env.workspace = r"C:\ER"

    # Join the 911 Call Point feature class to the Block Group Polygon feature class
    # Process: Spatial Join
    fieldMappings = arcpy.FieldMappings()
    fieldMappings.addTable("BlockGroups.shp")
    fieldMappings.addTable("911Calls.shp")

    sj = arcpy.SpatialJoin_analysis("BlockGroups.shp", "911Calls.shp", "BG_911Calls.shp",
                               "JOIN_ONE_TO_ONE",
                               "KEEP_ALL",
                               fieldMappings,
                               "COMPLETELY_CONTAINS", "", "")

    # Delete extra fieldsto clean up the data
    # Process: Delete Field 
    arcpy.DeleteField_management("BG_911Calls.shp", "OBJECTID;INC_NO;DATE_;MONTH_;STIME; \
                                 SD_T;DISP_REC;NFPA_TYP;CALL_TYPE;RESP_COD;NFPA_SF; \
                                 SIT_FND;FMZ_Q;FMZ;RD;JURIS;COMPANY;COMP_COD;RESP_YN; \
                                 DISP_DT;DAY_;D1_N2;RESP_DT;ARR_DT;TURNOUT;TRAVEL; \
                                 RESP_INT;ADDRESS_ID;CITY;CO;AV_STATUS;AV_SCORE; \
                                 AV_SIDE;Season;DayNight")

    # Create Spatial Weights Matrix for Calculations
    # Process: Generate Spatial Weights Matrix
    swm = arcpy.GenerateSpatialWeightsMatrix_stats("BG_911Calls.shp", "TARGET_FID", "BG_911Calls.swm",
                                             "CONTIGUITY_EDGES_CORNERS",
                                             "EUCLIDEAN", "1", "", "", "ROW_STANDARDIZATION", "", "", "", "")

    # Exploratory Regression Analysis for 911 Calls
    # Process: Exploratory Regression
    er = arcpy.ExploratoryRegression_stats("BG_911Calls.shp",
                                      "Calls",
                                      "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \
                                ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \
                                PopFY;JobsFY;LowEducFY",
                                      "BG_911Calls.swm", "BG_911Calls.txt", "",
                                      "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")
 
except:
    # If an error occurred when running the tool, print out the error message.
    print arcpy.GetMessages()

Параметры среды

Связанные темы

Информация о лицензировании

ArcGIS for Desktop Basic: Да
ArcGIS for Desktop Standard: Да
ArcGIS for Desktop Advanced: Да
9/11/2013