Régression exploratoire (Statistiques spatiales)

Niveau de licence :BasicStandardAdvanced

Récapitulatif

L'outil Régression exploratoire analyse toutes les combinaisons possibles des variables explicatives candidates en entrée pour trouver les modèles des moindres carrés ordinaires qui décrivent le mieux la variable dépendante, selon les critères définis par l'utilisateur.

Vous pouvez accéder aux résultats de cet outil (fichier facultatif du rapport compris) par l'intermédiaire de la fenêtre Résultats. Si vous désactivez le traitement en arrière-plan, les résultats apparaissent également dans la boîte de dialogue Progression.

En savoir plus sur la régression exploratoire

Illustration

Graphique d'une régression exploratoire
Recherche de modèles des moindres carrés ordinaires correctement spécifiés à partir d'un ensemble de variables explicatives candidates

Utilisation

Syntaxe

ExploratoryRegression_stats (Input_Features, Dependent_Variable, Candidate_Explanatory_Variables, {Weights_Matrix_File}, {Output_Report_File}, {Output_Results_Table}, {Maximum_Number_of_Explanatory_Variables}, {Minimum_Number_of_Explanatory_Variables}, {Minimum_Acceptable_Adj_R_Squared}, {Maximum_Coefficient_p_value_Cutoff}, {Maximum_VIF_Value_Cutoff}, {Minimum_Acceptable_Jarque_Bera_p_value}, {Minimum_Acceptable_Spatial_Autocorrelation_p_value})
ParamètreExplicationType de données
Input_Features

Classe ou couche d'entités contenant les variables dépendantes et explicatives candidates à analyser.

Feature Layer
Dependent_Variable

Champ numérique contenant les valeurs observées que vous souhaitez modéliser à l'aide de la méthode des moindres carrés ordinaires (OLS).

Field
Candidate_Explanatory_Variables
[Candidate_Explanatory_Variables,...]

Liste des champs à tester comme variables explicatives du modèle OLS.

Field
Weights_Matrix_File
(Facultatif)

Fichier contenant les pondérations spatiales qui définissent les relations spatiales entre les entités en entrée. Ce fichier permet d'évaluer l'autocorrélation spatiale des valeurs résiduelles de régression. Vous pouvez faire appel à l'outil Générer un fichier de matrice de pondérations spatiales pour le créer. Si vous ne spécifiez aucun fichier de matrice de pondérations spatiales, l'autocorrélation spatiale des valeurs résiduelles est évaluée en fonction des 8 plus proches voisins de chaque entité.

Remarque : le fichier de matrice de pondérations spatiales permet uniquement d'analyser la structure spatiale des valeurs résiduelles du modèle ; il ne sert pas à créer ni à calibrer les modèles OLS.

File
Output_Report_File
(Facultatif)

Le fichier de rapport contient les résultats de l'outil, y compris des informations détaillées sur les modèles répondant à tous les critères de recherche spécifiés. Ce fichier en sortie inclut également des diagnostics utiles pour résoudre les problèmes de régression courants si aucun modèle concluant n'est trouvé.

File
Output_Results_Table
(Facultatif)

Table en sortie facultative créée qui contient les variables explicatives et les diagnostics pour tous les modèles répondant aux critères de limite des valeurs VIF et des valeurs p des coefficients.

Table
Maximum_Number_of_Explanatory_Variables
(Facultatif)

Tous les modèles dont le nombre de variables explicatives ne dépasse pas la valeur spécifiée ici sont évalués. Si, par exemple, Minimum_Number_of_Explanatory_Variables est 2 et Maximum_Number_of Explanatory_Variables est 3, l'outil Régression exploratoire teste tous les modèles avec une combinaison de deux variables explicatives, puis tous les modèles avec une combinaison de trois variables explicatives.

Long
Minimum_Number_of_Explanatory_Variables
(Facultatif)

Cette valeur représente le nombre minimal de variables explicatives pour les modèles évalués. Si, par exemple, Minimum_Number_of_Explanatory_Variables est 2 et Maximum_Number_of_Explanatory_Variables est 3, l'outil Régression exploratoire teste tous les modèles avec une combinaison de deux variables explicatives, puis tous les modèles avec une combinaison de trois variables explicatives.

Long
Minimum_Acceptable_Adj_R_Squared
(Facultatif)

Il s'agit de la plus petite valeur R carrée ajustée acceptable (modèle concluant). Si un modèle répond à tous les autres critères de recherche, mais que la valeur R carrée ajustée est inférieure à la valeur spécifiée ici, il ne sera pas considéré comme un modèle concluant dans le fichier de rapport en sortie. Les valeurs valides de ce paramètre sont comprises entre 0,0 et 1,0. La valeur 0,5 par défaut indique que les modèles concluants représentent au moins 50 % de la variation dans la variable dépendante.

Double
Maximum_Coefficient_p_value_Cutoff
(Facultatif)

Pour chaque modèle évalué, la méthode des moindres carrés ordinaires calcule les valeurs p de coefficient des variables explicatives. La limite de valeur p que vous entrez ici représente le niveau de confiance requis pour tous les coefficients du modèle pour qu'il soit considéré comme concluant. Les petites valeurs p reflètent un niveau de confiance plus élevé. Les valeurs valides de ce paramètre sont comprises entre 1,0 et 0,0, mais elles seront plus vraisemblablement égales à 0,1, 0,05, 0,01, 0,001, etc. La valeur 0,05 par défaut indique que les modèles concluants contiennent uniquement des variables explicatives dont les coefficients ont un niveau de confiance de 95 pour cent, statistiquement (valeurs p inférieures à 0,05). Pour assouplir ce paramètre par défaut, vous pouvez entrer une limite de valeur p plus élevée, telle que 0,1. Si vous obtenez un nombre élevé de modèles concluants, vous pouvez durcir ce critère de recherche en diminuant la limite de valeur p par défaut (de 0,05 à 0,01 ou moins).

Double
Maximum_VIF_Value_Cutoff
(Facultatif)

Cette valeur reflète la redondance (multicolinéarité) tolérée dans les variables explicatives du modèle. Lorsque la valeur VIF (Variance Inflation Factor ou Facteur d'inflation de la variance) est supérieure à 7,5 environ, la multicolinéarité risque de rendre le modèle instable ; 7,5 est donc choisi ici comme valeur par défaut. Si vous souhaitez que la redondance des modèles concluants soit moins importante, entrez une valeur plus petite pour ce paramètre (5,0 par exemple).

Double
Minimum_Acceptable_Jarque_Bera_p_value
(Facultatif)

La valeur p renvoyée par le test de diagnostic Jarque-Bera indique si les valeurs résiduelles du modèle sont distribuées normalement. Si la valeur p est statistiquement significative (faible), les valeurs résiduelles du modèle ne sont pas normales et le modèle est biaisé. Pour être concluants, les modèles doivent avoir des valeurs p Jarque-Bera élevées. Par défaut, la valeur p minimale acceptable est 0,1. Seuls les modèles renvoyant des valeurs p supérieures à cette valeur minimale sont considérés comme concluants. S'il s'avère difficile de trouver des modèles concluants non biaisés, vous pouvez assouplir ce critère. Dans ce cas, entrez une valeur p minimale inférieure, comme 0,05.

Double
Minimum_Acceptable_Spatial_Autocorrelation_p_value
(Facultatif)

Pour les modèles qui répondent à tous les autres critères de recherche, l'outil Régression exploratoire recherchera une agrégation spatiale dans les valeurs résiduelles du modèle à l'aide de l'indice de Moran global. Lorsque la valeur p de ce test de diagnostic est statistiquement significative (faible), il manque très probablement des variables explicatives clés dans le modèle (celui-ci ne donne pas toutes les informations nécessaires). Malheureusement, si vous observez une autocorrélation spatiale dans vos valeurs résiduelles, la spécification de votre modèle est erronée. Vous ne pouvez donc pas vous fier aux résultats obtenus. Pour être concluants, les modèles doivent avoir des valeurs p élevées suite à ce test de diagnostic. Par défaut, la valeur p minimale est 0,1. Seuls les modèles renvoyant des valeurs p supérieures à cette valeur minimale sont considérés comme concluants. Si ce test de diagnostic vous empêche de trouver des modèles correctement spécifiés, vous pouvez assouplir ce critère de recherche en entrant, par exemple, une valeur minimale inférieure, comme 0,05.

Double

Exemple de code

Exemple 1 d'utilisation de l'outil ExploratoryRegression (fenêtre Python)

Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil ExploratoryRegression.

import arcpy, os
arcpy.env.workspace = r"C:\ER"
arcpy.ExploratoryRegression_stats("911CallsER.shp", 
                                "Calls", 
                                "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \
                                ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \
                                PopFY;JobsFY;LowEducFY",
                                "BG_911Calls.swm", "BG_911Calls.txt", "",
                                "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")
Exemple 2 d'utilisation de l'outil ExploratoryRegression (script Python autonome)

Le script Python autonome ci-dessous illustre l'utilisation de l'outil ExploratoryRegression.

# Exploratory Regression of 911 calls in a metropolitan area
# using the Exploratory Regression Tool

# Import system modules
import arcpy, os

# Set geoprocessor object property to overwrite existing output, by default
arcpy.gp.overwriteOutput = True

try:
    # Set the current workspace (to avoid having to specify the full path to
    # the feature classes each time)
    arcpy.env.workspace = r"C:\ER"

    # Join the 911 Call Point feature class to the Block Group Polygon feature class
    # Process: Spatial Join
    fieldMappings = arcpy.FieldMappings()
    fieldMappings.addTable("BlockGroups.shp")
    fieldMappings.addTable("911Calls.shp")

    sj = arcpy.SpatialJoin_analysis("BlockGroups.shp", "911Calls.shp", "BG_911Calls.shp",
                               "JOIN_ONE_TO_ONE",
                               "KEEP_ALL",
                               fieldMappings,
                               "COMPLETELY_CONTAINS", "", "")

    # Delete extra fieldsto clean up the data
    # Process: Delete Field 
    arcpy.DeleteField_management("BG_911Calls.shp", "OBJECTID;INC_NO;DATE_;MONTH_;STIME; \
                                 SD_T;DISP_REC;NFPA_TYP;CALL_TYPE;RESP_COD;NFPA_SF; \
                                 SIT_FND;FMZ_Q;FMZ;RD;JURIS;COMPANY;COMP_COD;RESP_YN; \
                                 DISP_DT;DAY_;D1_N2;RESP_DT;ARR_DT;TURNOUT;TRAVEL; \
                                 RESP_INT;ADDRESS_ID;CITY;CO;AV_STATUS;AV_SCORE; \
                                 AV_SIDE;Season;DayNight")

    # Create Spatial Weights Matrix for Calculations
    # Process: Generate Spatial Weights Matrix
    swm = arcpy.GenerateSpatialWeightsMatrix_stats("BG_911Calls.shp", "TARGET_FID", "BG_911Calls.swm",
                                             "CONTIGUITY_EDGES_CORNERS",
                                             "EUCLIDEAN", "1", "", "", "ROW_STANDARDIZATION", "", "", "", "")

    # Exploratory Regression Analysis for 911 Calls
    # Process: Exploratory Regression
    er = arcpy.ExploratoryRegression_stats("BG_911Calls.shp",
                                      "Calls",
                                      "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \
                                ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \
                                PopFY;JobsFY;LowEducFY",
                                      "BG_911Calls.swm", "BG_911Calls.txt", "",
                                      "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")
 
except:
    # If an error occurred when running the tool, print out the error message.
    print arcpy.GetMessages()

Environnements

Thèmes connexes

Informations de licence

ArcGIS for Desktop Basic: Oui
ArcGIS for Desktop Standard: Oui
ArcGIS for Desktop Advanced: Oui
5/10/2014