Interprétation des résultats de la méthode des moindres carrés ordinaires

Les sorties générées par l'outil Régression des moindres carrés ordinaires sont les suivantes :

Chacune de ces sorties est présentée et décrite ci-après sous la forme d'une série d'étapes pour l'exécution de la régression des moindres carrés ordinaires et l'interprétation des résultats des moindres carrés ordinaires.

(A) Pour exécuter l'outil Moindres carrés ordinaires, vous devez spécifier une Classe d'entités en entrée avec un Champ d'ID unique, la variable dépendante que vous souhaitez modéliser/expliquer/prévoir et une liste de Variables explicatives. Vous devez également indiquer un chemin pour la Classe d'entités en sortie et, en option, les chemins du Fichier de rapport en sortie, de la Table en sortie des coefficients et de la Table en sortie des diagnostics.

Outil Moindres carrés ordinaires
Boîte de dialogue de l'outil Moindres carrés ordinaires

Après l'exécution de l'outil Moindres carrés ordinaires, le premier document que vous vérifiez est le rapport récapitulatif des moindres carrés ordinaires, affiché dans la fenêtre Résultats. Cliquez avec le bouton droit sur l'entrée Messages dans la fenêtre Résultats et sélectionnez Afficher pour consulter le récapitulatif dans une boîte de dialogue de message. Si vous exécutez cet outil au premier plan, le rapport récapitulatif est également affiché dans la boîte de dialogue de progression.

(B) Examinez le rapport récapitulatif en suivant les instructions numérotées ci-dessous :

Rapport des moindres carrés ordinaires
Composants du rapport de statistiques des moindres carrés ordinaires

Dissection du rapport de statistiques

  1. Evaluer la performance du modèle. Les valeurs R-carré multiple et R-carré ajustée sont des mesures de la performance du modèle. Les valeurs possibles s'échelonnent de 0,0 à 1,0. La valeur R-carré ajustée est toujours légèrement inférieure à la valeur R-carré multiple, car elle reflète la complexité du modèle (le nombre de variables) dans sa relation aux données et elle constitue par conséquent une mesure plus précise de la performance du modèle. L'ajout au modèle d'une variable explicative supplémentaire augmentera probablement la valeur R-carré multiple, mais risque de réduire la valeur R-carré ajustée. Supposons que vous créiez un modèle de régression des cambriolages de résidences (le nombre de cambriolage associé à chaque îlot de recensement étant votre variable dépendante, y). Une valeur R-carré ajustée de 0,39 indiquerait que votre modèle (vos variables explicatives modélisées grâce à la régression linéaire) explique environ 39 % de la variation de la variable dépendante. Autrement dit, votre modèle "explique" environ 39 pour cent du "phénomène" de cambriolage résidentiel.
    Performance du modèle
    Les valeurs R-carré quantifient la performance du modèle
  2. Evaluer chaque variable explicative du modèle : Coefficient, Probabilité ou Probabilité robuste et Facteur d'inflation de la variance (VIF). Le coefficient de chaque variable explicative reflète la force et le type de relation entre la variable explicative et la variable dépendante. Lorsque le signe associé au coefficient est négatif, la relation est négative (par exemple, plus la distance est grande par rapport au centre urbain, plus le nombre de cambriolages est réduit). Lorsque le signe est positif, la relation est positive (par exemple, plus la population est importante, plus le nombre de cambriolages est important). Les coefficients sont indiqués dans les mêmes unités que leurs variables explicatives associées (un coefficient de 0,005 associé à une variable représentant une population peut être interprété comme 0,005 personne). Le coefficient reflète le changement attendu dans la variable dépendante pour chaque changement d'unité dans la variable explicative associée et conserve toutes les autres variables constantes (par exemple, une augmentation de 0,005 du nombre de cambriolages est attendue pour chaque personne supplémentaire dans l'îlot de recensement, ce qui conserve toutes les autres variables explicatives constantes). Le test T permet d'évaluer si une variable explicative est statistiquement significative ou non. L'hypothèse nulle est que le coefficient est en réalité égal à zéro (et par conséquent n'apporte rien au modèle). Lorsque la probabilité ou la probabilité robuste (valeur p) est très faible, la probabilité que le coefficient soit en fait égal à zéro est également faible. Si le test de Koenker (voir ci-après) est statistiquement significatif, utilisez les probabilités robustes pour évaluer la signification statistique des variables explicatives. Les probabilités statistiquement significatives ont une astérisque (*) à côté d'elles. Une variable explicative associée à un coefficient statistiquement significatif est importante pour le modèle de régression si la théorie/le sens commun prend en charge une relation valide avec la variable dépendante, si la relation en cours de modélisation est principalement linéaire et si la variable n'est pas redondante avec les autres variables explicatives du modèle. La valeur VIF mesure la redondance entre les variables explicatives. En règle générale, les variables explicatives associées aux valeurs VIF supérieures à environ 7,5 doivent être supprimées (une par une) du modèle de régression. Par exemple, si votre modèle de régression inclut une variable de population (nombre de personnes) et une variable d'emploi (nombre de personnes employées), elles sont probablement associées à des valeurs VIF élevées indiquant que ces deux variables "expliquent le même phénomène". Vous devez supprimer l'une d'elles de votre modèle.
    Analyse des variables explicatives
    Evaluer les variables statistiquement significatives.
  3. Evaluer la signification du modèle. La Statistique F de jointure et la Statistique Wald de jointure sont des mesures de signification statistique globale du modèle. La statistique F de jointure est fiable uniquement si la statistique Koenker (BP) n'est pas statistiquement significative. Si la statistique Koenker (BP) est significative, examinez la statistique Wald de jointure pour déterminer la signification du modèle global. L'hypothèse nulle pour ces deux tests est que les variables explicatives dans le modèle ne sont pas efficaces. Pour un niveau de confiance de 95 pour cent, une valeur p (probabilité) inférieure à 0,05 indique un modèle statistiquement significatif.
    Performance globale du modèle.
    Evaluer la signification statistique globale du modèle de régression.
  4. Evaluer la stationnarité. La statistique Koenker (BP) (statistique studentized Bruesch-Pagan de Koenker) est un test permettant de déterminer si la variable explicative du modèle a une relation cohérente avec la variable dépendante dans l'espace géographique et dans l'espace de données. Lorsque le modèle est cohérent dans l'espace géographique, les processus spatiaux représentés par les variables explicatives ont le même comportement dans la zone d'étude (les processus sont stationnaires). Lorsque le modèle est cohérent dans l'espace de données, la variation dans la relation entre les valeurs prévues et chaque variable explicative ne change pas lorsque les amplitudes de la variable explicative changent (aucune hétéroscédasticité n'est présente dans le modèle). Supposons que vous souhaitiez prévoir la criminalité, et qu'une de vos variables explicatives soit les revenus. Le modèle possèderait une hétéroscédasticité problématique si les prévisions étaient plus précises pour les emplacement avec des revenus médians moyens que pour des emplacement aux revenus médians conséquents. L'hypothèse nulle pour ce test est que le modèle est stationnaire. Pour un niveau de confiance de 95 pour cent, une valeur p (probabilité) inférieure à 0,05 indique une hétéroscédasticité et/ou une non stationnarité statistiquement significative. Si les résultats de ce test sont statistiquement significatifs, consultez les erreurs standard de coefficient et les probabilités pour évaluer l'efficacité de chaque variable explicative. Les modèles de régression avec une non stationnarité statistiquement significative sont souvent de bons candidats à l'analyse de Régression pondérée géographiquement (GWR).
    Évaluer la stationnarité et l'hétéroscédasticité
    Évaluer la stationnarité : si le test de Koenker est statistiquement significatif (*), consultez les probabilités robustes pour déterminer si les coefficients des variables explicatives sont significatifs ou non.
  5. Evaluer le biais du modèle. La statistique Jarque-Bera indique si les valeurs résiduelles (les valeurs de variables dépendantes observées/connues moins les valeurs prévues/estimées) sont distribuées normalement. L'hypothèse nulle pour ce test est que les valeurs résiduelles sont normalement distribuées. Ainsi, si vous deviez construire un histogramme représentant ces valeurs résiduelles, il ressemblerait à une courbe en cloche classique ou à une distribution gaussienne. Si la valeur p (probabilité) pour ce test est faible (inférieure à 0,05 pour un niveau de confiance de 95 pour cent, par exemple), les valeurs résiduelles ne sont pas distribuées normalement, ce qui indique que votre modèle est biaisé. Si l'auto-corrélation spatiale des valeurs résiduelles de régression est statistiquement significative (voir ci-dessous), le biais peut provenir d'une spécification incorrecte du modèle (il lui manque une variable clé). Les résultats d'un modèle des moindres carrés ordinaires ne sont pas fiables. Un test de Jarque-Bera statistiquement significatif peut également se produire si vous tentez de modéliser des relations non linéaires, si vos données incluent des points aberrants influents, ou s'il existe une forte hétéroscédasticité.
    Résultats Jarque-Bera
    Évaluer le biais du modèle.
  6. Evaluer l'auto-corrélation spatiale des valeurs résiduelles. Exécutez toujours l’outil Auto-corrélation spatiale (Moran I) sur les valeurs résiduelles de régression pour garantir qu'elles sont spatialement aléatoires. Une agrégation statistiquement significative de valeurs résiduelles élevées et/ou basses (sous et sur prévisions du modèle) inique qu'il manque une variable clé au modèle (mauvaise spécification). Les résultats des moindres carrés ordinaires ne sont pas fiables si le modèle est mal spécifié.
    Évaluer la distribution spatiale des valeurs résiduelles de régression.
    Utilise l’outil Auto-corrélation spatiale pour garantir que les valeurs résiduelles du modèle ne sont pas spatialement auto-corrélées.
  7. Enfin, consultez la section intitulée Corruption des modèles de régression, dans le document Principes de base de l'analyse de régression pour vérifier si votre modèle de régression OLS est correctement spécifié. Si vous avez des difficultés à trouver un modèle de régression correctement spécifié, l'outil Régression exploratoire peut se révéler très utile. La section intitulée Notes sur l'interprétation à la fin du rapport récapitulatif des moindres carrés ordinaires a pour fonction de vous rappeler l'objectif de chaque test statistique et de vous aider à trouver une solution lorsque votre modèle échoue à des tests de diagnostic.
    Notes sur l’interprétation
    Le rapport OLS comprend des notes qui vous permettront de mieux interpréter les résultats du diagnostic.

(C) Si vous spécifiez un chemin pour le Fichier de rapport en sortie optionnel, un fichier PDF est créé. Il contient toutes les informations du rapport récapitulatif ainsi que des graphiques supplémentaires vous permettant d'évaluer votre modèle. La première page du rapport donne des informations détaillées sur chaque variable explicative. Comme la première section du rapport récapitulatif (voir l'étape 2 ci-dessus), les informations que vous trouverez ici vous permettent de déterminer si les coefficients de chaque variable explicative sont statistiquement significatifs et présentent le signe attendu (+/-). Si le test de Koenker est statistiquement significatif (voir l'étape 4 ci-dessus), seules les probabilités robustes vous permettront de décider si une variable est utile à votre modèle ou pas. Les coefficients statistiquement significatifs sont indiqués par un astérisque en regard de leur valeur p dans la colonne des probabilités et/ou celle des probabilités robustes. Vous pouvez également déduire des informations données sur cette page du rapport si certaines de vos variables explicatives sont redondantes (si elles présentent une multicolinéarité problématique). Sauf si la théorie exige le contraire, vous devez supprimer une à une les variables explicatives dont la valeur de facteur d'inflation de la variance (VIF) est élevée, jusqu'à que la valeur VIF de chacune des variables explicatives restantes soit inférieure à 7,5.

Page 1 du rapport des moindres carrés ordinaires

La section suivante du Fichier de rapport en sortie liste les résultats des tests de diagnostic des moindres carrés ordinaires. Cette page inclut également une partie intitulée Notes sur l'interprétation décrivant l'importance de chaque test. Si votre modèle échoue à l'un de ces diagnostics, consultez la table des problèmes de régression courants pour obtenir des informations sur la sévérité de chaque problème ainsi que des solutions possibles. Les graphiques inclus dans les pages suivantes du rapport vous permettront également d'identifier et corriger les problèmes existant dans votre modèle.

Page 2 du rapport des moindres carrés ordinaires

La troisième section du Fichier de rapport en sortie inclut des histogrammes indiquant la distribution de chaque variable de votre modèle, et des nuages de points montrant la relation entre la variable dépendante et chaque variable explicative. Si votre modèle est biaisé (si la valeur p Jarque-Bera est statistiquement significative), recherchez les distributions asymétriques dans les histogrammes, et essayez de transformer ces variables pour vérifier si le biais est ainsi éliminé et les performances du modèle améliorées. Les nuages de points montrent quelles variables sont les meilleurs prédicteurs. Utilisez-les pour vérifier également l'existence éventuelle de relations non linéaires entre vos variables. Dans certains cas, la transformation d'une ou plusieurs variables permet de corriger les relations non linéaires et d'éliminer le biais du modèle. La présence de points aberrants dans les données peut également résulter en un modèle biaisé. Vérifiez les histogrammes et les nuages de points pour ces valeurs de données et/ou relations entre données. Exécutez le modèle avec et sans point aberrant pour voir dans quelle mesure il affecte vos résultats. Vous découvrirez peut-être que le point aberrant correspond à des données non valides (entrées ou enregistrées par erreur) et pourrez peut-être supprimer l'entité associée de votre jeu de données. Si le point aberrant représente des données valides et a un impact très fort sur les résultats de votre analyse, vous pouvez décider de produire un rapport des résultats obtenus avec, et sans, le ou les points aberrants.

Page 3 du rapport des moindres carrés ordinaires

Si votre modèle est correctement spécifié, les sous-estimations et surestimations reflètent le bruit aléatoire. Si vous créez un histogramme de bruit aléatoire, il sera normalement distribué (imaginez une courbe en cloche). La quatrième section du Fichier de rapport en sortie présente l'histogramme des sous-estimations et des surestimations du modèle. Les barres de l'histogramme représentent la distribution réelle, et la ligne bleue superposée sur l'histogramme montre la forme qu'aurait l'histogramme si vos valeurs résiduelles étaient normalement distribuées. Il est peu probable que l'histogramme soit parfait. Vous devrez donc consulter les résultats du test de Jarque-Bera pour déterminer si l'écart d'une distribution normale est statistiquement significatif ou non.

Page 4 du rapport des moindres carrés ordinaires

Le test de Koenker indique si les relations que vous modélisez varient sur l'ensemble de la zone d'étude (non stationnarité) ou en fonction de la magnitude de la variable que vous essayez de prévoir (hétéroscédasticité). L'outil Geographically_Weighted_Regression permet de résoudre les problèmes de non stationnarité. Le graphique de la section 5 du Fichier de rapport en sortie indique s'il existe un problème d'hétéroscédasticité. Ce graphique en nuages de points (voir ci-dessous) représente la relation entre les valeurs résiduelles du modèle et les valeurs prédites. Supposons que vous modélisiez des taux de criminalité. Si le graphique est de forme conique, avec la pointe sur le côté gauche du graphique et la partie la plus large sur le côté droit, votre modèle prédit correctement dans les zones à faible taux de criminalité, mais ne fonctionne pas correctement là où la criminalité est élevée.

Page 5 du rapport des moindres carrés ordinaires

La dernière page du rapport indique toutes les valeurs de paramètres utilisées lors de sa création.

(D) Étudiez les valeurs résiduelles du modèle présentes dans la Classe d'entités en sortie. Les sur et sous-prévisions pour un modèle de régression correctement spécifié sont distribuées de manière aléatoire. L'agrégation des sur et/ou sous-prévisions prouve qu'il manque au moins une variable explicative clé. Examinez les motifs contenues dans les valeurs résiduelles de votre modèle pour trouver des indices sur ces variables manquantes. L'exécution de l'outil Hot Spot Analysis sur les valeurs résiduelles de régression peut parfois permettre d'identifier des tendances plus larges. Vous trouverez des stratégies supplémentaires pour traiter un modèle incorrectement spécifié dans la rubrique Ce que l'on ne vous dit pas sur l'analyse de régression.

Valeurs résiduelles mappées
Sortie OLS : valeurs résiduelles mappées

(E) Consultez les tables des diagnostics et des coefficients. La création des tables des diagnostics et des coefficients est facultative. Lorsque vous êtes impliqué dans la recherche d'un modèle efficace, vous pouvez décider de ne pas créer ces tables. Le processus de création de modèle est itératif et vous essayerez probablement un grand nombre de modèles différents (des variables explicatives différentes) jusqu'à ce que vous trouviez celui qui convient. Vous pouvez utiliser le critère d'information Akaike corrigé (AICc) sur le rapport pour comparer différents modèles. Le modèle avec la valeur AICc la plus faible est le meilleur (autrement dit, en prenant en considération la complexité du modèle, le modèle avec la valeur AICc la plus faible est le mieux adapté aux données observées).

Sortie AICc
Vous pouvez faire appel à la valeur AICc pour comparer les modèles de régression.

La création des tables des diagnostics et des coefficients pour vos modèles des moindres carrés ordinaires finaux capture des éléments importants du rapport des moindres carrés ordinaires. La table des coefficients comprend la liste des variables explicatives utilisées dans le modèle avec leurs coefficients, leurs coefficients normalisés, leurs erreurs standard, ainsi que leurs probabilités. Le coefficient est une estimation de la variation de la variable dépendante si un changement de 1 unité se produit dans la variable explicative associée. Les unités des coefficients correspondent aux variables explicatives. Si, par exemple, vous avez une variable explicative pour la population totale, les unités du coefficient de cette variable reflètent les gens. Si une autre variable explicative correspond à la distance (mètres) par rapport à la gare ferroviaire, les unités du coefficient reflètent les mètres. Lorsque les coefficients sont convertis en écarts types, ce sont des coefficients normalisés. Vous pouvez utiliser les coefficients normalisés pour comparer l'effet que différentes variables explicatives ont sur la variable dépendante. La variable explicative dont le coefficient normalisé est le plus élevé après la suppression du symbole +/- (prenez la valeur absolue) a l'effet le plus important sur la variable dépendante. Les interprétations des coefficients ne peuvent toutefois avoir lieu qu'à la lumière de l'erreur standard. Les erreurs standard indiquent la probabilité d'obtention des mêmes coefficients si vous pouviez rééchantillonner vos données et recalibrer votre modèle un nombre infini de fois. Des erreurs standard importantes pour un coefficient signifient que le processus de rééchantillonnage résulterait en une vaste plage de valeurs de coefficients possibles. Des erreurs standard moindres indiquent que le coefficient serait assez homogène.

Table des coefficients
La table des coefficients comprend les coefficients calculés, les erreurs standard et les probabilités des variables.

La table des diagnostics comprend les résultats de chaque test de diagnostic, ainsi que des conseils sur l'interprétation de ces résultats.

Diagnostics de la méthode des moindres carrés ordinaires
La table des diagnostics comprend des notes pour l'interprétation des résultats du test de diagnostic du modèle.

Ressources supplémentaires

Reportez-vous à la page intitulée Spatial Statistics Resources pour obtenir des informations supplémentaires et approfondir vos connaissances sur la régression des moindres carrés ordinaires. Lisez d'abord le document intitulé Principes de base de l'analyse de régression et/ou regardez le séminaire Web gratuit (d'une durée d'une heure) Principes de base de l'analyse de régression proposé sur le Campus virtuel Esri. Faites ensuite un Didacticiel consacré à l'analyse de régression Appliquez l'analyse de régression à vos propres données, en vous reportant à la table des problèmes courants et à l'article intitulé Ce que l'on ne vous dit pas sur l'analyse de régression pour obtenir des stratégies supplémentaires. Si vous avez des difficultés à trouver un modèle de régression correctement spécifié, l'outil Régression exploratoire peut se révéler très utile.

5/10/2014