Ce que l'on ne vous dit pas sur l'analyse de régression

L'analyse de régression permet de comprendre, modéliser, prédire et/ou expliquer des phénomènes complexes. Elle vous aide à répondre à des questions interrogeant sur la cause telles que "Pourquoi existe-t-il des endroits aux Etats-Unis dont les résultats d'examens sont constamment supérieurs à la moyenne nationale ?" ou "Pourquoi certaines zones de la ville présentent-elles des taux aussi élevés de cambriolage de maisons d'habitation ?". Vous pouvez utiliser l'analyse de régression pour expliquer l'obésité infantile, par exemple, à l'aide d'un ensemble de variables tels que les revenus, l'éducation et l'accès à une alimentation saine.

L'analyse de régression vous aide à répondre à ces questions pour vous permettre de remédier à ces problèmes. Si, par exemple, vous découvrez que l'obésité infantile est plus faible dans les écoles qui servent des fruits et des légumes frais au déjeuner, vous pouvez utiliser ces informations pour mettre au point une stratégie et prendre des décisions concernant les programmes de repas scolaires. De même, en connaissant les variables qui aident à expliquer des taux de criminalité élevés, vous pouvez faire des prévisions concernant la criminalité future afin que des ressources de prévention soient allouées plus efficacement.

Voici ce que l'on vous dit sur l'analyse de régression.

Ce que l'on ne vous dit pas est qu'il n'est pas toujours facile de trouver un ensemble de variables explicatives permettant de répondre à des questions ou d'expliquer le phénomène complexe que l'on tente de modéliser. L'obésité infantile, la criminalité, les résultats d'examens et presque tout ce que vous voulez modéliser à l'aide de l'analyse de régression sont des problèmes compliqués qui ont rarement des réponses simples. Mais si vous avez déjà essayé de créer votre propre modèle de régression, vous savez déjà tout cela.

Heureusement, lorsque vous exécutez l'outil de régression Moindres carrés ordinaires, un jeu de diagnostics vous permet de déterminer si vous disposez d'un modèle correctement spécifié, et donc fiable. Vous trouverez, dans le présent document, la description de six vérifications auxquelles soumettre votre modèle pour vous assurer qu'il est fiable. Ces six vérifications, ainsi que les techniques disponibles pour résoudre certains des problèmes les plus courants de l'analyse de régression, sont des ressources qui peuvent sans aucun doute faciliter votre travail.

AstuceAstuce:

Une fois que vous aurez compris les informations présentées ci-après, vous déciderez peut-être d'utiliser l'outil Régression exploratoire pour rechercher un modèle satisfaisant à tous les critères de la méthode des moindres carrés ordinaires.

Prise en main

Commencez par choisir la variable que vous voulez comprendre, prévoir ou modéliser. Cette variable est appelée "variable dépendante". L'obésité infantile, la criminalité et les résultats d'examens sont les variables dépendantes modélisées dans les exemples ci-dessus.

Vous devez ensuite décider quels facteurs peuvent expliquer votre variable dépendante. Ces variables sont appelées "variables explicatives". Dans l'exemple concernant l'obésité infantile, les variables explicatives sont des facteurs tels que les revenus, l'éducation et l'accès à une alimentation saine. Vous devrez effectuer des recherches pour identifier toutes les variables explicatives pouvant être importantes. Etudiez les théories et consultez la documentation existante, parlez aux experts, et fiez-vous toujours à votre bon sens. Les recherches préliminaires que vous effectuez augmentent fortement vos chances de trouver un modèle approprié.

Une fois la variable dépendante et les variables explicatives candidates sélectionnées, vous êtes prêt à effectuer votre analyse. Commencez toujours votre analyse de régression à l'aide des outils Moindres carrés ordinaires ou Régression exploratoire, car ils permettent d'effectuer des tests de diagnostic importants pour déterminer si vous avez trouvé un modèle utile ou si vous devez poursuivre votre travail.

L'outil Moindres carrés ordinaires produit plusieurs sorties, dont une carte des valeurs résiduelles de régression et un rapport récapitulatif. La carte des valeurs résiduelles de régression indique les sous-estimations et surestimations de votre modèle. L'analyse de cette carte est donc une étape importante dans la recherche d'un bon modèle. Le rapport récapitulatif est principalement numérique et inclut tous les diagnostics que vous utiliserez dans les six vérifications décrites ci-dessous.

Sorties de la méthode des moindres carrés ordinaires
L'outil Moindres carrés ordinaires produit plusieurs sorties, dont une carte des valeurs résiduelles de régression et un rapport récapitulatif.

Six vérifications

Vérification 1 : ces variables explicatives améliorent-elles mon modèle ?

Après avoir consulté les théories et la recherche existantes, vous avez identifié un ensemble de variables explicatives candidates. Vous avez de bonnes raisons de les inclure dans votre modèle. Cependant, après avoir exécuté votre modèle, vous constatez que certaines de vos variables explicatives sont statistiquement significatives et que d'autres ne le sont pas.

Comment savoir quelles variables explicatives sont significatives ? L'outil Moindres carrés ordinaires calcule un coefficient pour chaque variable explicative du modèle et effectue un test statistique pour déterminer si une variable améliore ou non votre modèle. Le test statistique calcule la probabilité que le coefficient soit réellement égal à zéro. Si le coefficient est zéro (ou très proche de zéro), la variable explicative associée n'est pas utile pour votre modèle. Mais si le test statistique renvoie une probabilité faible (valeur p) pour une variable explicative spécifique, cela indique qu'il est peu probable (il existe une faible probabilité) que le coefficient soit égal à zéro. Si la probabilité est inférieure à 0,05, un astérisque en regard de la probabilité sur le rapport récapitulatif de l'outil Moindres carrés ordinaires indique que la variable explicative associée est importante pour votre modèle (en d'autres termes, le coefficient est statistiquement significatif avec un niveau de confiance de 95 pour cent). Vous recherchez donc des variables explicatives associées à des probabilités statistiquement significatives (recherchez celles qui sont signalées par des astérisques).

L'outil Moindres carrés ordinaires calcule la probabilité et la probabilité robuste pour chaque variable explicative. Avec les données spatiales, il n'est pas rare que les relations que vous modélisez varient dans la zone d'étude. De telles relations sont appelées "non stationnaires". Si les relations sont non stationnaires, vous ne pouvez vous fier qu'aux probabilités robustes pour déterminer si une variable explicative est statistiquement significative.

Comment savoir si les relations de votre modèle sont non stationnaires ? Un autre test statistique inclus dans le rapport récapitulatif de l'outil Moindres carrés ordinaires est la statistique de Koenker (Statistique Breusch-Pagan avec transformation de Student de Koenker) relative à la non stationnarité. Un astérisque en regard de la valeur p de Koenker indique que les relations que vous modélisez présentent une non stationnarité statistiquement significative. Prenez donc soin de consulter les probabilités robustes.

Test de Koenker

En général, vous supprimerez de votre modèle les variables explicatives qui ne sont pas statistiquement significatives. Cependant, si la théorie indique qu'une variable est très importante, ou si une variable donnée est le point central de votre analyse, vous pourrez la conserver même si elle n'est pas statistiquement significative.

RemarqueRemarque :

Au cours de la recherche d'un modèle des moindres carrés ordinaires correctement spécifié, vous essayerez probablement diverses variables explicatives. Notez que les coefficients de variables explicatives (et leur signification statistique) peuvent changer radicalement selon la combinaison de variables que vous incluez dans votre modèle.

Vérification 2 : les relations sont-elles celles que j'attendais ?

Il est important de déterminer si une valeur explicative aide votre modèle, mais il faut également vérifier le signe (+/-) associé à chaque coefficient pour vous assurer que la relation est ce que vous attendiez. Le signe du coefficient d'une variable explicative indique si la relation est positive ou négative. Supposons que vous modélisiez la criminalité, par exemple, et qu'une de vos variables explicatives soit les revenus moyens des habitants d'un quartier. Si le coefficient de la variable des revenus est un nombre négatif, cela signifie que la criminalité diminue à mesure que les revenus des habitants du quartier augmentent (relation négative). Supposons maintenant que vous modélisiez l'obésité infantile et que la variable représentant l'accessibilité au fast-food ait un coefficient positif. Cela indiquerait que l'obésité infantile tend à augmenter à mesure que l'accès au fast-food augmente (relation positive).

Lorsque vous créez votre liste de variables explicatives candidates, vous devez inclure, pour chaque variable, la relation (positive ou négative) que vous attendez. Il serait difficile de se fier à un modèle indiquant des relations non conformes à la théorie et/ou au bon sens. Supposons que vous créiez un modèle afin de prévoir la fréquence des feux de forêts et que votre modèle renvoie un coefficient positif pour la variable des précipitations. Vous ne vous attendez probablement pas à ce que les feux de forêts augmentent dans les endroits où il pleut beaucoup.

Les signes de coefficients inattendus indiquent que votre modèle comporte d'autres problèmes qui feront surface durant les vérifications suivantes. Vous pouvez vous fier au signe et à la force des coefficients de vos variables explicatives seulement si votre modèle répond à tous les critères vérifiés. Si vous trouvez un modèle satisfaisant à toutes les vérifications malgré le signe de coefficient inattendu, vous avez sans doute eu l'occasion d'apprendre quelque chose. Il existe peut-être une relation positive entre la fréquence des feux de forêts et les précipitations car la source principale des feux de forêts dans votre zone d'étude est la foudre. Il peut être utile de rechercher des données concernant la foudre dans votre zone d'étude pour vérifier si cela améliore les performances du modèle.

Vérification 3 : certaines des variables explicatives sont-elles redondantes ?

Lors de la sélection des variables explicatives à inclure dans votre analyse, recherchez des variables permettant de trouver différents aspects de ce que vous essayez de modéliser. Evitez les variables redondantes. Par exemple, si vous essayez de modéliser les valeurs d'habitat, vous n'inclurez probablement pas à la fois les variables explicatives relatives à la surface de la maison et au nombre de chambres qu'elle comporte. Ces deux variables concernant la taille de la maison vous risquez de déstabiliser votre modèle en les incluant ensemble. En fin de compte, un modèle comportant des variables redondantes n'est pas fiable.

Comment savoir si des variables sont redondantes ? Heureusement, s'il existe plus de deux variables explicatives, l'outil Moindres carrés ordinaires calcule un facteur d'inflation de la variance (VIF) pour chaque variable. Ce facteur est une mesure de la redondance des variables et vous permet de décider quelles variables peuvent être supprimées de votre modèle sans compromettre le pouvoir explicatif. En règle générale, une valeur VIF supérieure à 7,5 est problématique. Si deux de vos variables (ou plus) on des valeurs VIF supérieures à 7,5, supprimez-les une par une et exécutez l'outil Moindres carrés ordinaires jusqu'à ce que la redondance ait disparu. Notez qu'il ne faut pas supprimer toutes les variables dont la valeur VIF est élevée. Dans notre exemple de modélisation de la valeur d'habitat, les variables correspondant à la surface de la maison et à son nombre de chambres ont probablement toute les deux une valeur VIF élevée. Dès que vous supprimez une de ces deux variables, la redondance disparaît. L'inclusion d'une variable reflétant la taille de la maison est importante, mais vous ne voulez pas modéliser cet aspect de la valeur des maisons de façon redondante.

Vérification 4 : mon modèle est-il biaisé ?

Au premier abord, cela semble être une question difficile. Mais la réponse est en fait très simple. Si votre modèle des moindres carrés ordinaires est correctement spécifié, les valeurs résiduelles du modèle (les sous-estimations et surestimations) sont normalement distribuées avec une moyenne de zéro (pensez à une courbe en cloche). Toutefois, si votre modèle est biaisé, la distribution des valeurs résiduelles est déséquilibrée comme indiqué ci-dessous. Si le modèle est biaisé, les résultats prévus ne sont pas fiables. Il existe heureusement plusieurs stratégies permettant de corriger ce problème.

Distributions normale et asymétrique

Un résultat de test de Jarque-Bera statistiquement significatif (signalé par un astérisque) indique que votre modèle est biaisé. Il peut arriver que votre modèle fonctionne pour les valeurs faibles mais ne prévoie pas bien les valeurs élevées (ou inversement). Dans le cas de notre exemple de l'obésité infantile, cela signifie que, là où le taux d'obésité infantile est faible, le modèle fonctionne très bien, mais là où il est élevé, les prévisions sont fausses. Le biais d'un modèle peut résulter de points aberrants qui influencent l'estimation du modèle.

Pour corriger le biais du modèle, créez une matrice de nuages de points pour toutes les variables du modèle. Une relation non linéaire entre une variable dépendante et une des variables explicatives est souvent la cause du biais d'un modèle. De telles relations ressemblent à une ligne courbe dans la matrice de nuages de points. Les relations linéaires ressemblent à des diagonales.

Relation curvilinéaire

Si vous constatez que votre variable dépendante a une relation non linéaire avec une de vos variables explicatives, vous devez rectifier cette situation. La méthode des moindres carrés ordinaires est une méthode de régression linéaire qui présume que les relations que vous modélisez sont linéaires. Si elles ne le sont pas, vous pouvez essayer de transformer vos variables pour voir si cela crée des relations qui sont plus linéaires. Les transformations logarithmiques et exponentielles sont des transformations courantes. Activez l'option Afficher les histogrammes dans l'assistant de création de matrices de nuages de points afin d'inclure un histogramme pour chaque variable de la matrice de nuages de points. Si certaines de vos variables explicatives sont fortement biaisées, vous pourrez supprimer le biais du modèle en les transformant également.

Transformations

La matrice de nuages de points révèle également les points aberrants des données. Pour voir si un point aberrant a une incidence sur votre modèle, exécutez l'outil Moindres carrés ordinaires avec et sans point aberrant, et vérifiez dans quelle mesure cela change les performances du modèle et si sa suppression en corrige le biais. Dans certains cas (surtout si vous pensez que les points aberrants représentent des données incorrectes), vous pourrez éliminer les points aberrants de votre analyse.

Points aberrants de données

Vérification 5 : ai-je trouvé toutes les variables explicatives clé ?

Vous commencez souvent une analyse avec des hypothèses sur les variables qui seront des prédicteurs importants. Vous pensez peut-être que 5 variables particulières produiront un bon modèle, ou disposez d'une liste clairement définie de 10 variables qui, à votre avis, sont associées. S'il est important d'effectuer une analyse de régression avec une hypothèse, il est également essentiel de laisser libre cours à votre créativité et à votre perspicacité. Résistez à l'envie de vous limiter à votre liste initiale de variables. Essayez d'envisager toutes les variables possibles pouvant affecter ce que vous modélisez. Créez des cartes thématiques pour chacune de vos variables explicatives candidates et comparez-les à une carte de votre variable dépendante. Retournez à vos livres et étudiez les publications sur le sujet. Utilisez votre intuition pour rechercher des relations dans vos données cartographiées. Essayez de trouver autant de variables spatiales candidates que possible, telles que la distance séparant un point d'un centre urbain, la proximité d'axes routiers majeurs ou l'accès à de vastes étendues d'eau. Ces types de variables seront très importants pour les analyses lorsque vous pensez que les processus géographiques influencent les relations entre vos données. En fait, tant que vous n'aurez pas trouvé de variables explicatives capturant efficacement la structure spatiale de votre variable dépendante, il manquera dans votre modèle des variables explicatives essentielles et les tests de diagnostic décrits dans ce document échoueront.

L'autocorrélation spatiale statistiquement significative des valeurs résiduelles de votre modèle prouve qu'il manque des variables explicatives clé. Dans l'analyse de régression, les problèmes de valeurs résiduelles spatialement autocorrélées se traduisent généralement par une agrégation des valeurs : les surestimations s'agrègent, et les sous-estimations également. Comment savoir s'il existe des autocorrélations spatiales statistiquement significatives dans les valeurs résiduelles de votre modèle. Exécutez l'outil Spatial Autocorrelation sur vos valeurs résiduelles de régression pour vérifier s'il existe un problème d'autocorrélation spatiale. Un score z statistiquement significatif indique qu'il manque des variables explicatives clé à votre modèle.

La détection de ces variables explicatives manquantes est souvent autant un art qu'une science. Vous pouvez essayer les stratégies suivantes :

Etudiez la carte des valeurs résiduelles des moindres carrés ordinaires.

La sortie standard de l'outil Moindres carrés ordinaires est une carte des valeurs résiduelles du modèle. Les zones rouges indiquent que les valeurs réelles (votre variable dépendante) sont supérieures aux prévisions de votre modèle. Les zones bleues montrent les emplacements où les valeurs réelles sont inférieures aux prévisions. Il suffit parfois de voir la carte des valeurs résiduelles pour avoir une idée de ce qui peut manquer. Si vous remarquez des surestimations constantes dans les zones urbanisées, par exemple, vous pouvez envisager d'ajouter une variable reflétant la distance à destination des centres urbains. S'il semble que des surestimations sont associées à des sommets de montagnes ou des fonds de vallées, vous pouvez envisager l'utilisation d'une variable d'altitude. Voyez-vous des agrégats régionaux, pouvez-vous identifier des tendances dans vos données ? Si oui, il peut être utile de créer une variable fictive pour capturer ces différences régionales. L'exemple classique de variable fictive est une variable qui distingue les entités urbaines des entités rurales. En attribuant la valeur 1 à toutes les entités rurales et la valeur 0 à toutes les autres, vous parviendrez peut-être à capturer les relations spatiales dans le paysage qui peuvent importer pour votre modèle. La création d'une carte en semis de points des valeurs résiduelles du modèle vous permettra de mieux visualiser les configurations régionales dans leurs grandes lignes.

En identifiant les variables spatiales manquantes, vous pouvez améliorer votre modèle, mais également mieux comprendre, et ce, sous un angle différent, le phénomène que vous modélisez.

RemarqueRemarque :

Nous vous recommandons d'inclure des variables fictives de régime spatial à votre modèle des moindres carrés ordinaires, mais vous devrez les supprimer avant d'exécuter l'outil Régression pondérée géographiquement (GWR) pour éviter les problèmes de multicolinéarité locale.

Etudiez la non stationnarité.

Vous pouvez également essayer d'exécuter l'outil Régression pondérée géographiquement et de créer des surfaces de coefficients pour chacune de vos variables explicatives et/ou cartes des valeurs R2 locales. Sélectionnez le modèle des moindres carrés ordinaires qui fonctionne bien (un modèle avec une valeur R2 élevée et ayant réussi tous les autres tests de diagnostic ou la plupart d'entre eux ). La régression pondérée géographiquement créant une équation de régression pour chaque entité de votre zone d'étude, les surfaces de coefficients illustrent les fluctuations géographiques des relations entre la variable dépendante et chaque variable explicative ; la carte des valeurs R2 locales indique des variations du pouvoir explicatif du modèle. Parfois, le fait de voir ces variations géographiques peut donner des idées sur les variables qui peuvent manquer : une baisse du pouvoir explicatif près des principales autoroutes, un déclin selon la distance de la côte, un changement dans le signe des coefficients près d'une région industrielle, ou encore une tendance ou une limite est-ouest forte. Tous ces éléments sont des indications permettant de déterminer les variables spatiales qui peuvent améliorer votre modèle.

Surfaces de coefficients illustrant la non stationnarité

Lorsque vous étudiez les surfaces de coefficients, recherchez les variables explicatives avec des coefficients dont le signe change du positif au négatif. Il est important d'effectuer cette recherche car l'outil Moindres carrés ordinaires ne tiendra probablement pas compte du potentiel prédictif de ces variables extrêmement non stationnaires. Considérons, par exemple, la relation entre l'obésité infantile et l'accès à des choix d'alimentation saine. Il se peut que dans des zones à bas revenus où l'accès à une automobile est plus difficile, l'éloignement d'un supermarché soit un véritable obstacle au choix d'aliments plus sains. Cependant, dans les zones à revenus élevés, avec un accès facilité à un véhicule, il n'est pas forcément souhaitable d'avoir un supermarché auquel il est possible de se rendre à pied. L'éloignement du supermarché peut ne pas être un obstacle à l'achat d'aliments sains. Alors que la régression pondérée géographiquement permet la modélisation de relations complexes, ce n'est pas le cas de la méthode des moindres carrés ordinaires. La méthode des moindres carrés ordinaires est un modèle global qui attend des relations constantes entre variables (stationnaires) dans toute la zone d'étude. Lorsque des coefficients changent de signe, ils s'annulent mutuellement. Pensez à (+1) + (-1) = 0. Si vous trouvez des variables où les coefficients changent de façon spectaculaire, particulièrement s'ils changent de signe, conservez-les dans votre modèle même s'ils ne sont pas statistiquement significatifs. Ces types de variables seront efficaces lorsque vous passerez à la régression pondérée géographiquement.

Essayez d'adapter le modèle des moindres carrés ordinaires à des zones d'études de sous-ensembles plus petites.

La régression pondérée géographiquement est extrêmement utile pour traiter la non stationnarité, et il peut être tentant de l'effectuer directement, sans trouver d'abord un modèle des moindres carrés ordinaires correctement spécifié. Malheureusement, la régression pondérée géographiquement ne propose pas de tous les tests de diagnostic vous permettant de déterminer si vos variables explicatives sont statistiquement significatives, si vos valeurs résiduelles sont normalement distribuées, ou si votre modèle est un bon modèle. La régression pondérée géographiquement ne corrige pas un modèle mal spécifié sauf si vous êtes certain que la seule raison pour laquelle votre modèle des moindres carrés ordinaires a échoué aux six vérifications est le résultat direct de la non stationnarité. La non stationnarité est prouvée par la présence de variable explicatives ayant une forte relation positive à certains endroits de la zone d'étude et une forte relation négative à d'autres. Le problème n'est parfois pas dû à des variables explicatives distinctes mais à l'ensemble de variables explicatives utilisées dans le modèle. Il se peut qu'un ensemble de variables fournisse un modèle parfait pour une partie de la zone d'étude, mais qu'un ensemble de variables différent fonctionne mieux partout ailleurs. Pour vérifier si c'est le cas, vous pouvez sélectionner des zones d'études de sous-ensembles plus petites et essayer d'adapter les modèles des moindres carrés ordinaires à ces zones. Sélectionnez vos zones de sous-ensembles en fonction des processus qui vous semblent être apparentés à votre modèle (zones de bas revenus par rapport à celles de revenus élevés, habitat ancien par rapport à habitat neuf). Vous pouvez également sélectionner des zones en fonction de la carte de la régression pondérée géographiquement des valeurs R2 locales. Les emplacements où les performances du modèle sont mauvaises peuvent être modélisés de façon plus satisfaisante à l'aide d'un ensemble de variables explicatives différent.

AstuceAstuce:

L'outil Analyse des regroupements permet d'identifier des sous-régions de votre zone d'étude générale.

Si vous ne trouvez pas de modèles des moindres carrés ordinaires correctement spécifiés dans plusieurs petites zones d'études, vous pouvez conclure que la non stationnarité est le problème et procéder à la régression pondérée géographiquement à l'aide de l'ensemble complet de variables explicatives que vous avez trouvées à l'aide des modèles des zones de sous-ensembles. Si vous ne trouvez pas de modèles correctement spécifiés dans les zones de sous-ensembles plus petites, il se peut que vous tentiez de modéliser un phénomène trop complexe pour être réduit simplement à des mesures numériques et des relations linéaires. Dans ce cas, vous devrez probablement envisager d'utiliser d'autres méthodes d'analyse.

Tout ceci représente beaucoup de travail, mais c'est aussi un excellent exercice d'analyse exploratoire de données qui vous aidera à mieux comprendre vos données et à trouver de nouvelles variables à utiliser, puis à produire un modèle parfait.

Vérification 6 : est-ce que j'explique correctement ma variable dépendante ?

Il est temps maintenant d'évaluer les performances du modèle. La valeur R2 ajustée est importante pour évaluer la capacité de vos variables explicatives à modéliser votre variable dépendante. La valeur R2 est également une des premières choses dont on vous parle lorsqu'on vous explique l'analyse de régression. Alors pourquoi effectuer cette importante vérification à la fin ? Ce qu'on omet de vous dire, c'est que vous ne pouvez pas vous fier à votre valeur R2 si vous n'avez pas réussi toutes les vérifications décrites ci-dessus. Si votre modèle est biaisé, il peut fonctionner correctement dans certaines zones ou avec une plage spécifique de valeurs de votre variable dépendante, et ne pas fonctionner du tout par ailleurs. La valeur R2 ne reflète pas cette situation. De même, si vos valeurs résiduelles sont spatialement autocorrélées, vous ne pouvez pas vous fier aux relations des coefficients provenant de votre modèle. Avec des variables explicatives redondantes, vous pouvez obtenir des valeurs R2 extrêmement élevées, mais votre modèle sera instable. Il ne reflétera pas les véritables relations que vous tentez de modéliser et peut produire des résultats complètement différents après l'ajout d'une seule observation.

Une fois que vous avez effectué les autres vérifications et que vous êtes sûr que tous les critères requis sont satisfaits, vous pouvez déterminer si votre modèle explique correctement les valeurs de votre variable dépendante en évaluant la valeur R2 ajustée. Les valeurs R2 doivent être comprises entre 0 et 1 et elles représentent un pourcentage. Supposons que vous modélisiez des taux de criminalité et que vous trouviez un modèle qui réussisse tous les tests ci-dessus avec une valeur R2 ajustée de 0,65. Cela indique que les variables explicatives de votre modèle justifient à 65 pour cent le taux de criminalité (plus techniquement, le modèle explique 65 pour cent de la variation de la variable dépendante Taux de criminalité). Les valeurs R2 ajustées doivent être jugées plutôt subjectivement. Dans certaines domaines scientifiques, les intervenants seraient très satisfaits de pouvoir expliquer 23 pour cent d'un phénomène complexe. Dans d'autres domaines, la valeur R2 doit être plus proche de 80 ou 90 pour cent avant de susciter le moindre intérêt. Quoiqu'il en soit, la valeur R2 ajustée vous aidera à évaluer les performances de votre modèle.

Un autre diagnostic important vous permet d'évaluer les performances d'un modèle : il s'agit du critère d'information d'Akaike corrigé (AICc). La valeur AICc permet de comparer plusieurs modèles. Supposons, par exemple, que vous vouliez modéliser les résultats d'examens scolaires à l'aide de différents ensembles de variables explicatives. Dans un modèle, vous utiliserez seulement des variables démographiques, alors que dans un autre, vous sélectionnerez des variables relatives à l'école et à la classe, telles que les dépenses par élève et les ratios enseignants-élèves. Tant que la variable dépendante pour tous les modèles comparés est la même (dans ce cas, les résultats d'examens), vous pouvez utiliser les valeurs AICc de chaque modèle pour déterminer celui qui fonctionne le mieux. Le modèle ayant la valeur AICc la plus faible est le mieux adapté aux données étudiées.

Et n'oubliez pas. . .

Lorsque vous effectuez toutes les opérations nécessaires pour créer un modèle de régression correctement spécifié, n'oubliez pas que le but ultime de votre analyse est de comprendre vos données et d'utilisez cette compréhension pour résoudre des problèmes et répondre à des questions. Pourtant, vous pouvez essayer plusieurs modèles (avec et sans variables transformées), explorer plusieurs petites zones d'études, analyser vos surfaces de coefficients et ne pas trouver de modèle des moindres carrés ordinaires correctement spécifié. Mais, et cela est important, vous contribuerez malgré tout à l'ensemble de connaissances relatives au phénomène que vous modélisez. Le fait de découvrir que le modèle que vous pensiez être un bon prédicteur se révèle ne pas être significatif du tout constitue une information incroyablement utile. Vous comprendrez mieux un problème en découvrant qu'une des variables qui vous semblait déterminante a une relation positive dans certaines zones et une relation négative dans d'autres. C'est un travail précieux que vous effectuez en tentant de trouver un modèle correct à l'aide de la méthode des moindres carrés ordinaires, puis en appliquant la régression pondérée géographiquement afin d'explorer les variations régionales entre les variables de votre modèle.

Pour plus d'informations sur l'analyse de régression, reportez-vous à la page intitulée Spatial Statistics Resources.

9/13/2013