Modélisation de relations spatiales

Ce document fournit des informations supplémentaires sur les paramètres des outils et présente également le vocabulaire et les concepts essentiels pour l'analyse de données à l'aide des Outils de statistiques spatiales. Consultez-le lorsque vous avez besoin d'informations supplémentaires sur les paramètres des outils.

RemarqueRemarque :
  • Les calculs basés sur la distance euclidienne ou de Manhattan nécessitent des données projetées afin de pouvoir mesurer précisément les distances. Par conséquent, dès lors que la distance est une composante de votre analyse, ce qui est presque toujours le cas avec les statistiques spatiales, projetez vos données à l'aide d'un système de coordonnées projetées (plutôt qu'un système de coordonnées géographiques basé sur les degrés, minutes et secondes).
  • Les outils de la boîte à outils Spatial Statistics ne fonctionnent pas directement avec les couches d'événements XY. Utilisez l'outil CopyFeatures pour convertir les données d'événements XY en classe d'entités avant d'exécuter votre analyse.
  • Lorsque vous utilisez des fichiers de formes, n'oubliez pas qu'ils ne peuvent pas stocker de valeurs Null. Il se peut que des outils ou autres procédures qui créent des fichiers de formes à partir d'entrées autres que des fichiers de formes stockent ou interprètent des valeurs Null comme étant égales à zéro. Dans certains cas, les valeurs Null sont stockées sous forme de valeurs négatives très élevées dans les fichiers de formes. Cela peut aboutir à des résultats inattendus. Reportez-vous à la rubrique Remarques concernant le géotraitement pour la sortie de fichiers de formes pour plus d'informations.

Conceptualisation de relations spatiales

Une différence importante entre les statistiques spatiales et traditionnelles (aspatiales ou non spatiales) est que les statistiques spatiales intègrent directement l'espace et les relations spatiales dans leurs mathématiques. Par conséquent, de nombreux outils de la boîte à outils de statistiques spatiales supposent que l'utilisateur sélectionne une valeur pour le paramètre Conceptualisation de relations spatiales avant l'analyse. Les conceptualisations courantes comprennent l'inverse de la distance, le temps de trajet, la distance constante, les k voisins les plus proches et la contiguïté. La conceptualisation de relations spatiales utilisée dépend de ce que vous mesurez. Si vous mesurez l'agrégation d'une espèce particulière de plante qui se propage par graines, par exemple, l'inverse de la distance est probablement bien adapté. Toutefois, si vous évaluez la distribution géographique des travailleurs utilisant les transports en commun d'une région, le temps de trajet ou le coût de déplacement peuvent être de meilleurs choix pour la description de ces relations spatiales. Pour certaines analyses, l'espace et le temps peuvent être moins importants que d'autres concepts plus abstraits tels que la familiarité (plus une chose est familière, plus elle est fonctionnellement proche) ou l'interaction spatiale (liaisons téléphoniques plus fréquentes entre Los Angeles et New York, par exemple, qu'entre New York et une plus petite ville plus proche de New York, comme Poughkeepsie ; certains diront peut-être que Los Angeles et New York sont fonctionnellement plus proches).

L'outil Analyse des regroupements contient le paramètre Contraintes spatiales, et si les options de ce paramètre sont similaires à celles du paramètre Conceptualisation de relations spatiales, elles s'utilisent différemment. Lorsqu'une contrainte spatiale est imposée, seules les entités qui partagent au moins un voisin (comme cela est défini par les méthodes de contiguïté, de relations de voisin le plus proche ou de triangulation) peuvent appartenir au même groupe. Pour des obtenir des informations et des exemples supplémentaires, consultez la rubrique Fonctionnement de l'outil Analyse des regroupements.

Les options pour le paramètre Conceptualisation de relations spatiales sont discutées ci-dessous. L'option sélectionnée détermine les relations de voisinage pour les outils qui évaluent chaque entité dans le contexte d'entités voisines. Il s'agit notamment des outils Spatial Autocorrelation (Global Moran's I), Hot Spot Analysis (Getis-Ord Gi*) et Cluster and Outlier Analysis (Anselin Local Moran's I). Notez que certaines de ces options sont disponibles uniquement si vous utilisez les outils Générer la matrice de pondérations spatiales ou Générer les pondérations spatiales de réseau.

Inverse de la distance, inverse de la distance au carré (impédance)

Graphique d'inverse de la distance

Avec les options Inverse de la distance, le modèle conceptuel de relations spatiales est lié à l'impédance, ou à la fréquentation en fonction de la distance. Toutes les entités ont un impact/une influence sur les autres entités, mais plus elles sont éloignées, plus cet impact est réduit. Il est généralement souhaitable de spécifier une valeur Canal distance ou distance seuil lorsque vous utilisez une conceptualisation d'inverse de la distance pour réduire le nombre de calculs requis, surtout avec des jeux de données importants. Lorsque aucune valeur de canal distance ou distance seuil n'est spécifiée, une valeur seuil par défaut est calculée automatiquement. Vous pouvez forcer toutes les entités à être voisines entre elles en définissant la valeur Canal distance ou distance seuil sur zéro.

La distance euclidienne inverse est adaptée à la modélisation de données continues, telles que les variations de température, par exemple. La distance Manhattan inverse peut présenter les meilleurs résultats lorsque les analyses impliquent les emplacements de quincailleries ou d'autres ressources urbaines fixes, dans le cas où les données de réseau routier ne sont pas disponibles. Lorsque vous utilisez l'option Inverse de la distance au carré , le modèle conceptuel est le même qu'avec Distance inverse hormis que la pente est plus prononcée. Les influences des voisins s'affaiblissent donc plus rapidement et seuls les voisins les plus proches d'une entité cible exercent une influence substantielle dans les calculs de cette entité.

Canal de distance (sphère d'influence)

Graphique de distance constante

Pour certains outils, comme Hot Spot Analysis, un canal distance constante est la conceptualisation par défaut des relations spatiales. Avec l'option Canal de distance constante, vous imposez aux données un modèle conceptuel d'interactions spatiales de sphère d'influence ou de fenêtre mobile. Chaque entité est analysée dans le contexte des entités voisines situées dans la distance spécifiée pour Canal distance ou distance seuil. Les voisins dans la distance spécifiée reçoivent une pondération égale. Les entités à l'extérieur de la distance spécifiée n'influencent pas les calculs (leur pondération est nulle). Utilisez la méthode Canal de distance constante lorsque vous souhaitez évaluer les propriétés statistiques de vos données à une échelle spatiale particulière (fixe). Si vous étudiez les structures d'utilisation des transports publics par les travailleurs et savez que le trajet moyen jusqu'au lieu de travail est de 15 km, par exemple, vous pouvez utiliser une distance constante de 15 km pour votre analyse. Vous trouverez ci-après, dans la rubrique Sélection d'une distance constante, les stratégies permettant d'identifier une échelle d'analyse appropriée.

Zone d'indifférence

Graphique de zone d'indifférence

L'option Zone d'indifférence pour le paramètre Conceptualisation de relations spatiales combine les modèles Canal de distance constante et Distance inverse. Les entités dans le canal distance ou la distance seuil sont incluses dans les analyses pour l'entité cible. Une fois la distance critique dépassée, le niveau d'influence (pondération) chute rapidement. Supposons que vous cherchiez un travail et ayez le choix entre un travail situé à cinq kilomètres et un autre situé à six kilomètres. Vous ne penserez probablement pas beaucoup à la distance dans la prise d'une décision concernant le travail à prendre. Maintenant, supposons que vous ayez le choix entre un travail situé à cinq kilomètres et un autre situé à vingt kilomètres. Dans ce cas, la distance devient une impédance supérieure et peut être comptée dans votre prise de décision. Utilisez cette méthode lorsque vous souhaitez maintenir l'échelle d'analyse fixe mais ne souhaitez pas imposer des limites nettes sur les entités voisines à inclure dans les calculs d'entité cible.

Contiguïté des polygones (de premier ordre)

Pour les classes d'entités surfaciques, vous pouvez sélectionner CONTIGUITY_EDGES_ONLY (parfois appelé "Rook's Case") ou CONTIGUITY_EDGES_CORNERS (parfois appelé "Queen's Case"). Dans le cas de EDGES_ONLY, les polygones qui partagent une limite (dont des limites coïncident) sont inclus dans les calculs du polygone cible. Les polygones qui ne partagent aucun tronçon sont exclus des calculs d'entité cible. Pour EDGES_CORNERS, les polygones qui partagent une $$$limite et/ou un coin sont inclus dans les calculs pour le polygone cible. Si deux polygones se chevauchent en partie, ils sont considérés comme étant voisins et sont inclus dans leurs calculs réciproques. Utilisez l'une de ces conceptualisations de contiguïté avec les entités surfaciques dans les cas où vous modélisez un type de processus contagieux ou gérez des données continues représentées sous forme de polygones.

K voisins les plus proches

Les relations de voisinage peuvent également être conçues de sorte que chaque entité soit évaluée dans le contexte spatial du nombre spécifié de ses voisins les plus proches. Si K (nombre de voisins) est 8, les huit voisins les plus proches de l'entité cible sont inclus dans les calculs pour cette entité. Dans les emplacements où la densité d'entités est élevée, le contexte spatial de l'analyse est plus réduit. De même, dans les emplacements où la densité d'entités est réduite, le contexte spatial pour l'analyse est plus grand. Un avantage de ce modèle de relations spatiales est qu'il garantit la présence de voisins pour chaque entité cible, même lorsque les densités d'entités présentent des variations importantes sur l'ensemble de la zone d'étude. Cette méthode est disponible à l'aide de l'outil Générer la matrice de pondérations spatiales. L'option K_NEAREST_NEIGHBORS avec une valeur de 8 pour le paramètre Nombre de voisins est la conceptualisation par défaut utilisée avec la Régression exploratoire pour évaluer les valeurs résiduelles de régression.

Triangulation de Delaunay (voisins naturels)

L'option Triangulation de Delaunay construit des voisins en créant des triangles de Voronoi à partir d'entités ponctuelles ou de centroïdes d'entité de manière à ce que chaque point/centroïde soit un nœud de triangle. Les nœuds connectés par un côté de triangle sont considérés voisins. L'utilisation de la triangulation de Delaunay garantit que chaque entité possède au moins un voisin, même si les données incluent des îles et/ou des densités d'entités très variables. N'utilisez pas la triangulation de Delaunay si certaines entités coïncident. Cette méthode est disponible à l'aide de l'outil Générer la matrice de pondérations spatiales.

Graphique de triangulation de Delaunay

Fenêtre spatio-temporelle

Cette option permet de définir des relations entre entités en termes de fenêtres d'espace (distance constante) et de temps (intervalle temporel constant). Cette option est disponible quand vous créez un fichier de matrice de pondérations spatiales à l'aide de l'outil Générer la matrice de pondérations spatiales. Lorsque vous sélectionnez l'option SPACE_TIME_WINDOW, vous devez spécifier une valeur pour les paramètres suivants : Champ de date/heure, Type d'intervalle de date/heure (HOURS, DAYS, ou MONTHS, par exemple) et Valeur d'intervalle de date/heure. La valeur d'intervalle est un entier. Si, par exemple, vous avez sélectionné HOURS comme type d'intervalle et 3 comme valeur d'intervalle, deux entités seront considérées comme voisines si les valeurs de leur champ de date/heure ont moins de trois heures d'écart. Avec cette conceptualisation, les entités sont voisines si elles se trouvent dans la limite de distance spécifiée et si elles sont comprises dans l'intervalle de temps spécifié de l'entité cible. Par exemple, vous sélectionnerez le paramètre Conceptualisation de relations spatiales de l'option 1SPACE_TIME_WINDOW si vous voulez créer un fichier de matrice de pondérations spatiales à utiliser avec l'outil Hot_Spot_Analysis afin d'identifier les hots spots spatio-temporels. Pour obtenir des informations supplémentaires, dont la procédure à suivre pour visualiser les résultats, consultez la rubrique Analyse spatio-temporelle.

Extraction des pondérations spatiales à partir d'un fichier (relations spatiales définies par l'utilisateur)

Vous pouvez créer un fichier où stocker les relations de voisinage d'une entité à l'aide de l'outil Générer la matrice de pondérations spatiales ou de l'outil Générer les pondérations spatiales de réseau. Si vous souhaitez définir des relations spatiales à l'aide de la durée ou du coût des trajets dérivés à partir d'un jeu de données réseau, créez un fichier de matrice de pondérations spatiales à l'aide de l'outil Générer les pondérations spatiales de réseau, puis utilisez le fichier SWM résultant pour vos analyses. Si les relations spatiales pour vos entités sont définies dans une table, vous pouvez utiliser l'outil Générer la matrice de pondérations spatiales pour convertir cette table en fichier de matrice de pondérations spatiales (.SWM). Vous devez inclure des champs particuliers dans votre table afin d'utiliser l'option CONVERT_TABLE pour obtenir un fichier SWM. Vous pouvez également fournir un chemin d'accès à un fichier texte ASCII formaté qui définit votre propre conceptualisation personnalisée des relations spatiales (basée sur l'interaction spatiale, par exemple).

Sélection d'une conceptualisation de relations spatiales : meilleures pratiques

Plus la modélisation de l'interaction des entités dans l'espace est réaliste, plus les résultats sont précis. Le choix du paramètre Conceptualisation de relations spatiales doit refléter les relations inhérentes entre les entités que vous analysez. Parfois votre choix peut également être influencé par les caractéristiques de vos données.

Par exemple, les méthodes d'inverse de la distance sont très appropriées avec les données continues ou pour la modélisation de processus où plus deux entités sont proches dans l'espace, plus elles risquent de présenter une interaction/influence entre elles. Avec cette conceptualisation spatiale, chaque entité est potentiellement une voisine de chaque autre entité et avec des jeux de données importants, le nombre de calculs impliqués est énorme. Essayez de toujours inclure une valeur Canal distance ou distance seuil lors de l'utilisation des conceptualisations d'inverse de la distance. Ceci est particulièrement important pour les jeux de données volumineux. Si vous laissez vierge le paramètre Canal distance ou distance seuil, une distance seuil est calculée automatiquement, mais ce n'est pas nécessairement la meilleure distance appropriée pour votre analyse ; le seuil de distance par défaut correspond à la distance minimale qui garantit que chaque entité présente au moins un voisin.

La méthode Canal de distance constante est recommandée pour les données ponctuelles. C'est l'option par défaut utilisée par l'outil Hot Spot Analysis (Getis-Ord Gi*). Cette méthode fonctionne bien pour des données surfaciques lorsque la taille des polygones est très variable (polygones très grands à la limite de la zone d'étude et polygones très petits en son centre, par exemple) et que vous voulez garantir une échelle d'analyse constante. Vous trouverez ci-dessous, dans la rubrique Sélection d'une distance constante, les stratégies permettant de déterminer une valeur de canal de distance appropriée pour votre analyse.

La conceptualisation de zone d'indifférence fonctionne bien lorsque l'option Distance constante est appropriée, mais l'imposition de limites nettes sur les relations de voisinage ne correspond pas à une représentation précise de vos données. N'oubliez pas que le modèle conceptuel Zone d'indifférence considère chaque entité comme un voisin de chaque autre entité. Cette option n'est donc pas adaptée aux jeux de données volumineux puisque la valeur Canal distance ou distance seuil fournie ne limite pas le nombre de voisins, mais spécifie uniquement où l'intensité des relations spatiales commence à décroître.

Les conceptualisations de contiguïté des polygones sont efficaces si les polygones sont de taille et de distribution similaires et que les relations spatiales sont une fonction de la proximité des polygones (si deux polygones partagent une limite, leur interaction spatiale augmente). Lorsque vous sélectionnez une conceptualisation de contiguïté des polygones, vous souhaitez presque toujours sélectionner la standardisation par lignes pour les outils qui disposent du paramètre Standardisation de ligne.

L'option K voisins les plus proches est efficace lorsque vous souhaitez garantir un nombre minimal de voisins pour l'analyse. Surtout lorsque les valeurs associées à vos entités sont désaxées (non distribuées normalement), il est important que chaque entité soit évaluée dans le contexte d'au moins huit voisins (règle empirique uniquement). Lorsque la distribution de vos données varie dans l'ensemble de votre zone d'étude de manière que certaines entités sont éloignées de toutes les autres entités, cette méthode fonctionne bien. Toutefois, notez que le contexte spatial de votre analyse change en fonction des variations de rareté/densité de vos entités. Lorsque la détermination de l'échelle d'analyse est moins importante que la résolution du nombre de voisins, la méthode des k voisins les plus proches est appropriée.

Certains analystes considèrent la triangulation de Delaunay comme une méthode permettant de construire des voisins naturels pour un ensemble d'entités. Cette méthode est une bonne option lorsque vos données comprennent des polygones d'îlot (polygones isolés qui ne partagent aucune limite avec d'autres polygones) ou dans les cas de distribution spatiale très irrégulière des entités. Elle n'est cependant pas appropriée si certaines de vos entités coïncident. De manière similaire à la méthode des k voisins les plus proches, la triangulation de Delaunay garantit que chaque entité dispose d'un voisin au minimum mais utilise la distribution des données proprement dite pour déterminer le nombre de voisins attribués à chaque entité.

Les paramètres de l'option Fenêtre spatio-temporelle permettent de définir des relations entre entités en termes de proximité spatiale et de proximité temporelle. Vous utiliserez cette option pour identifier les hots spots spatiaux-temporels ou créer des groupes pour lesquels l'appartenance a été contrainte par la proximité spatiale et temporelle. Vous trouverez des exemples d'analyse spatio-temporelle, ainsi que des stratégies de représentation efficace des résultats de ce type d'analyse, dans la rubrique Analyse spatio-temporelle.

Pour certaines applications, il est préférable de modéliser l'interaction spatiale en termes de temps de trajet ou distance de trajet. Si vous modélisez l'accessibilité aux services urbains, par exemple, ou recherchez des hot spots des infractions urbaines, la modélisation de relations spatiales en termes de réseau est une bonne option. Utilisez l'outil Générer les pondérations spatiales de réseau pour créer un fichier de matrice de pondérations spatiales (SWM) avant l'analyse, sélectionnez GET_SPATIAL_WEIGHTS_FROM_FILE pour votre valeur Conceptualisation de relations spatiales, puis pour le paramètre Fichier de matrice de pondérations, indiquez le chemin d'accès complet au fichier SWM que vous avez créé.

AstuceAstuce:

Le site ESRI Data & Maps, gratuit pour les utilisateurs d'ArcGIS, contient des données StreetMap comprenant un jeu de données réseau préconçu au format SDC. La couverture de ce jeu de données correspond aux Etats-Unis et au Canada. Ces jeux de données réseau peuvent être utilisés directement par l'outil Générer les pondérations spatiales de réseau.

Si aucune option du paramètre Conceptualisation de relations spatiales n'est adaptée à votre analyse, vous pouvez créer un fichier texte ASCII ou une table incluant les relations d'entité à entité et les utiliser pour créer un fichier de matrice de pondérations spatiales. Si l'une des options ci-dessus est presque parfaite pour vos besoins, utilisez l'outil Générer la matrice de pondérations spatiales pour créer un fichier SWM de base puis modifiez votre fichier de matrice de pondérations spatiales.

Sélection d'une valeur de canal de distance constante

Considérez le canal distance constante sélectionné comme une fenêtre mobile qui s'arrête momentanément sur chaque entité et l'examine dans le contexte de ses voisins. Il existe plusieurs directives pour vous aider à identifier un canal distance approprié pour l'analyse :

  • Sélectionnez une distance selon vos informations concernant l'étendue géographique des processus spatiaux qui favorisent l'agrégation pour les phénomènes étudiés. Cette information est rarement connue, mais le cas échéant vous devez utiliser votre connaissance pour sélectionner une valeur de distance. Par exemple, supposons que vous savez que la distance moyenne du trajet jusqu'au lieu de travail est de 15 km. L'utilisation de 15 km pour le canal distance est une bonne stratégie pour l'analyse des données d'utilisation des transports publics par les travailleurs.
  • Utilisez un canal de distance suffisamment grand pour garantir que toutes les entités aient au moins un voisin, sinon les résultats ne seront pas valides. Surtout si les données en entrée sont désaxées (ne créent pas une belle courbe en cloche lorsque vous tracez les valeurs sous forme d'histogramme), il est conseillé de vous assurer que le canal de distance est ni trop petit (la plupart des entités ont uniquement un ou deux voisins) ni trop grand (plusieurs entités comprennent toutes les autres entités en tant que voisins), car cela rendrait les scores Z résultants moins fiables. Les scores z sont fiables (même avec des données biaisées) tant que le canal de distance est suffisamment grand pour garantir plusieurs voisins (environ huit) pour chaque entité. Même si aucune des entités n'a toutes les autres entités comme voisins, vous risquez de rencontrer des problèmes de performances et même éventuellement de mémoire insuffisante si vous créez un canal de distance où les entités ont des milliers de voisins.
  • En vous assurant que toutes les entités ont au moins un voisin, vous risquez d'obtenir des entités associées à des milliers de voisins, ce qui n'est pas souhaitable. Cela peut se produire si certaines de vos entités sont des points spatiaux aberrants. Pour résoudre ce problème, déterminez une valeur de canal de distance appropriée pour tous les points sauf les points spatiaux aberrants et utilisez l'outil Generate_Spatial_Weights_Matrix pour créer un fichier de matrice de pondérations spatiales utilisant cette distance. Toutefois, lorsque vous exécutez l'outil Générer la matrice de pondérations spatiales, spécifiez une valeur minimale pour le paramètre Nombre de voisins. Supposons, par exemple, que vous évaluiez l'accès à une alimentation saine dans le comté de Los Angeles à l'aide des données des secteurs de recensement. Vous savez que plus de 90 pour cent de la population vit dans un rayon de trois kilomètres des commerces. En analysant les secteurs de recensement, vous constatez que la distance entre les secteurs (basée sur les centroïdes de ces derniers) dans le centre-ville est d'environ 1 000 mètres en moyenne, alors que dans les zones périphériques, cette distance est supérieure à 18 000 mètres. Pour garantir que chaque entité a au moins un voisin, votre canal de distance devrait être supérieur à 18 000 mètres, et cette échelle d'analyse (distance) n'est pas adaptée aux questions que vous posez. La solution consiste à créer un fichier de matrice de pondérations spatiales pour la classe d'entités des secteurs de recensement à l'aide de l'outil Generate_Spatial_Weights_Matrix. Spécifiez 4 800 mètres comme valeur du paramètre Distance seuil et une valeur minimale (2, par exemple) pour le paramètre Nombre de voisins. Cela appliquera une distance de voisinage fixe de 4 800 mètres à toutes les entités sauf à celles qui n'ont pas au moins deux voisins en utilisant cette distance. Pour les entités aberrantes (et pour elles seulement), la distance sera augmentée juste assez pour garantir que chacune d'elles a au moins deux voisins.
  • Utilisez un canal distance qui reflète l'auto-corrélation spatiale maximale. Dès lors que vous remarquez une agrégation spatiale sur le paysage, vous observez la preuve du fonctionnement de processus spatiaux sous-jacents. Le canal de distance qui présente l'agrégation maximale, mesurée par l'outil Autocorrélation spatiale incrémentielle, est la distance où ces processus spatiaux sont les plus actifs ou prononcés. Exécutez l'outil Autocorrélation spatiale incrémentielles et notez où les scores z obtenus semblent atteindre un pic. Utilisez la distance associée à la valeur de pointe pour votre analyse.
    RemarqueRemarque :

    Indiquez les valeurs de distance avec les mêmes unités que celles spécifiées par le système de coordonnées en sortie de l'environnement de géotraitement.

    • Chaque pic représente une distance où les processus qui favorisent l'agrégation spatiale sont prononcés. Il est courant d'observer plusieurs pics. En général, les pics associés aux plus grandes distances reflètent des tendances générales (une tendance générale d'est en ouest, par exemple, où l'ouest est un hot spot géant et l'est, un cold spot géant). Vous vous intéresserez normalement le plus aux pics associés aux plus petites distances ; il s'agit souvent du premier.
    • Un pic discret signifie souvent la présence de nombreux processus spatiaux différents, actifs à différentes échelles spatiales. Vous souhaitez probablement rechercher d'autres critères pour déterminer la distance constante à utiliser pour votre analyse (peut-être la distance la plus efficace pour la remédiation).
    • Si le score Z n'atteint jamais de maximum (en d'autres termes, il continue juste à augmenter) et si vous utilisez des données agrégées (par exemple des départements), cela signifie habituellement que la structure d'agrégation est trop grossière ; les processus spatiaux d'intérêt fonctionnent à une échelle plus petite que l'échelle de vos unités d'agrégation. Si vous pouvez passer à une plus petite échelle d'analyse (basculement des départements aux secteurs, par exemple), cela peut aider à déterminer une distance de pointe. Si vous travaillez sur des données ponctuelles et si les scores z ne présentent jamais de pics, c'est qu'il existe de nombreux processus spatiaux différents fonctionnant à diverses échelles spatiales et vous devrez probablement trouver des critères différents pour déterminer la distance constante à utiliser dans votre analyse. Lorsque vous utilisez l'outil Autocorrélation spatiale incrémentielle, vérifiez si la valeur du paramètre Distance de départ n'est pas trop élevée.
    • Si vous ne spécifiez pas de distance de départ, l'outil Autocorrélation spatiale incrémentielle utilise la distance permettant d'assurer que toutes les entités ont au moins un voisin. Si vos données incluent des points spatiaux aberrants, cette distance risque cependant d'être trop élevée pour votre analyse et peut être la raison de l'absence de pic prononcé dans le Fichier de rapport en sortie. Pour remédier à ce problème, exécutez l'outil Autocorrélation spatiale incrémentielle sur un jeu de sélection excluant temporairement tout les points spatiaux aberrants. Si, lorsque les points aberrants sont exclus, vous trouvez un pic, utilisez la stratégie détaillée ci-dessus avec ce pic de distance appliqué à toutes vos entités (points aberrants spatiaux inclus) et forcez chaque entité à avoir au moins un ou deux voisins. Si vous ne savez pas si certaines de vos entités sont des points aberrants spatiaux:
      • Pour les données surfaciques, effectuez le rendu des surfaces de polygone à l'aide d'un schéma de rendu d'écart type et considérez les polygones dont les surfaces sont supérieures à trois écarts type comme étant des points aberrants spatiaux. Vous pouvez utiliser l'option Calculer un champ ou Calculateur de géométrie pour créer un champ avec des surfaces de polygones si vous n'en n'avez pas déjà un.
      • Pour les données ponctuelles, utilisez l'outil Proche pour calculer la distance du voisin le plus proche pour chaque entité. Pour ce faire, définissez votre jeu de données ponctuelles comme valeur des paramètres Entités en entrée et Entités de proximité. Une fois que vous disposez d'un champ avec des distances de voisin le plus proche, représentez ces valeurs à l'aide d'un schéma de rendu d'écart type et considérez les distances qui sont supérieures à trois écarts type comme étant des points aberrants spatiaux.
    Graphique illustrant l'autocorrélation spatiale incrémentielle
  • Essayez de ne pas vous focaliser sur l'idée qu'il existe un seul canal distance correct. La réalité n'est jamais aussi simple. Il existe très probablement des processus spatiaux multiples/en interaction qui favorisent l'agrégation observée. Plutôt que de penser que vous avez besoin d'un canal distance, considérez les outils d'analyse de structure en tant que méthodes efficaces pour l'exploration de relations spatiales à plusieurs échelles spatiales. Considérez que lorsque vous modifiez l'échelle (modifiez la valeur de canal distance), vous pourriez poser une question différente. Supposez que vous observez des données de revenu. Avec des canaux de distance réduits, vous pouvez examiner des structures de revenu du voisinage, les distances d'échelle moyenne peuvent refléter les structures de revenu de la communauté ou de la ville et les plus grands canaux distance mettraient en valeur des structures de revenu régionales générales.

Méthode de calcul de distance

De nombreux outils de la boîte à outils de statistiques spatiales utilisent la distance dans leurs calculs. Ces outils vous permettent de choisir entre les distances euclidiennes ou de Manhattan.

D = sq root [(x1–x2)**2.0 + (y1–y2)**2.0]

où (x1, y1) sont les coordonnées du point A, (x2, y2) les coordonnées du point B et D est la distance en ligne droite entre les points A et B.

Distance euclidienne
D = abs(x1–x2) + abs(y1–y2)

où (x1, y1) sont les coordonnées du point A, (x2, y2) les coordonnées du point B et D est la différence verticale et horizontale entre les points A et B. Il s'agit de la distance que vous devez parcourir si vous êtes limité à voyager uniquement dans les directions nord-sud et est-ouest. Cette méthode est généralement plus appropriée que la distance euclidienne lorsque le déplacement est limité à un réseau routier et lorsque les coûts de déplacement réels du réseau routier ne sont pas disponibles.

Distance de Manhattan

Potentiel propre (champ indiquant la pondération intrazonale)

Plusieurs outils de la boîte à outils de statistiques spatiales vous permettent de fournir un champ qui représente la pondération à utiliser pour le potentiel propre. Le potentiel propre représente la distance ou la pondération entre une entité et elle-même. Cette pondération est souvent égale à zéro, mais, dans certains cas, il se peut que vous deviez spécifier une autre valeur fixe ou une valeur différente pour chaque entité. Si votre conceptualisation de relations spatiales est basée sur les distances parcourues dans et parmi les secteurs de recensement, par exemple, vous pouvez décider de modéliser le potentiel propre pour refléter les coûts de déplacement intrazonaux moyens selon la taille de polygone :

dii = 0.5*[(Ai / π)**0.5]

où dii est le coût de déplacement associé au trajet intrazonal pour l'entité surfaciquei et Ai est la surface associée à l'entité surfaciquei.

Standardisation

La standardisation par lignes est recommandée chaque fois que la répartition de vos entités est potentiellement influencée par la conception de l'échantillonnage ou un plan d'agrégation imposé. Lorsque la standardisation par lignes est sélectionnée, chaque pondération est divisée par la somme des lignes (la somme des pondérations de toutes les entités voisines). La pondération standardisée des lignes est souvent utilisée avec les voisinages de distance constante et presque toujours pour les voisinages basés sur la contiguïté des polygones. Ceci est destiné à atténuer le biais lié aux entités ayant des nombres différents de voisins. La standardisation par lignes met à l'échelle toutes les pondérations pour les placer entre 0 et 1, en créant une structure de pondération relative plutôt qu'absolue. Dès lors que vous travaillez avec des entités surfaciques qui représentent des frontières administratives, il est conseillé de choisir l'option Standardisation par lignes.

Exemples :

Canal distance ou distance seuil

Canal distance ou distance seuil définit l'échelle d'analyse pour la plupart des conceptualisations de relations spatiales (par exemple, Distance inverse, Canal de distance constante). Il s'agit d'une valeur numérique positive qui représente une distance limite. Les entités se trouvant à l'extérieur de la limite spécifiée pour une entité cible ne sont pas prises en compte dans l'analyse pour cette entité. Cependant, pour Zone d'indifférence, l'influence des entités situées hors de la distance donnée est réduite par rapport à la proximité, tandis que les entités se trouvant dans le seuil de distance sont considérées à part égale.

Il est important de choisir une distance appropriée. Certaines statistiques spatiales nécessitent que chaque entité ait au moins un voisin pour que l'analyse soit fiable. Si la valeur que vous définissez pour Canal distance ou distance seuil est trop petite (certaines entités n'ont pas de voisins), un message d'avertissement vous invite à réessayer avec une valeur de distance supérieure. L'outil Calculer la bande de distance à partir du nombre de voisins calcule la distance minimale, moyenne et maximale pour un nombre spécifié de voisins et peut vous aider à déterminer une valeur de canal distance appropriée à utiliser pour l'analyse. Reportez-vous également à la rubrique Sélection d'une valeur de canal distance constante pour plus de conseils.

En l'absence de valeur spécifiée, une distance seuil par défaut est calculée. La table ci-dessous indique le comportement de différents choix du paramètre Conceptualisation de relations spatiales pour chacun de trois types d'entrée possibles (les valeurs négatives ne sont pas valides) :

Distance inverse, Inverse de la distance au carré

Canal de distance constante, Zone d'indifférence

Contiguïté des polygones, Triangulation de Delaunay, K voisons les plus proches

0

Aucun seuil ou limite n'est appliqué ; les entités sont toutes voisines entre elles.

Invalide. Une erreur d'exécution est générée.

Ignoré.

vide

Une distance par défaut est calculée. Cette valeur par défaut est la distance minimale permettant de garantir que chaque entité présente au moins un voisin.

Une distance par défaut est calculée. Cette valeur par défaut est la distance minimale permettant de garantir que chaque entité présente au moins un voisin.

Ignoré.

nombre positif

La valeur différente de zéro, positive spécifiée est utilisée en tant que distance limite ; les relations de voisinage existent uniquement entre les entités situées au maximum à cette distance l'une de l'autre.

Pour Canal de distance constante, seules les entités situées dans cette limite spécifiée l'une de l'autre sont voisines. Pour Zone d'indifférence, les entités situées dans cette limite spécifiée l'une de l'autre sont voisines ; les entités à l'extérieur de la limite sont également voisines, mais reçoivent une pondération/influence de plus en plus réduite avec l'éloignement.

Ignoré.

Options de canal distance

Nombre de voisins

Spécifiez un nombre entier positif pour représenter le nombre de voisins à inclure dans l'analyse pour chaque entité cible. Lorsque la valeur choisie pour le paramètre Conceptualisation de relations spatiales est K voisins les plus proches, chaque entité cible est évaluée dans le contexte des K entités les plus proches (où K est le nombre de voisins spécifié). Pour le paramètre Distance inverse ou Canal de distance constante, lorsque vous exécutez l'outil Generate_Spatial_Weights_Matrix, spécifiez une valeur pour le paramètre Nombre de voisins pour que chaque entité ait un minimum de K voisins. Dans le cas de la méthode de contiguïté polygonale, la valeur spécifiée pour Nombre de voisins est appliquée uniquement aux polygones d'îles : les K polygones les plus proches de chaque polygone d'île cible sont considérés comme étant voisins pour l'analyse. Pour l'outil Generate_Spatial_Weights_Matrix, spécifiez une valeur pour le paramètre Nombre de voisins maximal afin qu'aucune entité n'ait davantage de voisins que la valeur spécifiée. Pour l'outil Analyse des regroupements, spécifiez une valeur pour le paramètre Nombre de voisins afin d'encourager la proximité des entités dans chaque groupe. En spécifiant 6 voisins, par exemple, vous limitez les groupes à des entités partageant au moins un des six voisins les plus proches avec d'autres entités du groupe.

Fichier de matrice de pondérations

Plusieurs outils vous permettent de définir des relations spatiales entre entités en fournissant un chemin d'accès à un fichier de matrice de pondérations spatiales. Les pondérations spatiales sont des nombres qui reflètent la distance, le temps ou un autre coût entre chaque entité et chaque autre entité dans le jeu de données. Le fichier de matrice de pondérations spatiales peut être créé à l'aide de l'outil Générer la matrice de pondérations spatiales ou Générer les pondérations spatiales de réseau, ou ce peut être un simple fichier ASCII.

Lorsque le fichier de matrice de pondérations spatiales est un simple fichier texte ASCII, la première ligne doit correspondre au nom d'un champ ID unique. Cela vous donne la souplesse d'utiliser un champ numérique quelconque dans votre jeu de données comme identifiant lors de la génération de ce fichier ; toutefois, le champ d'identifiant doit être de type INTEGER et présenter des valeurs uniques pour chaque entité. Après la première ligne, le fichier de pondérations spatiales doit être mis en forme dans trois colonnes :

Par exemple, supposons que vous disposez de trois stations service. Le champ que vous utilisez en tant que champ d'identifiant est appelé StationID, et les identifiants d'entité sont 1, 2 et 3. Vous souhaitez modéliser des relations spatiales entre ces trois stations service à l'aide du temps de trajet en minutes. Vous pouvez créer un fichier ASCII qui présente l'aspect suivant :

Fichier ASCII

En général, lorsque des pondérations représentent une distance ou une durée, elles sont inversées (par exemple 1/10 lorsque la distance est 10 km ou 10 minutes), afin que les entités plus proches aient une pondération supérieure aux entités plus éloignées. Remarquez à partir des pondérations ci-dessus que la station service 1 est située à 10 minutes de la station service 2. Observez également que le temps de trajet n'est pas symétrique dans cet exemple (le déplacement de la station service 1 à la station service 3 dure 7 minutes, mais l'inverse dure uniquement 6 minutes). Remarquez que la pondération entre la station service 1 et elle-même est de 0 et qu'il n'existe aucune entrée pour la station service 2 à elle-même. Les entrées manquantes sont supposées avoir une pondération de 0.

La saisie des valeurs pour le fichier de matrice de pondérations spatiales peut être une tâche ennuyante à souhait, même pour les petits jeux de données. Une meilleure approche consiste à utiliser l'outil Générer la matrice de pondérations spatiales ou à écrire un script Python rapide permettant d'effectuer cette tâche à votre place.

Fichier de matrice de pondérations spatiales (.swm)

Les outils Générer la matrice de pondérations spatiales et Générer les pondérations spatiales de réseau créent un fichier de matrice de pondérations spatiales (SWM) qui définit les relations spatiales entre toutes les entités de votre jeu de données en fonction des paramètres que vous spécifiez. Ce fichier est créé en format binaire afin que les valeurs qu'il contient ne puissent pas être vues directement. Pour consulter ou modifier les relations entre entités dans un fichier SWM, utilisez l'outil Convert_Spatial_Weights_Matrix_to_Table.

Si les relations spatiales entre entités sont stockées dans une table, vous pouvez utiliser l'outil Générer la matrice de pondérations spatiales pour convertir cette table en fichier de matrice de pondérations spatiales (SWM). La table nécessite les champs suivants :

Nom du champ

Description

<Nom de champ d'identifiant unique>

Champ de nombre entier qui existe dans la classe d'entités en entrée avec un identifiant unique pour chaque entité. Il s'agit de l'identifiant d'entité de départ.

NID

Champ de nombre entier qui contient les identifiants des entités voisines. Il s'agit de l'identifiant d'entité d'arrivée.

WEIGHT

Pondération numérique qui quantifie la relation spatiale entre les entités de départ et d'arrivée. Les valeurs plus importantes reflètent une pondération et influence (ou interaction) supérieure entre deux entités.

Champs de table requis

Partage de fichiers de matrice de pondérations spatiales

La sortie des outils Générer la matrice de pondérations spatiales et Générer les pondérations spatiales de réseau est un fichier SWM. Ce fichier est lié à la classe d'entités en entrée, au champ d'ID unique et aux paramètres du système de coordonnées en sortie lors de la création du fichier SWM. D'autres personnes peuvent dupliquer les relations spatiales que vous définissez pour l'analyse à l'aide de votre fichier SWM et de la même classe d'entités en entrée ou d'une classe d'entités liant toutes les entités (ou un sous-ensemble de celles-ci) à un champ d'ID unique identique. Essayez d'éviter que votre système de coordonnées en sortie ne diffère de la référence spatiale associée à votre classe d'entités en entrée, particulièrement si vous projetez de partager vos fichiers SWM avec d'autres personnes. Une meilleure stratégie consiste à projeter la classe d'entités en entrée, puis à définir le système de coordonnées en sortie sur Identique à classe d'entités en entrée avant de créer des fichiers de matrice de pondérations spatiales.

Thèmes connexes

9/13/2013