Analyse de grappe spatiale multi-distances (fonction K de Ripley) (Statistiques spatiales)
Récapitulatif
Détermine si les entités, ou les valeurs associées aux entités, présentent une agrégation statistiquement significative ou une dispersion sur une plage de distances.
Pour en savoir plus sur la fonction Analyse de grappe spatiale multi-distances
Illustration
Utilisation
-
Cet outil nécessite des données projetées pour mesurer précisément les distances.
-
L'outil génère une table dotée des champs ExpectedK et ObservedK, qui contiennent les valeurs K attendues et observées, respectivement. La transformation L(d) étant appliquée, les valeurs ExpectedK seront toujours égales à la valeur de la distance. Le champ DiffK contient les valeurs K observées moins les valeurs K attendues. Si une option d'intervalle de confiance est spécifiée, deux champs supplémentaires nommés LwConfEnv et HiConfEnv sont également inclus dans la table en sortie. Ces champs contiennent des informations sur l'intervalle de confiance de chaque itération de l'outil, comme indiqué par le paramètre Nombre de bandes de distance. La fonction K peut également créer une couche de diagramme récapitulant les résultats.
-
Lorsque la valeur K observée est plus grande que la valeur K attendue pour une distance particulière, la distribution est plus agrégée qu'une distribution aléatoire à cette distance (échelle d'analyse). Lorsque la valeur K observée est plus petite que la valeur K attendue, la distribution est plus dispersée qu'une distribution aléatoire à cette distance. Lorsque la valeur K observée est plus grande que la valeur HiConfEnv, l'agrégation spatiale pour cette distance est statistiquement significative. Lorsque la valeur K observée est plus petite que la valeur LwConfEnv, la dispersion spatiale pour cette distance est statistiquement significative. Vous trouverez des informations complémentaires sur l'interprétation à la rubrique Fonctionnement de l'analyse de grappe spatiale multi-distances (fonction K de Ripley).
Activez le paramètre Afficher les résultats de manière graphique pour créer un diagramme linéaire récapitulant les résultats de l'outil. Les résultats attendus sont représentés par une ligne bleue, tandis que les résultats observés sont illustrés par une ligne rouge. L'écart entre la ligne observée (au-dessus) et la ligne attendue indique que le jeu de données présente une agrégation à cette distance. L'écart entre la ligne observée (au-dessous) et la ligne attendue indique que le jeu de données présente une dispersion à cette distance. Le diagramme linéaire est créé sous la forme d'une couche de diagramme. Les couches de diagramme sont temporaires et sont supprimées lorsque vous fermez ArcMap. Si vous cliquez à l'aide du bouton droit sur la couche de diagramme, puis sélectionnez Enregistrer, le diagramme peut être écrit dans un fichier de diagramme. Si vous enregistrez votre document ArcMap après avoir enregistré votre diagramme, un lien vers le fichier de diagramme est enregistré avec votre document .mxd. Pour plus d'informations sur les fichiers de diagramme, reportez-vous à la rubrique Exploration et visualisation des données avec des diagrammes.
-
Pour les entités linéaires et surfaciques, les centroïdes d'entité sont utilisés dans les calculs de distance. Pour les multi-points, les polylignes ou les polygones comprenant plusieurs parties, le centroïde est calculé à l'aide du centre moyen pondéré de toutes les parties d'entité. La pondération pour les entités ponctuelles est de 1 ; pour les entités linéaires, elle correspond à la longueur et pour les entités surfaciques, à la superficie.
-
Le champ de pondération convient parfaitement pour représenter le nombre d'incidents.
-
Si aucun Champ de pondération n'est spécifié, la valeur DiffK la plus élevée indique à quelle distance les processus spatiaux favorisant l'agrégation sont les plus prononcés.
-
Vous trouverez ci-dessous des explications sur le calcul de l'enveloppe de confiance :
- Aucun Champ de pondération
Si aucun Champ de pondération n'est spécifié, l'enveloppe de confiance est construite en distribuant aléatoirement des points dans la zone d'étude et en calculant L(d) pour cette distribution. Chaque distribution aléatoire des points est appelée "permutation". Si 99 permutations sont sélectionnées par exemple, l'outil distribue aléatoirement l'ensemble de points 99 fois pour chaque itération. Après avoir distribué les points 99 fois, l'outil sélectionne pour chaque distance la valeur k observée ayant présenté l'écart le plus important au-dessus et au-dessous de la valeur k attendue ; ces valeurs deviennent l'intervalle de confiance.
- Incluant un Champ de pondération
Lorsqu'un champ de pondération est spécifié, seules les valeurs de pondération sont redistribuées aléatoirement pour calculer des enveloppes de confiance ; les emplacements des points restent fixes. Essentiellement, lorsqu'un champ de pondération est spécifié, les emplacements restent fixes et l'outil évalue l'agrégation des valeurs d'entité dans l'espace. D'un autre côté, si aucun champ de pondération n'est spécifié, l'outil analyse l'agrégation/la dispersion des emplacements des entités.
- Aucun Champ de pondération
Comme l'enveloppe de confiance est créée à partir de permutations aléatoires, les valeurs qui la définissent changent d'une exécution à l'autre, même lorsque les paramètres sont identiques. Toutefois, si vous définissez une valeur initiale pour l'environnement de géotraitement Générateur de nombres aléatoires, des analyses répétées génèrent des résultats cohérents.
-
Le nombre des permutations sélectionnées pour le paramètre Calculer l'enveloppe de confiance peut être converti en niveaux de confiance : 9 pour 90 %, 99 pour 99 % et 999 pour 99,9 %.
-
Si aucune zone d'étude n'est spécifiée, l'outil utilise un rectangle de délimitation minimal comme polygone de zone d'étude. Contrairement à l'étendue, un rectangle d'encadrement minimum ne s'aligne pas nécessairement sur les axes x et y.
-
La statistique de la fonction K est très sensible à la taille de la zone d'étude. Des dispositions de points identiques peuvent présenter une agrégation ou une dispersion selon la taille de la zone d'étude qui les entoure. Il est par conséquent impératif que les limites de la zone d'étude soient définies avec soin. L'image suivante illustre la façon dont des distributions identiques d'entités peuvent être dispersées ou agrégées selon la zone d'étude spécifiée.
-
Une classe d'entités de zone d'étude est nécessaire si vous avez choisi CLASSE D'ENTITES DE ZONE D'ETUDE PERSONNALISEE pour le paramètre Méthode de la zone d'étude.
-
Si une classe d'entités de la zone d'étude est spécifiée, elle doit comporter exactement une entité en une seule partie (le polygone de zone d'étude).
-
Si aucun paramètre Distance de départ ou Incrément de distance n'est précisé, les valeurs par défaut sont calculées automatiquement en fonction de l'étendue de la classe d'entités en entrée.
-
La fonction K possède un biais de sous-estimation pour les entités situées à proximité de la limite de la zone d'étude. Le paramètre Méthode de correction des bords propose plusieurs méthodes permettant de rectifier ce biais :
- NONE
Aucune correction spécifique n'est appliquée. Toutefois, les points de la classe d'entités en entrée qui se trouvent en dehors de la zone d'étude spécifiée par l'utilisateur sont utilisés pour calculer les nombres de voisins. Cette méthode est appropriée si vous avez collecté des données d'une zone d'étude très vaste et que vous souhaitez uniquement analyser des parties plus petites au sein des limites de la collection de données.
- SIMULER DES VALEURS A L'EXTERIEUR
Cette méthode crée des points en dehors de la limite de la zone d'étude qui mettent en miroir ceux détectés à l'intérieur de la limite afin de corriger les sous-estimations à proximité des tronçons. Les points qui se trouvent à une distance égale à la distance maximale d'un tronçon de la zone d'étude sont mis en miroir. Les points mis en miroir sont utilisés pour estimer plus précisément les voisins des points de tronçon. Le diagramme ci-dessous illustre les points qui seront utilisés dans le calcul et ceux qui seront utilisés uniquement pour la correction des tronçons.
- REDUIRE LA ZONE D'ANALYSE
Cette technique de correction des tronçons réduit la taille de la zone d'analyse selon une distance égale au canal de distance le plus volumineux qui doit être utilisé dans l'analyse. Une fois la zone d'étude réduite, les points détectés en dehors de la nouvelle zone d'étude sont uniquement pris en compte lorsque les nombres de voisins sont évalués pour les points qui se trouvent encore à l'intérieur de la zone d'étude. Ils ne sont utilisés d'aucune autre manière lors du calcul de la fonction K. Le diagramme ci-dessous illustre les points qui seront utilisés dans le calcul et ceux qui seront utilisés uniquement pour la correction des tronçons.
- FORMULE DE CORRECTION DES TRONCONS DE RIPLEY
Cette méthode vérifie la distance de chaque point par rapport au tronçon de la zone d'étude, ainsi que sa distance par rapport à ses voisins. Tous les voisins qui sont plus éloignés du point en question que le tronçon de la zone d'étude reçoivent une pondération supplémentaire. Cette méthode de correction des tronçons convient uniquement aux zones d'étude carrées ou rectangulaires, ou lorsque vous sélectionnez RECTANGLE DE DELIMITATION MINIMAL pour le paramètre Méthode de la zone d'étude.
- NONE
Si aucune correction des limites n'est appliquée, le biais de sous-estimation augmente au fur et à mesure que la distance d'analyse augmente. Si vous activez le paramètre Afficher les résultats de manière graphique, vous remarquerez que la ligne ObservedK s'abaisse aux distances les plus importantes.
-
Mathématiquement, l'outil Analyse de grappe spatiale multi-distances utilise une transformation commune de la fonction K de Ripley, dans laquelle le résultat attendu avec un jeu aléatoire de points est égal à la distance en entrée. La transformation L(d) est illustrée ci-dessous.
où A représente la surface, N est le nombre de points, d, la distance, et k(i, j), la pondération. Si aucune correction des limites n'est appliquée, la pondération est égale à 1 lorsque la distance entre i et j est inférieure ou égale à d ; elle est égale à 0 lorsque la distance entre i et j est supérieure à d. Si la correction des limites est appliquée, la pondération de k(i, j) est légèrement modifiée.
-
Les couches peuvent permettre de définir la classe d'entités en entrée. Lorsque vous utilisez une couche avec une sélection, seules les entités sélectionnées sont comprises dans l'analyse.
Lorsque vous utilisez des fichiers de formes, n'oubliez pas qu'ils ne peuvent pas stocker de valeurs Null. Il se peut que des outils ou autres procédures qui créent des fichiers de formes à partir d'entrées autres que des fichiers de formes stockent ou interprètent des valeurs Null comme étant égales à zéro. Dans certains cas, les valeurs Null sont stockées sous forme de valeurs négatives très élevées dans les fichiers de formes. Cela peut aboutir à des résultats inattendus. Reportez-vous à la rubrique Remarques concernant le géotraitement pour la sortie de fichiers de formes pour plus d'informations.
Syntaxe
Paramètre | Explication | Type de données |
Input_Feature_Class |
La classe d'entités sur laquelle doit porter l'analyse. | Feature Layer |
Output_Table |
La table dans laquelle les résultats de l'analyse doivent être écrits. | Table |
Number_of_Distance_Bands |
Le nombre de fois qu'il convient d'incrémenter la taille du voisinage et d'effectuer une analyse d'agrégation sur le jeu de données. Le point de départ et la taille de l'incrément sont spécifiés par les paramètres Distance de départ et Incrément de distance, respectivement. | Long |
Compute_Confidence_Envelope (Facultatif) |
L'enveloppe de confiance est calculée en plaçant aléatoirement des points d'entités (ou des valeurs d'entités) dans la zone d'étude. Le nombre de points/valeurs placés de manière aléatoire est égal au nombre de points trouvés dans la classe d'entités. Chaque jeu de points aléatoires est désigné sous le nom de "permutation" et l'enveloppe de confiance est créée à partir de ces permutations. Ce paramètre vous permet de spécifier le nombre de permutations à utiliser pour créer l'enveloppe de confiance.
| String |
Display_Results_Graphically (Facultatif) |
| Boolean |
Weight_Field (Facultatif) |
Champ numérique avec des pondérations représentant le nombre d'entités/d'événements à chaque emplacement. | Field |
Beginning_Distance (Facultatif) |
La distance à laquelle doit commencer l'analyse d'agrégat et le point de départ de l'incrément. La valeur de ce paramètre doit être définie dans les mêmes unités que celles du système de coordonnées en sortie. | Double |
Distance_Increment (Facultatif) |
L'incrément de distance à ajouter lors de chaque itération. La distance initialement utilisée dans l'analyse est définie par le paramètre Distance de départ et augmente conformément à la valeur du paramètre Incrément de distance. La valeur de ce paramètre doit être définie dans les mêmes unités que celles du système de coordonnées en sortie. | Double |
Boundary_Correction_Method (Facultatif) |
Méthode à utiliser pour corriger les sous-estimations du nombre de voisins pour les entités proches des tronçons de la zone d'étude.
| String |
Study_Area_Method (Facultatif) |
Spécifie la région à utiliser pour définir la zone d'étude. La fonction K étant sensible aux variations de taille de la zone d'étude, il est important de sélectionner cette valeur avec soin.
| String |
Study_Area_Feature_Class (Facultatif) |
Classe d'entités délimitant la zone sur laquelle la classe d'entités en entrée doit être analysée. A ne spécifier que si vous avez sélectionné l'option Classe d'entités de zone d'étude personnalisée pour le paramètre Méthode de la zone d'étude. | Feature Layer |
Exemple de code
Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil Analyse de grappe spatiale multi-distances.
import arcpy
arcpy.env.workspace = r"C:\data"
arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp","kFunResult.dbf", 11,
"0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE",
"NO_REPORT", "#", 1000, 200,"REDUCE_ANALYSIS_AREA",
"MINIMUM_ENCLOSING_RECTANGLE", "#")
Le script Python autonome suivant illustre l'utilisation de l'outil Analyse de grappe spatiale multi-distances.
# Use Ripley's K-Function to analyze the spatial distribution of 911
# calls in Portland Oregon
# Import system modules
import arcpy
# Set the geoprocessor object property to overwrite existing outputs
arcpy.gp.overwriteOutput = True
# Local variables...
workspace = r"C:\Data"
try:
# Set the current workspace (to avoid having to specify the full path to the feature classes each time)
arcpy.env.workspace = workspace
# Set Distance Band Parameters: Analyze clustering of 911 calls from
# 1000 to 3000 feet by 200 foot increments
numDistances = 11
startDistance = 1000.0
increment = 200.0
# Process: Run K-Function...
kFun = arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp",
"kFunResult.dbf", numDistances,
"0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE",
"NO_REPORT", "#", startDistance, increment,
"REDUCE_ANALYSIS_AREA",
"MINIMUM_ENCLOSING_RECTANGLE", "#")
except:
# If an error occurred when running the tool, print out the error message.
print arcpy.GetMessages()
Environnements
- Système de coordonnées en sortie
La géométrie de l'entité est projetée dans le système de coordonnées en sortie avant l'analyse. Par conséquent, les valeurs entrées pour les paramètres Distance de départ et Incrément de distance doivent correspondre à celles spécifiées dans le système de coordonnées en sortie. Tous les calculs mathématiques sont basés sur la référence spatiale du système de coordonnées en sortie.