Analyse d'agrégat spatial multi-distances (fonction K de Ripley) (Statistiques spatiales)
Récapitulatif
Détermine si les entités ou les valeurs associées aux entités, présentent une agrégation ou une dispersion statistiquement significative à l'intérieur d'une plage de distances.
Pour en savoir plus sur l'outil Analyse d'agrégat spatial multi-distances
Illustration
Utilisation
-
La sortie de l'outil est une table comportant les champs : ExpectedK et ObservedK qui contiennent, respectivement, les valeurs K attendues et observées. La transformation L(d) étant appliquée, les valeurs ExpectedK seront toujours égales à la valeur de la distance. Un champ nommé DiffK contient les valeurs K observées moins les valeurs K attendues. Si une option d'intervalle de confiance est spécifiée, deux champs supplémentaires nommés LwConfEnv et HiConfEnv sont compris dans la Table en sortie. Ces champs contiennent les informations d'intervalle de confiance pour chaque itération de l'outil, comme spécifié par le paramètre Nombre de bandes de distance. La fonction K peut également créer une couche diagramme qui récapitule les résultats.
-
Lorsque la valeur K observée est plus grande que la valeur K attendue pour une distance particulière, la distribution est plus agrégée qu'une distribution aléatoire à cette distance (échelle d'analyse). Lorsque la valeur K observée est plus petite que la valeur K attendue, la distribution est plus dispersée qu'une distribution aléatoire à cette distance. Lorsque la valeur K observée est plus grande que la valeur HiConfEnv, l'agrégation spatiale pour cette distance est statistiquement significative. Lorsque la valeur K observée est plus petite que la valeur LwConfEnv, la dispersion spatiale pour cette distance est statistiquement significative. Pour plus d'informations sur l'interprétation des résultats, consultez la rubrique Analyse d'agrégat spatial multi-distances (fonction K de Ripley).
Activez le paramètre Afficher les résultats de manière graphique pour créer une courbe qui récapitule les résultats de l'outil. Les résultats attendus sont représentés par une ligne bleue et les résultats observés, par une ligne rouge. L'écart de la ligne des valeurs observées au-dessus de la ligne des valeurs attendues indique que le jeu de données présente un phénomène d'agrégation à cette distance. L'écart de la ligne des valeurs observées au-dessous de la ligne des valeurs attendues indique que le jeu de données présente un phénomène de dispersion à cette distance. La courbe est créée en tant que couche diagramme ; les couches diagramme sont temporaires et sont supprimées lorsque vous fermez ArcMap. Si vous cliquez avec le bouton droit sur la couche diagramme et sélectionnez Enregistrer, le diagramme est enregistré dans un fichier de diagramme. Si vous enregistrez la carte après avoir enregistré le diagramme, une lien vers le fichier de diagramme est enregistré avec le fichier .mxd. Pour plus d'informations sur les fichiers de diagramme, reportez-vous à la rubrique Exploration et visualisation des données à l'aide de diagrammes.
-
Pour les entités linéaires et surfaciques, les centroïdes d'entité sont utilisés dans les calculs de distance. Pour les multi-points, les polylignes ou les polygones comprenant plusieurs parties, le centroïde est calculé à l'aide du centre moyen pondéré de toutes les parties d'entité. La pondération pour les entités ponctuelles est de 1 ; pour les entités linéaires, elle correspond à la longueur et pour les entités surfaciques, à la superficie.
-
L'utilisation la plus appropriée du Champ de pondération implique qu'il représente le nombre d'incidents.
-
Si aucun Champ de pondération n'est spécifié, la valeur DiffK la plus élevée indique à quelle distance les processus spatiaux favorisant l'agrégation sont les plus prononcés.
-
Vous trouverez ci-dessous des explications sur le calcul de l'enveloppe de confiance :
- Aucun Champ de pondération
Si aucun Champ de pondération n'est spécifié, l'enveloppe de confiance est construite en distribuant aléatoirement des points dans la zone d'étude et en calculant L(d) pour cette distribution. Chaque distribution aléatoire des points est appelée "permutation". Par exemple, si l'option 99 permutations est sélectionnée, l'outil distribue aléatoirement l'ensemble de points 99 fois pour chaque itération. Après avoir distribué les points 99 fois, l'outil sélectionne pour chaque distance la valeur k observée ayant présenté l'écart le plus important au-dessus et au-dessous de la valeur k attendue ; ces valeurs deviennent l'intervalle de confiance.
- Incluant un Champ de pondération
Lorsqu'un champ de pondération est spécifié, seules les valeurs de pondération sont redistribuées aléatoirement pour calculer des enveloppes de confiance ; les emplacements des points restent fixes. Essentiellement, lorsqu'un champ de pondération est spécifié, les emplacements restent fixes et l'outil évalue l'agrégation des valeurs d'entité dans l'espace. En revanche, lorsque aucun Champ de pondération n'est spécifié, l'outil analyse l'agrégation et la dispersion des emplacements d'entités.
- Aucun Champ de pondération
Etant donné que l'enveloppe de confiance est construite à partir de permutations aléatoires, les valeurs qui la définissent varient d'une exécution à l'autre, même lorsque les paramètres sont identiques. Toutefois, si vous définissez une valeur germe pour l'environnement de géotraitement Générateur de nombres aléatoires, les analyses successives produiront des résultats cohérents.
-
Le nombre de permutations sélectionné pour le paramètre Calculer l'enveloppe de confiance peut être approximativement converti en niveaux de confiance : 9 pour 90 %, 99 pour 99 %, et 999 pour 99.9 %.
-
Lorsqu'aucune zone d'étude n'est spécifiée, l'outil utilise un rectangle d'encadrement minimum comme polygone de zone d'étude. Contrairement à l'étendue, un rectangle d'encadrement minimum ne s'aligne pas nécessairement sur les axes x et y.
-
La statistique de la fonction k est très sensible à la taille de la zone d'étude. Des dispositions identiques de points peuvent présenter un phénomène d'agrégation ou de dispersion en fonction de la taille de la zone d'étude qui les englobe. Par conséquent, il est impératif que les limites de la zone d'étude soient considérées avec soin. L'image suivante illustre la façon dont des distributions identiques d'entités peuvent être dispersées ou agrégées selon la zone d'étude spécifiée.
-
Une classe d'entités de zone d'étude est requise si l'option USER_PROVIDED_STUDY_AREA_FEATURE_CLASS est sélectionnée pour le paramètre Méthode de la zone d'étude.
-
Si une Classe d'entités de la zone d'étude est spécifié, elle doit strictement comporter une entité en une seule partie (le polygone de zone d'étude).
-
Si aucune Distance de départ ou aucun Incrément de distance n'est spécifié, alors les valeurs par défaut sont calculées automatiquement, en fonction de l'étendue de la Classe d'entités en entrée.
-
La fonction K a tendance à sous-évaluer les entités situées près de la limite de zone d'étude. Le paramètre Méthode de correction des bords propose plusieurs méthodes permettant de rectifier ce biais :
- NONE
Aucune correction des bords spécifique n'est appliquée. Toutefois, les points de la Classe d'entités en entrée situés à l'extérieur de la zone d'étude spécifiée par utilisateur sont utilisés dans le décompte des voisins. Cette méthode est appropriée si vous avez collecté des données à partir d'une zone d'étude très vaste mais se contente d'analyser des zones plus petites à l'intérieur des limites de la collecte de données.
- SIMULATE_OUTER_BOUNDARY_VALUES
Cette méthode crée des points, à l'extérieur de la limite de la zone d'étude, qui reproduisent les points trouvés à l'intérieur de la limite, afin de corriger les sous-estimation intervenues près des tronçons. Les points qui sont à une distance égale au canal de distance maximal d'une limite de la zone d'étude sont reproduits. Les points reproduits permettent d'estimer plus précisément le voisinage des points de tronçon. Le diagramme suivant indique quels points sont utilisés dans le calcul et quels points sont utilisés uniquement pour la correction des tronçons.
- REDUCE_ANALYSIS_AREA
Cette technique de correction des tronçons réduit la taille de la zone d'étude d'une distance égale au plus grand canal de distance utilisé dans l'analyse. Après avoir réduit la zone d'étude, les points situés en dehors de la nouvelle zone d'étude sont pris en compte uniquement au moment de l'évaluation du nombre de voisins pour les points encore à l'intérieur de la zone d'étude. Ils ne seront jamais utilisés autrement durant les calculs de la fonction k. Le diagramme suivant indique quels points sont utilisés dans le calcul et quels points sont utilisés uniquement pour la correction des tronçons.
- RIPLEY'S_EDGE_CORRECTION_FORMULA
Cette méthode vérifie la distance qui sépare chaque point du tronçon de la zone d'étude et la distance qui les sépare de chacun de ses voisins. Tout voisin situé plus loin du point considéré que le tronçon de la zone d'étude fait l'objet d'une pondération plus importante. Cette méthode de correction des tronçons est appropriée pour les zones d'étude carrés ou rectangulaires ou lorsque vous sélectionnez l'option MINIMUM_ENCLOSING_RECTANGLE pour le paramètre Méthode de la zone d'étude.
- NONE
Si aucune correction des limites n'est appliquée, le biais de sous-estimation augmente au fur et à mesure que la distance d'analyse augmente. Si vous activez le paramètre Afficher les résultats de manière graphique, vous remarquerez que la ligne ObservedK s'abaisse aux distances les plus importantes.
-
Mathématiquement, l'outil Analyse d'agrégat spatial multi-distances utilise une transformation commune à la fonction k de Ripley, où le résultat attendu, avec un ensemble aléatoire de points, est égal à la distance en entrée. La transformation L(d) se présente comme suit :
où A représente la surface, N est le nombre de points, d, la distance, et k(i, j), la pondération. Si aucune correction des limites n'est appliquée, la pondération est égale à 1 lorsque la distance entre i et j est inférieure ou égale à d ; elle est égale à 0 lorsque la distance entre i et j est supérieure à d. Si la correction des limites est appliquée, la pondération de k(i, j) est légèrement modifiée.
-
Les couches peuvent permettre de définir la Classe d'entités en entrée. Lors de l'utilisation d'une couche avec une sélection, seules les entités sélectionnées sont incluses dans l'analyse.
Lorsque vous utilisez des fichiers de formes, n'oubliez pas qu'ils ne peuvent pas stocker de valeurs Null. Il se peut que des outils ou autres procédures qui créent des fichiers de formes à partir d'entrées autres que des fichiers de formes stockent ou interprètent des valeurs Null comme étant égales à zéro. Dans certains cas, les valeurs Null sont stockées sous forme de valeurs négatives très élevées dans les fichiers de formes. Cela peut aboutir à des résultats inattendus. Reportez-vous à la rubrique Remarques concernant le géotraitement pour la sortie de fichiers de formes pour plus d'informations.
Syntaxe
Paramètre | Explication | Type de données |
Input_Feature_Class |
Classe d'entités sur laquelle doit porter l'analyse. | Feature Layer |
Output_Table |
Table dans laquelle les résultats de l'analyse doivent être écrits. | Table |
Number_of_Distance_Bands |
Nombre de fois qu'il convient d'incrémenter la taille du voisinage et d'effectuer une analyse d'agrégation sur le jeu de données. Le point de départ et la taille de l'incrément sont spécifiés par les paramètres Distance de départ et Incrément de distance, respectivement. | Long |
Compute_Confidence_Envelope (Facultatif) |
L'enveloppe de confiance est calculée en plaçant aléatoirement des points dans la zone d'étude. Le nombre de points ou de valeurs placées de manière aléatoire est égal au nombre de points trouvés dans la classe d'entités. Chaque jeu de points aléatoires est désigné sous le nom de "permutation" et l'enveloppe de confiance est créée à partir de ces permutations. Ce paramètre permet de spécifier le nombre de permutations à utiliser pour créer l'enveloppe de confiance.
| String |
Display_Results_Graphically (Facultatif) |
| Boolean |
Weight_Field (Facultatif) |
Champ numérique avec pondérations représentant le nombre d'entités/événements à chaque emplacement. | Field |
Beginning_Distance (Facultatif) |
Distance à laquelle doit commencer l'analyse d'agrégat et point de départ de l'incrément. La valeur de ce paramètre doit être définie dans les unités du système de coordonnées en sortie. | Double |
Distance_Increment (Facultatif) |
Incrément de distance à ajouter lors de chaque itération. La distance utilisée dans l'analyse débute à la Distance de départ et augmente conformément à la valeur du paramètre Incrément de distance. La valeur de ce paramètre doit être définie dans les unités du système de coordonnées en sortie. | Double |
Boundary_Correction_Method (Facultatif) |
Méthode à utiliser pour corriger les sous-estimations du nombre de voisins pour les entités proches des tronçons de la zone d'étude.
| String |
Study_Area_Method (Facultatif) |
Spécifie la région à utiliser pour définir la zone d'étude. La Fonction K est sensible aux changements de taille de la zone d'étude ; soyez donc attentif à la sélection de cette valeur.
| String |
Study_Area_Feature_Class (Facultatif) |
Classe d'entités délimitant la zone pour laquelle la classe d'entités en entrée doit être analysée. A ne spécifier que si vous avez sélectionné l'option Classe d'entités utilisateur pour zone d'étude pour le paramètre Méthode de la zone d'étude. | Feature Layer |
Exemple de code
Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil Multi-DistanceSpatialClusterAnalysis.
import arcpy
arcpy.env.workspace = r"C:\data"
arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp","kFunResult.dbf", 11,"0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE","NO_REPORT", "#", 1000, 200,"REDUCE_ANALYSIS_AREA","MINIMUM_ENCLOSING_RECTANGLE", "#")
Le script Python autonome ci-dessous illustre l'utilisation de l'outil Multi-DistanceSpatialClusterAnalysis.
# Use Ripley's K-Function to analyze the spatial distribution of 911
# calls in Portland Oregon
# Import system modules
import arcpy
# Set the geoprocessor object property to overwrite existing outputs
arcpy.gp.overwriteOutput = True
# Local variables...
workspace = r"C:\Data"
try:
# Set the current workspace (to avoid having to specify the full path to the feature classes each time)
arcpy.env.workspace = workspace
# Set Distance Band Parameters: Analyze clustering of 911 calls from
# 1000 to 3000 feet by 200 foot increments
numDistances = 11
startDistance = 1000.0
increment = 200.0
# Process: Run K-Function...
kFun = arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp",
"kFunResult.dbf", numDistances,
"0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE",
"NO_REPORT", "#", startDistance, increment,
"REDUCE_ANALYSIS_AREA",
"MINIMUM_ENCLOSING_RECTANGLE", "#")
except:
# If an error occurred when running the tool, print out the error message.
print arcpy.GetMessages()
Environnements
- Système de coordonnées en sortie
La géométrie de l'entité est projetée sur le système de coordonnées en sortie avant l'analyse, de sorte que les valeurs saisies pour les paramètres Distance de départ et Incrément de distance correspondent à celles spécifiées dans le système de coordonnées en sortie. Tous les calculs mathématiques sont basés sur la référence spatiale du système de coordonnées en sortie.