Fonctionnement de Recherche de similarités

L'outil Recherche de similarités identifie quelles Entités candidates sont les plus semblables (ou dissemblables ) à une ou plusieurs Entités en entrée à apparier. La similarité s'appuie sur une liste spécifiée d'attributs numériques (Attributs dignes d'intérêt). Si plusieurs Entités en entrée à apparier sont spécifiées, la similarité dépend des moyennes de chaque Attributs dignes d'intérêt. La classe d'entités en sortie (Entités en sortie) contiendra les Entités en entrée à apparier ainsi que toutes les Entités candidates détectées, classées par similarité (comme spécifié par le paramètre Le plus ou le moins similaire). Le nombre de correspondances retourné dépend de la valeur du paramètre Nombre de résultats.

Applications possibles

Méthodes de correspondance

La correspondance peut se faire selon des valeurs attributaires, des valeurs attributaires classées ou des profils attributaires (similarité cosinusoïdale). L'algorithme employé pour chacune de ces méthodes est présenté ci-dessous. Pour toutes les méthodes, si plusieurs Entités en entrée à apparier sont présentes, la moyenne des attributs de toutes les entités est calculée pour créer une entité cible composée à utiliser pour le processus d'appariement : Moyenne des attributs présentant un intérêt

Valeurs attributaires

Lorsque vous sélectionnez ATTRIBUTE_VALUES pour le paramètre Méthode de correspondance, l'outil standardise d'abord tous les Attributs dignes d'intérêt. Il soustraie ensuite pour chaque candidat les valeurs standardisées de celles de l'entité cible, élève les différences au carré, puis additionne les différences au carré. Cette somme devient l'index de similarité de ce candidat. Une fois tous les candidats traités, ils sont classés de l'index le plus petit (le plus semblable) à l'index le plus grand (le moins semblable).

ApprofondissementApprofondissement :

La standardisation des valeurs attributaires implique une transformation z dans laquelle chaque valeur est soustraite de la moyenne de toutes les valeurs et divisée par l'écart type pour toutes les valeurs. La standardisation définit tous les attributs à la même échelle, même lorsque ceux-ci sont représentés par des types de nombres très différents : taux (chiffres de 0 à 1,0), population (avec des valeurs supérieures à un million) et distances (kilomètres, par exemple).

Valeurs attributaires classées

Lorsque vous sélectionnez RANKED_ATTRIBUTE_VALUES pour le paramètre Méthode de correspondance, l'outil commence par classer tous les Attributs dignes d'intérêt pour l'entité cible et pour tous les candidats. Pour chaque candidat, il additionne ensuite la différence au carré de chaque attribut par rapport à l'entité cible. Si la valeur de population pour la cible est la dixième plus importante de tous les candidats, et que la population pour le candidat étudié est la quinzième, la somme de la différence de classement de la population au carré de ce candidat est 10 - 15 = -5 et -5**2 est égal à 25. La somme des différences de classement au carré pour tous les Attributs dignes d'intérêt devient l'index de similarité de ce candidat. Une fois tous les candidats traités, ils sont classés de l'index le plus petit (le plus semblable) à l'index le plus grand (le moins semblable).

Profils attributaires

Lorsque vous sélectionnez ATTRIBUTE_PROFILES pour le paramètre Méthode de correspondance, l'outil standardise d'abord tous les Attributs dignes d'intérêt (un minimum de deux Attributs dignes d'intérêt est requis pour cette méthode). Il applique ensuite des calculs de similarité cosinusoïdale afin de comparer le vecteur d'attributs standardisés pour chaque candidat avec le vecteur d'attributs standardisés pour l'entité cible appariée. La similarité cosinusoïdale de deux vecteurs, A et B, est calculée de la manière suivante :

Équation de similarité cosinusoïdale

La similarité cosinusoïdale ne se préoccupe pas de la correspondance des amplitudes des attributs, mais elle se concentre plutôt sur les relations entre les attributs. Si vous avez créé un profil (graphique linéaire) des attributs standardisés dans les vecteurs comparés (la cible et l'un des candidats), vous verrez peut-être des profils très similaires ou très différents :

Profils attributaires

L'index de similarité cosinusoïdale s'étend de 1,0 (similarité parfaite) à -1,0 (dissemblance parfaite) ; il est indiqué dans le champ SIMINDEX (similarité cosinusoïdale). Cette méthode de similarité permet de rechercher des sites possédant les mêmes caractéristiques, mais à une échelle plus grande ou plus petite.

Meilleures pratiques

Appariement des modèles de similarité

Si vous définissez le paramètre Nombre de résultats sur une valeur très importante (égale ou supérieure au nombre d'entités dans vos Entités candidates), l'outil classe tous les candidats. La sortie de cette analyse indique le modèle spatial de similarité. Vous remarquerez que, lorsque vous classez tous les candidats, vous obtenez des informations sur les similitudes et les dissemblances.

Carte de similarités classées

Inclusion de variables spatiales

Supposons que vous connaissiez les emplacements (surfaces de polygones) où une espèce protégée donnée prospère et que vous souhaitiez voir d'autres zones où elle se porte bien. Vous rechercherez des sites semblables à ceux dans lesquels l'espèce se porte bien, mais vous pouvez également avoir besoin de zones suffisamment grandes et compactes pour assurer le bien-être de l'espèce. Pour cette analyse, vous pouvez calculer une métrique de compacité (les mesures de compacité courantes s'appuient sur la superficie d'un polygone par rapport à la zone d'un cercle du même périmètre). Vous pouvez ensuite inclure vos mesures de compacité et une taille de polygone reflétant un attribut (Shape_Area) dans le paramètre Champs à ajouter à la sortie lorsque vous exécutez l'outil Recherche de similarités. Le fait de trier les dix premières correspondances de solutions en termes de compacité et de superficie vous aidera à identifier les emplacements les mieux adaptés à la réintroduction des espèces.

Peut-être êtes-vous un détaillant souhaitant étendre ses activités. Si vous possédez des points de vente existants qui ont remporté du succès, vous pouvez utiliser des attributs reflétant les principales caractéristiques de succès pour vous aider à trouver des emplacements candidats pour l'expansion. Supposons que les produits que vous vendez soient davantage destinés aux étudiants et que vous souhaitiez éviter les emplacements proches de vos points de vente actuels ou de concurrents. Avant d'exécuter l'outil Recherche de similarités, vous utiliseriez l'outil Proche pour créer des variables spatiales : distance par rapport aux universités ou endroits présentant une forte densité d'étudiants, distance par rapport à vos points de vente existants et distance par rapport à la concurrence. Vous pouvez ensuite inclure ces variables spatiales dans le paramètre Champs à ajouter à la sortie lorsque vous exécutez l'outil Recherche de similarités.

5/10/2014