Funktionsweise der Gruppierungsanalyse

Bei der Betrachtung unserer Umgebung ist es für uns ganz natürlich, das Gesehene zu organisieren, zu gruppieren, zu differenzieren und zu katalogisieren, um es besser zu verstehen; dieser mentale Klassifizierungsprozess ist für das Lernen und Verstehen von entscheidender Bedeutung. Genauso können Sie auch das Werkzeug Gruppierungsanalyse einsetzen, um mehr über Ihre Daten zu erfahren und sie besser zu verstehen. Das Werkzeug führt eine Klassifizierung durch, die nach natürlichen Clustern in den Daten sucht. Ausgehend von der Anzahl der zu erstellenden Gruppen wird nach einer Lösung gesucht, bei der alle Features innerhalb einer bestimmten Gruppe möglichst ähnlich und alle Gruppen als Ganzes möglichst verschieden voneinander sind. Die Ähnlichkeit von Features basiert auf dem Satz Attribute, die Sie für den Parameter Analysefelder angeben, und kann optional auch räumliche Eigenschaften oder Raum-Zeit-Eigenschaften umfassen. Wenn Räumliche Einschränkungen für Raum oder Raum-Zeit angegeben werden, sucht der Algorithmus mithilfe eines Konnektivitätsdiagramms (minimaler Spannbaum) nach natürlichen Gruppierungen. Bei Angabe von NO_SPATIAL_CONSTRAINT verwendet das Werkzeug Gruppierungsanalyse einen K-Mittelwert-Algorithmus.

Es gibt Hunderte von Cluster-Analysealgorithmen wie diese, und alle sind als NP-Schwierig klassifiziert. Dies bedeutet, dass Sie alle möglichen Kombinationen der zu gruppierenden Features ausprobieren müssen, um sicherzustellen, dass eine Lösung sowohl Ähnlichkeiten innerhalb einer Gruppe als auch Unterschiede zwischen Gruppen perfekt maximiert. Wenn nur eine Handvoll Features vorliegt, mag dies noch machbar sein, andernfalls wird das Problem recht schnell unlösbar.

Nicht nur ist es fast unmöglich sicherzustellen, dass eine optimale Lösung gefunden wurde, es ist auch unrealistisch zu versuchen, einen Gruppierungsalgorithmus zu finden, der für alle möglichen Datenszenarien optimal funktioniert. Gruppen haben die unterschiedlichsten Formen, Größen und Dichten; Attributdaten können eine Vielzahl von Bereichen, Symmetrie, Kontinuität und Maßeinheiten umfassen. Dies erklärt, warum im Verlauf der letzten 50 Jahre so viele verschiedene Cluster-Analysealgorithmen entwickelt wurden. Daher stellen Sie sich die Gruppierungsanalyse am besten als ein Untersuchungswerkzeug vor, mit dessen Hilfe Sie mehr über die zugrunde liegenden Strukturen von Daten erfahren können.

Potenzielle Anwendungsbereiche

Mögliche Anwendungsbereiche des Werkzeugs

Eingaben

Dieses Werkzeug arbeitet mit Punkt-, Polylinien- oder Polygon-Eingabe-Features, einem eindeutigen ID-Feld, einem Pfad für die Ausgabe-Feature-Class, einem oder mehreren Analysefeldern, einem Ganzzahlwert für die zu erstellende Gruppenanzahl und dem Typ der Räumlichen Einschränkung (sofern vorhanden), die innerhalb des Gruppierungsalgorithmus angewendet werden soll. Weiterhin gibt es eine Reihe optionaler Parameter, darunter einen zum Erstellen einer Ausgabeberichtsdatei im PDF-Format.

Analysefelder

Wählen Sie numerische Felder aus, die Verhältniswert-, Intervall- oder Ordinalwert-Maßsysteme darstellen. Nominalwert-Daten können zwar mit (binären) Dummy-Variablen dargestellt werden, sie funktionieren in der Regel jedoch nicht so gut wie andere numerische Variablentypen. Sie können beispielsweise eine Variable namens "Ländlich" erstellen und jedem Feature (z. B. jedem Zählbezirk) eine 1 zuweisen, wenn der Bezirk überwiegend ländlich ist, und eine 0, wenn er überwiegend städtisch ist. Eine besser geeignete Repräsentation dieser Variablen zur Verwendung mit der Gruppierungsanalyse wäre jedoch die mit jedem Feature verknüpfte Menge bzw. der Anteil an ländlicher Fläche.

Wählen Sie Variablen, die Ihrer Meinung nach eine gute Unterscheidung der Feature-Gruppen voneinander ermöglichen. Angenommen beispielsweise, Sie möchten Schulbezirke nach Schülerleistungen basierend auf standardisierten Leistungstests gruppieren. Sie können Analysefelder wählen, die Prüfungsergebnisse insgesamt, Ergebnisse für einzelne Fächer wie Mathematik oder Lesen, den Anteil an Schülern, der eine Mindestnote erreicht, usw. umfassen. Wenn Sie das Werkzeug Gruppierungsanalyse ausführen, wird für jede Variable ein R2-Wert berechnet. In der nachfolgenden Zusammenfassung basiert die Gruppierung der Schulbezirke auf den Prüfungsergebnissen der Schüler, dem Prozentsatz Erwachsener im Gebiet, die keinen Abschluss an einer weiterführenden Schule gemacht haben, den Ausgaben pro Schüler und dem durchschnittlichen Schüler-Lehrer-Verhältnis. Beachten Sie, dass die Variable "TestScores" (Prüfungsergebnisse) den höchsten R2-Wert aufweist. Dies weist darauf hin, dass dies die effektivste Variable für die Einteilung der Schulbezirke in Gruppen ist. Der R2-Wert gibt an, inwieweit die Variation bei den ursprünglichen TestScores-Daten nach der Gruppierung erhalten geblieben ist; je größer also der R2-Wert für eine bestimmte Variable ist, desto besser unterscheidet die Variable zwischen den Features.

Zusammenfassung der Variablen in Gruppierungsanalyse

DetailinformationenDetailinformationen:

R2 wird wie folgt berechnet:

(TSS - ESS) / TSS

Hierbei ist TSS die Quadratsumme der Gesamtstreuung und ESS die Quadratsumme der erklärten Streuung. TSS wird berechnet, indem Abweichungen vom globalen Mittelwert einer Variablen quadriert und anschließend summiert werden. ESS wird auf die gleiche Weise berechnet, bis auf die Ausnahme, dass Abweichungen gruppenweise verarbeitet werden: Jeder Wert wird vom Mittelwert der Gruppe, der er angehört, subtrahiert und anschließend quadriert und summiert.

Gruppenanzahl

Manchmal ist Ihnen die Anzahl an Gruppen, die sich für Ihre Frage oder Ihr Problem am besten eignet, bekannt. Wenn Sie beispielsweise fünf Verkaufsleiter jeweils einer eigenen, zusammenhängenden Region zuweisen möchten, verwenden Sie den Wert 5 für den Parameter Gruppenanzahl. In vielen Fällen liegen jedoch keinerlei Kriterien für die Auswahl einer bestimmten Gruppenanzahl vor; stattdessen möchten Sie einfach die Anzahl verwenden, die die beste Unterscheidung zwischen Feature-Ähnlichkeiten und -Unterschieden bietet. In dieser Situation können Sie den Parameter Optimale Gruppenanzahl überprüfen aktivieren und das Werkzeug Gruppierungsanalyse bewerten lassen, wie effektiv die Unterteilung der Features in 2, 3, 4 und bis zu 15 Gruppen ist. Die Effektivität einer Gruppierung wird mit der Pseudo-F-Statistik nach Calinski/Harabasz gemessen; hierbei handelt es sich um ein Verhältnis, das die Ähnlichkeit innerhalb einer Gruppe und die Unterschiede zwischen Gruppen widerspiegelt:

Pseudo-F-Statistik nach Calinski/Harabasz

Räumliche Einschränkung

Wenn die resultierenden Gruppen in räumlicher Nähe zueinander liegen sollen, geben Sie eine räumliche Einschränkung an. Die CONTIGUITY-Optionen sind für Polygon-Feature-Classes aktiviert und geben an, dass Features nur dann derselben Gruppe angehören können, wenn sie über eine gemeinsame Kante (CONTIGUITY_EDGES_ONLY) oder entweder über eine gemeinsame Kante oder einen gemeinsamen Stützpunkt (CONTIGUITY_EDGES_CORNERS) mit einem anderen Mitglied der Gruppe verfügen. Die Polygon-Nachbarschaftsoptionen sind jedoch keine gute Wahl, wenn das Dataset Cluster von nicht zusammenhängenden Polygonen oder Polygone ganz ohne zusammenhängende Nachbarn enthält:

Nicht zusammenhängende Polygone

Die Optionen DELAUNAY_TRIANGULATION und K_NEAREST_NEIGHBORS sind beide für Punkt- oder Polygon-Features geeignet; durch diese Optionen wird festgelegt, dass ein Feature nur dann in eine Gruppe aufgenommen wird, wenn mindestens ein anderes Gruppenmitglied ein natürlicher Nachbar (Delaunay-Triangulation) oder der nächste Nachbar (K) ist. Wenn Sie beispielsweise K_NEAREST_NEIGHBORS auswählen und den Wert 12 für den Parameter Anzahl der Nachbarn eingeben, gehört jedes Feature in einer Gruppe zu den 12 nächsten Nachbarn mindestens eines anderen Features in der Gruppe.

Die Option DELAUNAY_TRIANGULATION sollte nicht für Datasets mit lagegleichen Features verwendet werden. Da die Delaunay-Triangulationsmethode Features zur Bestimmung von Nachbarschaftsbeziehungen in Thiessen-Polygone konvertiert (insbesondere bei Polygon-Features und manchmal auch bei peripheren Features im Dataset), kann es außerdem sein, dass die Ergebnisse dieser Option nicht immer den Erwartungen entsprechen. In der folgenden Abbildung sind einige der gruppierten ursprünglichen Polygone nicht zusammenhängend; nach der Konvertierung in Thiessen-Polygone haben jedoch alle gruppierten Features eine Kante gemeinsam:

Beispiel für Delaunay-Triangulation
Für die Delaunay-Triangulation definiert die Nachbarschaft von Thiessen-Polygonen Nachbarschaftsbeziehungen.

Wenn die resultierenden Gruppen sowohl räumlich als auch zeitlich nahe beieinander liegen sollen, erstellen Sie mit dem Werkzeug Räumliche Gewichtungsmatrix erstellen eine Datei mit räumlicher Gewichtungsmatrix (SWM), und wählen Sie die Option SPACE_TIME_WINDOW für den Parameter Konzeptualisierung von räumlichen Beziehungen aus. Anschließend können Sie die SWM-Datei, die Sie mit dem Werkzeug Räumliche Gewichtungsmatrix erstellen erstellt haben, für den Parameter Gewichtungsmatrix-Datei verwenden, wenn Sie die Gruppierungsanalyse ausführen.

HinweisHinweis:

Zwar werden die räumlichen Beziehungen zwischen Features in einer SWM-Datei gespeichert und vom Werkzeug Gruppierungsanalyse zum Anwenden räumlicher Einschränkungen verwendet, tatsächlich findet während der Gruppierung jedoch keine Gewichtung statt. Mit der SWM-Datei wird lediglich nachverfolgt, welche Features in dieselbe Gruppe aufgenommen werden können und welche nicht.

Für viele Analysen ist die Anwendung einer räumlichen oder räumlich-zeitlichen Einschränkung weder erforderlich noch hilfreich. Angenommen beispielsweise, Sie möchten Straftaten nach Täterattributen (Größe, Alter, Schwere der Straftat usw.) gruppieren. Straftaten, die von derselben Person begangen werden, liegen tendenziell in räumlicher Nähe, die Feststellung, dass alle in einem bestimmten Gebiet begangenen Straftaten von derselben Person verübt worden, es ist jedoch unwahrscheinlich. Für diese Art von Analyse setzen Sie den Parameter Räumliche Einschränkungen auf NO_SPATIAL_CONSTRAINT. Sie können jedoch einige räumliche Variablen (z. B. Nähe zu Banken) in die Liste der Analysefelder aufnehmen, um einige der räumlichen Aspekte der zu analysierenden Straftaten zu erfassen.

K-Mittelwert

Wenn Sie den Parameter Räumliche Einschränkungen auf NO_SPATIAL_CONSTRAINT festlegen, wird zur Gruppierung ein K-Mittelwert-Algorithmus verwendet. Ziel des K-Mittelwert-Algorithmus ist es, Features so zu unterteilen, dass die Unterschiede zwischen den Features in einer Gruppe über alle Gruppen hinweg minimiert werden. Da der Algorithmus NP-Schwierig ist, wird zum Gruppieren von Features eine Greedy-Heuristik verwendet. Der Greedy-Algorithmus konvergiert immer zu einem lokalen Minimum, findet jedoch nicht immer das globale (optimale) Minimum.

Der K-Mittelwert-Algorithmus identifiziert zunächst die Ursprungs-Features, aus denen die einzelnen Gruppen erstellt werden. Folglich stimmt die Anzahl der Ursprungs-Features immer mit der Gruppenzahl überein. Der erste Ursprung wird nach dem Zufallsprinzip ausgewählt. Zur Auswahl der übrigen Ursprungs-Features (bei der nach wie vor eine Zufallskomponente verwendet wird) wird jedoch eine Gewichtung angewendet, die die Auswahl nachfolgender Ursprungs-Features bevorzugt, die im Datenraum am weitesten vom vorhandenen Satz Ursprungs-Features entfernt sind (dieser Teil des Algorithmus wird als K-Mittelwert ++ bezeichnet). Aufgrund der Zufallskomponente bei der Suche nach Ursprungs-Features kann es sein, dass bei Auswahl von FIND_SEED_LOCATIONS oder USE_RANDOM_SEEDS als Initialisierungsmethode bei jeder Ausführung des Werkzeugs andere Gruppierungsergebnisse entstehen.

Nachdem die Ursprungs-Features identifiziert wurden, werden alle Features dem nächsten Ursprungs-Feature zugewiesen (im Datenraum am nächsten gelegen). Für jedes Feature-Cluster wird ein arithmetischer Datenmittelpunkt berechnet, und jedes Feature wird dem nächstgelegenen Mittelpunkt neu zugewiesen. Der Prozess der Berechnung eines arithmetischen Datenmittelpunktes für die einzelnen Gruppen und der anschließenden Neuzuweisung von Features zum nächstgelegenen Mittelpunkt wird solange fortgesetzt, bis sich die Gruppenmitgliedschaft stabilisiert hat (bis maximal 100 Iterationen).

Minimaler Spannbaum

Wenn Sie eine räumliche Einschränkung angeben, um die Gruppenmitgliedschaft auf zusammenhängende oder in der Nachbarschaft liegende Features zu beschränken, erstellt das Werkzeug zunächst ein Konnektivitätsdiagramm, das die Nachbarschaftsbeziehungen zwischen Features darstellt. Aus dem Konnektivitätsdiagramm wird ein minimaler Spannbaum entwickelt, in dem sowohl räumliche Beziehungen zwischen Features als auch Ähnlichkeiten von Feature-Daten zusammengefasst werden. Features werden im minimalen Spannbaum als Knoten dargestellt, die durch gewichtete Kanten verbunden sind. Die Gewichtung der einzelnen Kanten ist proportional zur Ähnlichkeit der durch sie verbundenen Objekte. Nach der Erstellung des minimalen Spannbaums wird ein Zweig (eine Kante) des Baums beschnitten, sodass zwei minimale Spannbäume entstehen. Die zu beschneidende Kante wird so gewählt, dass die Unterschiede in den resultierenden Gruppen minimiert werden, während gleichzeitig (wenn möglich) Einzelelemente (Gruppen mit nur einem Feature) vermieden werden. Bei jeder Iteration wird einer der minimalen Spannbäume durch diesen Beschneidungsvorgang geteilt, bis die gewünschte Gruppenanzahl erreicht ist. Die verwendete veröffentlichte Methode wird als SKATER bezeichnet (Spatial "K"luster Analysis by Tree Edge Removal). Zwar wird bei jeder Iteration der Zweig zum Beschneiden ausgewählt, der die Gruppenähnlichkeit optimiert, es gibt jedoch keine Garantie dafür, dass das Endergebnis optimal ist.

Ausgaben

Das Werkzeug Gruppierungsanalysen erstellt verschiedene Ausgaben. Auf alle diese Ausgaben (auch auf die optionale PDF-Berichtsdatei) kann über das Fenster Ergebnisse zugegriffen werden. Wenn Sie die Hintergrundverarbeitung deaktivieren, werden die Ergebnisse auch in das Dialogfeld Fortschritt geschrieben. Die unten gezeigten Meldungen fassen Informationen im optionalen PDF-Bericht zusammen (siehe nachfolgende Beschreibung).

Fortschrittsfenster für Gruppierungsanalyse

Die Standardausgabe des Werkzeugs Gruppierungsanalyse ist eine neue Ausgabe-Feature-Class, die die in der Analyse verwendeten Felder sowie ein neues Ganzzahlfeld namens SS_GROUP enthält, das angibt, welcher Gruppe die einzelnen Features angehören. Diese Ausgabe-Feature-Class wird dem Inhaltsverzeichnis hinzugefügt, wobei ein eindeutiges Farbrendering-Schema auf das Feld SS_GROUP angewendet wird. Eine ungefüllte Darstellung zeigt Features an, die keiner Gruppe hinzugefügt werden konnten, normalerweise, weil sie keine benachbarten Features haben. Wenn Sie den Parameter Räumliche Einschränkung auf NO_SPATIAL_CONSTRAINT festlegen, wird der Ausgabe-Feature-Class das zusätzliche Feld SS_SEED hinzugefügt, um anzuzeigen, welche Ursprungs-Features zur Erstellung von Gruppen verwendet wurden.

Ausgabe-Feature-Class der Gruppierungsanalyse
Gruppierung mit räumlicher Einschränkung "Nachbarschaft"

Berichtsdatei der Gruppierungsanalyse

Wenn Sie für den Parameter Ausgabeberichtsdatei einen Pfad angeben, wird eine PDF-Datei mit einer Zusammenfassung der erstellten Gruppen erzeugt.

HinweisHinweis:

Die Erstellung der optionalen Berichtsdatei kann sehr viel Zeit in Anspruch nehmen. Während die Gruppierungsanalyse immer eine Ausgabe-Feature-Class erstellt, aus der die Gruppenzugehörigkeit hervorgeht, wird die PDF-Berichtsdatei daher nicht erstellt, wenn Sie mehr als 15 Gruppen oder mehr als 15 Variablen festlegen.

Der Bericht enthält verschiedene Boxplots, daher ist das erste Element im Bericht eine Grafik, die die Interpretation dieser Diagramme erläutert (siehe unten). Die Boxplots des Gruppierungsanalyse-Berichts enthalten graphische Darstellungen von neun Zusammenfassungswerten für jedes Analysefeld und jede Gruppe: minimaler Datenwert, unteres Quartil, Mittelwert, oberes Quartil, maximaler Datenwert, Datenausreißer (Werte kleiner oder größer als das 1,5-fache des Interquartil-Bereichs), Gruppenminimum, Gruppenmittelwert und Gruppenmaximum. Alle "+"-Markierungen, die außerdem des oberen oder unteren Whisker liegen, stellen Datenausreißer dar.
DetailinformationenDetailinformationen:

Der Interquartil-Bereich (IQR) ist das obere Quartil minus das untere Quartil. Niedrige Ausreißer sind Werte kleiner als 1,5*IQR (Q1-1,5*IQR), hohe Ausreißer sind Werte größer als 1,5*IQR (Q3+1,5*IQR). Ausreißer werden in den Boxplots als "+"-Symbole angezeigt.

Auf der ersten Seite des Berichts werden die Variablen (die Analysefelder) innerhalb der einzelnen Gruppen miteinander verglichen. Im folgenden Bericht beispielsweise wurde die Gruppierungsanalyse für Zählbezirke durchgeführt, um vier Gruppen zu erstellen. Summenstatistiken für die einzelnen Gruppen werden in verschiedenen Farben gedruckt (blau, rot, grün und goldfarben). Der erste Satz Summenstatistiken wird in Schwarz gedruckt, weil es sich hierbei um die globalen Werte für Mittelwert, Standardabweichung (Std.Abw.), Minimum, Maximum und R2 für alle Daten in jedem Analysefeld handelt. Je größer der R2-Wert für eine bestimmte Variable ist, desto besser unterscheidet diese Variable die Features. Nach den globalen Zusammenfassungen werden die Werte für Mittelwert, Standardabweichung, Minimum, Maximum und Anteil für jede Variable in jeder Gruppe aufgeführt. Im nachfolgenden Bericht enthält beispielsweise Gruppe 1 (Blau) 52 Prozent des Wertebereichs in der globalen Variable AGE_UNDER5; der globale Wertebereich liegt zwischen 0 und 1.453 Kindern unter 5 Jahren, und die blaue Gruppe enthält Bezirke mit 488 bis 1.246 Kindern unter 5 Jahren. Der Mittelwert für die Anzahl an Kindern unter 5 für die Bezirke in der blauen Gruppe beträgt 805,3750. Das Boxplot rechts neben der statistischen Zusammenfassung der blauen Gruppe zeigt die Beziehung der Gruppenwerte zu den globalen Werten für das gleiche Analysefeld. Beachten Sie, dass der blaue Punkt im Boxplot außerhalb des oberen Quartils liegt und dass die erste blaue vertikale Linie (die den Minimalwert für die Bezirke der blauen Gruppe darstellt) oberhalb des globalen Mittelwertes für dieses Feld liegt. Wenn Sie die Stellen betrachten, an denen die blauen Punkte für alle Variablen innerhalb der Boxplots liegen, können Sie feststellen, dass mit Ausnahme der Variablen MEDIANRENT die Mittelwerte in allen Analysefeldern oberhalb des oberen Quartils liegen. Diese Gruppe hat verglichen mit den anderen Gruppen den höchsten Wertebereich.

DetailinformationenDetailinformationen:

Der Anteilswert ist das Verhältnis des Gruppen- und des globalen Bereichs. Für Gruppe 1 und die Variable AGE_UNDER5 beispielsweise wird der 52-Prozent-Anteil berechnet, indem der Gruppenbereich (1246-488=758) durch den globalen Bereich (1453-0=1453) geteilt wird; dies ergibt bei Rundung auf zwei Nachkommastellen einen Anteil von 0,52.

Gruppenzusammenfassung
Abschnitt 1 des Ausgabeberichts

Im zweiten Abschnitt des Berichts werden die Variablenbereiche für die einzelnen Gruppen für jeweils ein Analysefeld (Variable) verglichen. In dieser Datenansicht ist leicht zu erkennen, welche Gruppe den höchsten und niedrigsten Wertebereich innerhalb der einzelnen Variablen aufweist. Die Minimal-, Mittel- und Maximalwerte werden auf dem Boxplot aller Werte dargestellt. Gruppe 4 (orange) weist die niedrigsten Werte für die Variable MEDIANRENT auf. Die Minimal-, Mittel- und Maximalwerte für diese Gruppe sind niedriger als die jeder anderen Gruppe.

Variablenzusammenfassung
Abschnitt 2 des Ausgabeberichts

Das parallele Boxplot-Diagramm fasst sowohl die Gruppen als auch die darin enthaltenen Variablen zusammen. Im nachstehenden Diagramm stellt Gruppe 1 (blau) Zählbezirke mit durchschnittlichen Mieten, den höchsten Werten für von Frauen geführten Haushalten mit Kindern (FHH_CHILD), die höchsten Werte für die Anzahl von Wohneinheiten(HSE_UNITS) und die höchsten Werte für Kinder unter 5 Jahren dar. Gruppe 2 (rot) stellt Zählbezirke mit den höchsten mittleren Mieten, der geringsten Anzahl an von Frauen geführten Haushalten mit Kindern, mehr als der durchschnittlichen Anzahl von Wohneinheiten (jedoch weniger als in den Bezirken der Gruppen 1 oder 3) und die wenigsten Kinder unter 5 Jahren dar.

Boxplot der Gruppierungsanalyse
Paralleles Boxplot im Ausgabebericht

Wenn Sie den Parameter Optimale Gruppenanzahl überprüfen aktivieren, enthält die PDF-Berichtsdatei ein Diagramm mit Werten der Pseudo-F-Statistik. Der eingekreiste Punkt im Diagramm ist die größte F-Statistik und zeigt an, wie viele Gruppen die angegebenen Features und Variablen am effektivsten unterscheiden. Im folgenden Diagramm ist die mit vier Gruppen verknüpfte F-Statistik am höchsten. Auch fünf Gruppen, mit einer hohen Pseudo-F-Statistik, wären eine gute Wahl.

Pseudo-F-Statistik-Diagramm
Pseudo-F-Statistik-Plot im Ausgabebericht

Empfehlungen

Zwar ist man geneigt, möglichst viele Analysefelder aufzunehmen, die Gruppierungsanalyse funktioniert jedoch am besten, wenn zunächst nur eine einzige Variable und Berechnung verwendet wird. Sind weniger Analysefelder vorhanden, ist es erheblich einfacher, die Ergebnisse zu interpretieren. Ebenso können die Variablen, die sich am besten als Diskriminatoren eignen, einfacher bestimmt werden, wenn weniger Felder vorhanden sind.

In vielen Szenarien führen Sie das Werkzeug Gruppierungsanalyse vermutlich mehrmals aus, um nach der optimalen Gruppenanzahl, den effektivsten räumlichen Einschränkungen und der Kombination von Analysefeldern zu suchen, die die bestmögliche Einteilung der Features in Gruppen bietet. Da die Erstellung des Ausgabeberichts sehr viel Zeit in Anspruch nehmen kann, empfiehlt es sich nicht, den Bericht zu erstellen, während Sie mit verschiedenen Eingabeparametern experimentieren.

Zusätzliche Ressourcen

Duque, J. C., R. Ramos, and J. Surinach. 2007. "Supervised Regionalization Methods: A Survey" in International Regional Science Review 30: 195–220.

Assuncao, R. M., M. C. Neves, G. Camara, and C. Da Costa Freitas. 2006. "Efficient Regionalisation Techniques for Socio-economic Geographical Units using Minimum Spanning Trees" in International Journal of Geographical Information Science 20 (7): 797–811.

Jain, A. K. 2009. "Data Clustering: 50 years beyond K-Means." Pattern Recognition Letters.

Hinde, A., T. Whiteway, R. Ruddick, and A. D. Heap. 2007. "Seascapes of the Australian Margin and adjacent sea floor: Keystroke Methodology." in Geoscience Australia, Record 2007/10, 58pp.

6/5/2014