Análisis de agrupamiento (Estadística espacial)
Resumen
Entidades de grupos basadas en atributos de entidad y limitaciones espaciales/temporales opcionales.
Más información sobre cómo funciona Análisis de agrupamiento
Ilustración
Uso
-
Esta herramienta produce una clase de entidad de salida con los campos utilizados en el análisis más un nuevo campo Entero llamado SS_GROUP. La representación en pantalla predeterminada se basa en el campo SS_GROUP y muestra a qué Grupo pertenece a cada entidad. Si usted indica que desea 3 grupos por ejemplo, cada registro tendrá un 1, 2, o 3 para el campo SS_GROUP. Cuando se selecciona NO_SPATIAL CONSTRAINT para el parámetro Restricciones espaciales, la clase de entidad de salida también tendrá un nuevo campo binario llamado SS_SEED. El campo SS_SEED indica qué entidades se utilizan como puntos de inicio para grupos de aumento. El número de los valores que no son cero en el campo SS_SEED coincidirá con el valor que introdujo para el parámetro Número de Grupos.
Esta herramienta creará opcionalmente un archivo de informe en PDF cuando especifica una ruta para el parámetro Archivo de informe de salida. Este informe contiene una serie de tablas y gráficos para ayudarle a entender las características de los grupos identificados. El archivo de informe en PDF se puede acceder a través de la ventana Resultados.
Nota:Crear el archivo de informe puede agregar tiempo de procesamiento sustancial. En consecuencia, mientras el Análisis de agrupación creará la Clase de entidad de salida que muestra la pertenencia al grupo, el archivo de informe en PDF no se creará si especifica más de 15 grupos o más de 15 variables.
-
El Campo de Id. único proporciona una manera para vincular los registros en la Clase de entidad de salida de vuelta a los datos en la clase de entidad de entrada original. Por consiguiente, los valores de Campo de Id. único deben ser únicos para cada entidad y, por lo general, debe ser un campo permanente que se mantiene con la clase de entidad. Si no tiene un Campo de Id. único en el dataset, puede crear uno fácilmente al agregar un nuevo campo de entero a la tabla de clase de entidad y calcular los valores de campo para que sean iguales al campo FID/OID. No puede utilizar el campo FID/OID directamente para el parámetro Campo de Id. único.
-
Los Campos de análisis deben ser numéricos y deben contener una variedad de valores. Los ampos sin variación (es decir, el mismo valor para cada registro) se eliminarán de los análisis pero se incluirán en la Clase de entidad de salida. Los campos categóricos se pueden utilizar con la herramienta Análisis de agrupación si se representan como variables de simulación (un valor de uno para todas las entidades en una categoría, ceros para todas las otras entidades).
La herramienta Análisis de agrupación construirá grupos con o sin limitaciones de espacio/tiempo. Para algunas aplicaciones quizá no desee imponer la contigüidad u otros requisitos de proximidad a los grupos creados. En esos casos, puede establecer el parámetro Restricciones espaciales a NO_SPATIAL_CONSTRAINT.
Para algunos análisis, deseará que los grupos sean espacialmente contiguos. Las opciones de CONTIGÜIDAD están habilitadas para las clases de entidad poligonal e indican que las entidades solo pueden ser parte del mismo grupo si comparten un borde (CONTIGUITY_EDGES_ONLY) o si comparten un borde o un vértice (CONTIGUITY_EDGES_CORNERS) con otro miembro del grupo.
Las opciones DELAUNAY_TRIANGULATION y K_NEAREST_NEIGHBORS son apropiadas para las entidades de punto o poligonales cuando desea asegurarse de que todos los miembros del grupo son proximales. Estas opciones indican que una entidad solo será incluida en un grupo si al menos otra entidad es un vecino natural (Triangulación de Delaunay) o un Vecino más próximo K. K es la cantidad de vecinos a considerar y se especifica mediante el parámetro Cantidad de vecinos.
Para crear grupos con limitaciones de espacio y de tiempo, utilice la herramienta Generar matriz de ponderaciones espaciales para crear primero un archivo de matriz de ponderaciones espaciales (archivo SWM) que define las relaciones de espacio-tiempo entre las entidades. A continuación, ejecute el Análisis de agrupación para configurar el parámetro Restricciones espaciales en GET_SPATIAL_WEIGHTS_FROM_FILE y el parámetro Archivo de matriz de ponderaciones espaciales para el archivo SWM que creó.
Restricciones espaciales adicionales, como Distancia fija, pueden ser impuestas al utilizar la herramienta Generar matriz de ponderaciones espaciales para crear primero un archivo SWM y, a continuación, proporcionar la ruta hacia ese archivo para el parámetro Archivo de matriz de ponderaciones espaciales.
Nota:Aunque puede crear un archivo de matriz de ponderaciones espaciales (SWM) para definir las restricciones espaciales, no hay una ponderación real que aplique. La SWM simplemente define las entidades que son contiguas o proximales. Imponer una restricción espacial determina quién puede y quién no puede ser miembro del mismo grupo. Si selecciona CONTIGUITY_EDGES_ONLY, por ejemplo, todas las entidades en un único grupo tendrán al menos un borde en común con otra entidad en el grupo. Esto mantiene los grupos resultantes espacialmente contiguos.
La definición de una restricción espacial garantiza grupos compactos, contiguos o proximales. Incluyendo las variables espaciales en su lista de Campos de análisis también pueden promover estos atributos de grupo. Algunos ejemplos de variables espaciales serán la distancia a vías de acceso de la autopista, la accesibilidad a oportunidades de empleo, la proximidad a las oportunidades de la compra, medidas de conectividad e incluso las coordenadas (X, Y). Las variables que representan tiempo, día de la semana o distancia temporal pueden fomentar la compactación temporal entre los miembros del grupo.
Cuando existe una patrón espacial claro para sus entidades (un ejemplo sería tres clusters separados espacialmente distintos), puede complicar el algoritmo de agrupación restringido espacialmente. En consecuencia, el algoritmo de agrupamiento primero determina si existen grupos desconectados. Si el número de grupos desconectados es más grande que el Número de grupos especificado, la herramienta no puede resolver y fallará con un mensaje de error. Si el número de grupos desconectados es exactamente el mismo que el Número de grupos especificado, la configuración espacial de las entidades por si sola, determina los resultados del grupo, como se muestra en (A) a continuación. Si el Número de grupos especificado es mayor que el número de grupos sin conexión, la agrupación comienza con los grupos desconectados ya establecidos. Por ejemplo, si hay tres grupos sin conexión y el Número de grupos especificado es 4, uno de los tres grupos se dividirá para crear un cuarto grupo, como se muestra en (B) a continuación.
En algunos casos, la herramienta Análisis de agrupación no podrá cumplir con las restricciones espaciales impuestas y algunas entidades no se incluirán con ninguno de los grupos (el valorSS_GROUP será -9999 con representación en pantalla hueca). Esto ocurre si hay entidades sin vecinos. Para evitar esto, utilice K_NEAREST_NEIGHBORS lo que garantiza que todas las entidades tengan vecinos. Aumentar el parámetro Cantidad de vecinos ayudará a resolver problemas con grupos sin conexión.
Aunque hay una tendencia a querer incluir tantos Campos de análisis como sea posible, para esta herramienta funciona mejor comenzar con una variable única y construir. Los resultados son mucho más fáciles de interpretar con menos campos de análisis. También es más fácil determinar qué variables son los mejores discriminadores cuando hay menos campos.
Cuando se selecciona NO_SPATIAL_CONSTRAINT para el parámetro Restricciones espaciales, tiene tres opciones para el Método de inicialización: FIND_SEED_LOCATIONS, GET_SEEDS_FROM_FIELD y USE_RANDOM_SEEDS. Los valores seed son las entidades utilizadas para cultivar los grupos individuales. Si, por ejemplo, introduce un 3 para el parámetro Número de grupos, el análisis comenzará con tres entidades seed. La opción predeterminada, FIND_SEED_LOCATIONS, selecciona aleatoriamente el primer seed, entonces se asegura de que los valores seed seleccionados representan entidades que están lejos de los demás en el espacio de datos. Seleccionar los seed iniciales que capturan diferentes espacio de datos mejora el rendimiento. A veces, sabe que las entidades específicas reflejan las distintas características que desea que estén representadas por los diferentes grupos. En ese caso, crear un campo de seed para identificar esas características distintivas. El campo seed que crea debe tener ceros para todos, pero las entidades seed iniciales; las entidades seed iniciales tendrán un valor de 1. A continuación, seleccione GET_SEEDS_FROM_FIELD para el parámetro Método de inicialización. Si está interesado en hacer algún tipo de análisis de sensibilidad para ver las entidades que siempre se encuentran en el mismo grupo, puede elegir la opción USE_RANDOM_SEEDS para el parámetro Método de inicialización. Para esta opción, todas las entidades seed se seleccionan de forma aleatoria.
Los valores de 1 en el campo Campo de inicialización se interpretarán como seed. Si hay más entidades seed que Número de grupos, las entidades seed se selecciona de forma aleatoria de las identificadas por el Campo de inicialización. Si hay menos entidades seed de las especificadas por Número de grupos, las entidades seed adicionales se seleccionarán de manera que estén lejos (en el espacio de datos) de las identificadas por el Campo de inicialización.
A veces conoce el Número de grupos más adecuado para sus datos. En el caso que usted no lo conozca; sin embargo, es posible que tenga que probar diferentes números de grupos, anotando qué valores proporcionar la mejor diferenciación de grupo. Al marcar la el parámetro Evaluar número óptimo de los grupos, una estadística pseudo F se calculará para agrupar soluciones con 2 a través de 15 grupos. Si no hay otros criterios que guíen su elección para Número de grupos, utilice un número asociado con uno de los mayores valores de estadística F pseudo. Los valores de estadística F más grandes, indican soluciones que funcionan mejor para maximizar dentro de las similitudes del grupo y las diferencias entre el grupo. Cuando se especifica un Archivo de informe de salidaopcional, ese informe en PDF incluirá un gráfico que muestra los valores de estadística F para soluciones con 2 a través de 15 grupos.
Cuando se incluye una restricción de espacio-tiempo o espacial en su análisis, las estadísticas F pseudo son comparables (mientras las Entidades de entrada y Campos de análisis no cambian). Por consiguiente, puede utilizar los valores de estadística F para determinar no solo un Número de gruposóptimo, sino también le ayudará a tomar decisiones sobre la opción Restricciones espacialesmás efectiva, Método de distanciay Cantidad de vecinos.
El algoritmo valor medio K utilizado para las entidades de partición en grupos cuando se selecciona NO_SPATIAL_CONSTRAINT para el parámetro Restricciones espaciales y FIND_SEED_LOCATIONS o USE_RANDOM_SEEDS está seleccionado para el Método de inicialización, incorpora heurísticas y puede devolver un resultado diferente cada vez que ejecuta la herramienta (incluso utilizando los mismos datos y los mismos parámetros de la herramienta). Esto se debe a que hay un componente aleatorio para encontrar las entidades seed iniciales utilizadas para aumentar los grupos.
Cuando se impone una restricción espacial, no hay un componente aleatorio para el algoritmo, de modo que una estadística F pseudo, se puede calcular para 2 a través de 15 grupos, y los valores más altos de la estadística F se pueden utilizar para determinar el Número de grupos óptimo para el análisis. Debido a que la opción NO_SPATIAL_CONSTRAINT es una solución heurística; sin embargo, determinar el número óptimo de grupos es más complejo. La estadística F, puede ser diferente cada vez que se ejecuta la herramienta, debido a distintas entidades seed iniciales. Cuando un patrón distinto existe en los datos; sin embargo, las soluciones de una ejecución a la siguiente serán más coherentes. Por consiguiente, para ayudar a determinar el número óptimo de grupos cuando se selecciona la opción NO_SPATIAL_CONSTRAINT, la herramienta resuelve el análisis de agrupación 10 veces para 2, 3, 4 y hasta 15 grupos. La información sobre la distribución de estas 10 soluciones entonces se informa (mínimo, máximo, medio y de mediana) para ayudarle a determinar un número óptimo de grupos para su análisis.
La herramienta Análisis de agrupación devuelve tres valores de salida derivados para uso potencial en modelos y secuencias de comandos personalizados. Estos son los pseudoelementos de estadística F para el Número de grupos (Output_FStat),la mayor estadística F pseudo para grupos 2 a través de 15 (Max_FStat), y el número de grupos asociados con el mayor valor de estadística F pseudo (Max_FStat_Group). Cuando usted no elige Evaluar el número óptimo de grupos, todas las variables de salida derivadas se establecen en Ninguno.
El número de grupo asignado a un conjunto de entidades puede cambiar de una ejecución a la siguiente. Por ejemplo, supongamos que divide las entidades en dos grupos basados en una variable de ingresos. La primera vez que ejecuta el análisis puede ver las entidades de ingresos altos etiquetados como grupo 2 y las entidades de bajos ingresos etiquetadas como grupo 1; la segunda vez que ejecute el mismo análisis, las entidades de altos ingresos pueden estar etiquetadas como grupo 1. También puede ver que algunas de las entidades de ingresos medios cambia la pertenencia al grupo de una ejecución a otra cuando se especifica NO_SPATIAL_CONSTRAINT.
Si bien puede seleccionar crear un gran número de diferentes grupos, en la mayoría de los escenarios probablemente tendrá que dividir entidades en unos pocos grupos. Porque los gráficos y mapas resultan difíciles de interpretar con muchos grupos, ningún informe se crea cuando se introduce un valor mayor que 15 para el parámetro Número de grupos o selecciona más de 15 Campos de análisis. Sin embargo, puede aumentar este límite sobre el número máximo de grupos.
Inmersión:Debido a que tiene el código fuente de Python para la herramienta Análisis de agrupación, puede invalidar la limitación de 15 variables/15 informes de grupo de si lo desea. Este límite máximo se establece por dos variables en el archivo de secuencia de comandos Partition.py y el código de validación de la herramienta dentro de la caja de herramientas Estadísticas espaciales:
maxNumGroups = 15 maxNumVars = 15
Esta herramienta creará opcionalmente un informe en PDF que resume los resultados. Los archivos PDF no aparecen automáticamente en la ventana Catálogo. Si desea que los archivos PDF se muestren en Catálogo, abra la aplicación ArcCatalog, seleccione la opción de menú Personalizar, haga clic en Opciones de ArcCatalog y seleccione la pestaña Tipos de archivo. Haga clic en el botón Nuevo tipo y especifique PDF, según se muestra abajo, para Extensión de archivo.
En los equipos configurados con los paquetes de idiomas de ArcGIS para chino o japonés, es posible que observe que falta texto o problemas de formato en el Archivo de informe de salida en PDF. Estos problemas se puede corregir al cambiar la configuración de fuente.
Para obtener más información sobre el Archivo de informe de salida, consulte Más información sobre cómo funciona el Análisis de agrupamiento
Sintaxis
Parámetro | Explicación | Tipo de datos |
Input_Features |
La clase de entidad o capa de entidades para la que desea crear grupos. | Feature Layer |
Unique_ID_Field |
Un campo de entero que contiene un valor diferente para cada entidad en el dataset Entidades de entrada. | Field |
Output_Feature_Class |
La nueva clase de entidad de salida creada que contiene todas las entidades, los campos de análisis especificados, y un campo que indica a qué Grupo pertenece a cada entidad. | Feature Class |
Number_of_Groups |
El número de grupos a crear. El parámetro Informe de salida estará deshabilitado para más de 15 grupos. | Long |
Analysis_Fields [Analysis_Fields,...] |
Una lista de los campos que desea utilizar para distinguir a un grupo de otro. El parámetro Informe de salida estará deshabilitado para más de 15 campos. | Field |
Spatial_Constraints |
Especifica si y cómo las relaciones espaciales entre entidades deben restringir los grupos creados.
| String |
Distance_Method (Opcional) |
Especifica cómo se calculan las distancias desde cada entidad hasta las entidades vecinas.
| String |
Number_of_Neighbors (Opcional) |
Este parámetro está habilitado cuando el parámetro Restricciones espaciales es K_NEAREST_NEIGHBORS o uno de los métodos de CONTIGÜIDAD. El número de vecinos predeterminado es 8. Para K_NEAREST_NEIGHBORS, este valor entero refleja el número exacto de los posibles vecinos más próximos a considerar al crear los grupos. Una entidad no se incluirán en un grupo a menos que una de las demás entidades en este grupo sea un vecino K más próximo. Para los métodos de CONTIGÜIDAD, este valor refleja el número exacto de posibles vecinos a considerar solo para los polígonos islas. Puesto que los polígonos islas no tienen vecinos contiguos, se les asignará vecinos que no son contiguos, pero que están cerca. | Long |
Weights_Matrix_File (Opcional) |
La ruta a un archivo que contiene las ponderaciones espaciales que definen las relaciones espaciales entre las entidades. | File |
Initialization_Method (Opcional) |
Especifica cómo se obtienen seeds iniciales cuando el parámetro Restricción espacial seleccionado es NO_SPATIAL_CONSTRAINT. Los seeds se utilizan para aumentar los grupos. Si usted indicar que desea 3 grupos, por ejemplo, el análisis comenzará con tres seeds.
| String |
Initialization_Field (Opcional) |
El campo numérico identifica entidades seed. Las entidades con un valor de 1 para este campo se utilizarán para grupos de aumento. | Field |
Output_Report_File (Opcional) |
La ruta de acceso completa para el archivo de informe .pdf se creará resumiendo las características de grupo. Este informe ofrece una serie de gráficos para ayudarle a comparar las características de cada grupo. Crear el archivo de informe puede agregar tiempo de procesamiento sustancial. | File |
Evaluate_Optimal_Number_of_Groups (Opcional) |
| Boolean |
Ejemplo de código
La siguiente secuencia de comandos de la ventana de Python demuestra cómo utilizar la herramienta GroupingAnalysis.
import arcpy import arcpy.stats as SS arcpy.env.workspace = r"C:\GA" SS.GroupingAnalysis("Dist_Vandalism.shp", "TARGET_FID", "outGSF.shp", "4", "Join_Count;TOTPOP_CY;VACANT_CY;UNEMP_CY", "NO_SPATIAL_CONSRAINT", "EUCLIDEAN", "", "", "FIND_SEED_LOCATIONS", "", "outGSF.pdf", "DO_NOT_EVALUATE")
La siguiente secuencia de comandos de Python independiente muestra cómo utilizar la herramienta GroupingAnalysis.
# Grouping Analysis of Vandalism data in a metropolitan area # using the Grouping Analysis Tool # Import system modules import arcpy, os import arcpy.stats as SS # Set geoprocessor object property to overwrite existing output, by default arcpy.gp.overwriteOutput = True try: # Set the current workspace (to avoid having to specify the full path to # the feature classes each time) arcpy.env.workspace = r"C:\GA" # Join the 911 Call Point feature class to the Block Group Polygon feature class # Process: Spatial Join fieldMappings = arcpy.FieldMappings() fieldMappings.addTable("ReportingDistricts.shp") fieldMappings.addTable("Vandalism2006.shp") sj = arcpy.SpatialJoin_analysis("ReportingDistricts.shp", "Vandalism2006.shp", "Dist_Vand.shp", "JOIN_ONE_TO_ONE", "KEEP_ALL", fieldMappings, "COMPLETELY_CONTAINS", "", "") # Use Grouping Anlysis tool to create groups based on different variables or analysis fields # Process: Group Similar Features ga = SS.GroupingAnalysis("Dist_Vand.shp", "TARGET_FID", "outGSF.shp", "4", "Join_Count;TOTPOP_CY;VACANT_CY;UNEMP_CY", "NO_SPATIAL_CONSRAINT", "EUCLIDEAN", "", "", "FIND_SEED_LOCATIONS", "", "outGSF.pdf", "DO_NOT_EVALUATE") # Use Summary Statistic tool to get the Mean of variables used to group # Process: Summary Statistics SumStat = arcpy.Statistics_analysis("outGSF.shp", "outSS", "Join_Count MEAN; \ VACANT_CY MEAN;TOTPOP_CY MEAN;UNEMP_CY MEAN", "GSF_GROUP") except: # If an error occurred when running the tool, print out the error message. print arcpy.GetMessages()
Entornos
- Sistema de coordenadas de salida
La geometría de la entidad se proyecta al Sistema de coordenadas de salida antes del análisis, por lo tanto los valores introducidos para el parámetro Banda de distancia o distancia de umbral deben coincidir con los que se especificaron en el Sistema de coordenadas de salida. Todos los cálculos matemáticos se basan en la referencia espacial del sistema de coordenadas de salida.