Cómo funciona Análisis de agrupamiento

Cuando nos fijamos en el mundo que nos rodea, es muy natural que organicemos, agrupemos, diferenciemos y cataloguemos lo que vemos para ayudarnos a tener un mejor sentido al respecto; este tipo de proceso de clasificación mental es fundamental para el aprendizaje y la comprensión. Del mismo modo, para ayudarle a aprender y comprender mejor los datos, puede utilizar la herramienta Análisis de agrupamiento. Esta realiza un procedimiento de clasificación que intenta encontrar clusters naturales en los datos. Dado el número de grupos a crear, buscará una solución en la que todas las entidades dentro de cada grupo son lo más parecido posible, y todos los grupos en sí son tan diferentes como sea posible. La similitud de las entidades se basa en el conjunto de atributos que especifica para el parámetro Campos de análisis y también pueden incorporar de manera opcional las propiedades espaciales o las propiedades de espacio-tiempo. Cuando se especifican las Restricciones espaciales de espacio o espacio-tiempo, el algoritmo emplea un gráfico de conectividad (árbol de expansión mínima) para encontrar agrupaciones naturales. Cuando se especifica NO_SPATIAL_CONSTRAINT, la herramienta Análisis de agrupamiento utiliza un algoritmo de valores medios K.

A pesar de que existen cientos de algoritmos de análisis cluster, todos ellos están clasificados como NP-duro. Esto significa que la única forma de garantizar que una solución maximizará perfectamente tanto las similitudes dentro del grupo como las diferencias entre grupos es tratar cada combinación posible de las entidades que desee agrupar. Aunque esto puede ser viable con unas cuantas entidades, el problema rápidamente se convierte en incorregible.

No solo es incorregible para garantizar que ha encontrado una solución óptima, sino también es poco realista intentar identificar un algoritmo de agrupamiento que funcionará mejor para todos los escenarios de datos posibles. Los grupos son de diferentes formas, tamaños y densidades; los datos de atributos pueden incluir una variedad de rangos, simetría, continuidad y unidades de medición. Esto explica por qué tantos algoritmos de análisis cluster diferentes han sido desarrollados durante los últimos 50 años. Es más adecuado, por lo tanto, pensar en Análisis de agrupamiento como una herramienta de exploración que puede ayudarle a obtener más información sobre estructuras subyacentes en los datos.

Potenciales aplicaciones

Algunas de las maneras en que esta herramienta podría aplicarse son

Entradas

Esta herramienta toma las Entidades de entrada punto, polilínea o polígono, un campo de Id. único, una ruta para la Clase de entidad de salida, uno o más Campos de análisis, un valor entero que representa el Número de grupos a crear y el tipo de Restricción espacial, si la hay, que debería aplicarse en el algoritmo de agrupamiento. También hay una serie de parámetros opcionales incluido uno que le permite crear un Archivo de informe de salida en PDF.

Campos de análisis

Seleccione los campos que son numéricos y que reflejan relación, intervalo o sistemas de medición ordinales. A pesar de que los datos Nominales se pueden representar mediante variables simuladas (binarias), estos por lo general no funcionan tan bien como los demás tipos de variables numéricas. Por ejemplo, podría crear una variable llamada Rural y asignar a cada entidad (cada distrito censal, por ejemplo) un 1 si es principalmente rural y un 0 si es principalmente urbana. Sin embargo, una mejor representación de esta variable para el uso con Análisis de agrupamiento, sería la cantidad o la proporción de extensión rural asociada con cada entidad.

Debe seleccionar las variables que considere que distinguirán un grupo de entidades de otro. Supongamos, por ejemplo, que está interesado en agrupar distritos escolares por rendimiento de los estudiantes sobre pruebas estandarizadas de logros. Podría seleccionar Campos de análisis que incluyan los resultados generales de las pruebas, los resultados de temas específicos como matemáticas o lectura, la proporción de los estudiantes que cumplen con un umbral de puntuación mínima en las pruebas, y así sucesivamente. Cuando ejecuta la herramienta Análisis de agrupamiento, se calcula un valor R2 para cada variable. En el siguiente resumen, por ejemplo, los distritos escolares se agrupan con base en las puntuaciones de las pruebas de los estudiantes, el porcentaje de los adultos en el área que no terminaron la escuela secundaria, por gasto por estudiante y la relación promedio entre estudiantes-profesores. Observe que la variable TestScores tiene el valor R2 más alto. Esto indica que esta variable divide los distritos escolares en grupos de forma más eficaz. El valor R2 refleja cuánto de la variación en los datos originales de TestScores se mantuvo después del proceso de agrupamiento, de modo que mientras más alto sea el valor R2 para una variable específica, mejor es esa variable en la discriminación entre las entidades.

Resumen de variables de análisis de agrupamiento

InmersiónInmersión:

R2 se calcula como:

(TSS-ESS)/TSS

donde TSS es la suma total de cuadrados y EES es la suma explicada de los cuadrados. TSS se calcula al elevar al cuadrado y luego sumar las desviaciones del valor medio global de una variable. ESS se calcula de la misma manera, excepto que las desviaciones se agrupan por grupo: cada valor se resta del valor medio para del grupo al que pertenece, luego se eleva al cuadrado y se suma.

Número de grupos

A veces sabrá cuál es el número de grupos más adecuado para su pregunta o problema. Si tiene cinco gerentes de ventas y desea asignar cada uno a su propia región contigua, por ejemplo, debe utilizar 5 para el parámetro Cantidad de grupos. En muchos casos, sin embargo, usted no tendrá ninguna criterio para seleccionar una cantidad específica de grupos; en lugar de ello, solo desea el número que mejor distingue las similitudes y diferencias de las entidades. Para ayudarle en esta situación, puede activar el parámetro Evaluar la cantidad óptima de grupos y permitir que la herramienta Análisis de agrupamiento evalúe la eficacia de dividir las entidades en 2, 3, 4 y hasta 15 grupos. La eficacia del agrupamiento se mide mediante el pseudo índice estadístico F Calinski-Harabasz, que es una proporción que refleja la similitud entre grupos y las diferencias entre grupos:

Pseudo índice estadístico F Calinski-Harabasz:

Restricción espacial

Si desea que los grupos resultante sean proximales espacialmente, especifique una restricción espacial. Las opciones de CONTIGÜIDAD están habilitadas para las clases de entidad poligonal e indican que las entidades solo pueden ser parte del mismo grupo si comparten un borde (CONTIGUITY_EDGES_ONLY) o si comparten un borde o un vértice (CONTIGUITY_EDGES_CORNERS) con otro miembro del grupo. Las opciones de contigüidad de polígono no son buenas opciones, sin embargo, si su dataset incluye clusters de polígonos no adyacentes o polígonos sin vecinos contiguos en absoluto:

Polígonos no adyacentes

Las opciones DELAUNAY_TRIANGULATION y K_NEAREST_NEIGHBORS son apropiadas ambas para las entidades de punto o poligonales; estas opciones indican que una entidad solo se incluirá en un grupo si al menos otro miembro del grupo es un vecino natural (Triangulación de Delaunay) o un Vecino más próximo K. Si selecciona K_NEAREST_NEIGHBORS y escribe un 12 para el parámetro Cantidad de vecinos, por ejemplo, cada entidad en un grupo estará dentro de 12 vecinos más cercanos de al menos una de las demás entidades en el grupo.

La opción DELAUNAY_TRIANGULATION no debería utilizarse para los datasets con entidades coincidentes. También, debido que el método Triangulación de Delaunay convierte entidades a los polígonos de Thiessen para determinar las relaciones de vecinos, especialmente con las entidades poligonales y algunas veces con entidades periféricas en el dataset, los resultados de usar esta opción pueden no ser siempre lo que esperaba. En la siguiente ilustración, observe que algunos de los polígonos originales agrupados no son contiguos; sin embargo, cuando se convierten a polígonos de Thiessen, todas las entidades agrupadas, de hecho, comparten un borde:

Ejemplo de Triangulación de Delaunay
Para la Triangulación de Delaunay, la contigüidad del polígono de Thiessen define las relaciones de vecinos.

Si desea que los grupos resultantes sean proximales tanto espacialmente como temporalmente, cree un archivo de matriz de ponderaciones espaciales (SWM) utilizando la herramienta Generate_Spatial_Weights_Matrix y seleccione SPACE_TIME_WINDOW para el parámetro Conceptualización de relaciones espaciales. A continuación, puede especificar el archivo SWM que creó con la herramienta Generar matriz de ponderaciones espaciales para el parámetro Archivo de matriz de ponderaciones cuando ejecute Análisis de agrupamiento.

NotaNota:

Mientras que las relaciones espaciales entre las entidades se almacenan en un archivo SWM y las utiliza la herramienta Análisis de agrupamiento para imponer restricciones espaciales, no hay una ponderación real implicada en el proceso de agrupamiento. El archivo SWM solo se utiliza para rastrear qué entidades pueden incluirse en un mismo grupo y cuáles no.

Para muchos análisis, la imposición de una restricción espacial o de espacio-tiempo no es ni necesaria ni útil. Por ejemplo, supongamos que desea agrupar los incidentes de delincuencia por atributos del perpetrador (altura, edad, gravedad de la delincuencia y así sucesivamente). A pesar de que los delitos cometidos por la misma persona tienden a ser proximales, es poco probable que descubra que todos los delitos en un área en particular fueron cometidos por la misma persona. Para este tipo de análisis, debe seleccionar NO_SPATIAL_CONSTRAINT para el parámetro Restricciones espaciales. Sin embargo, puede ser que elija incluir algunas variables espaciales (proximidad a los bancos, por ejemplo) en la lista de Campos de análisis para captar algunos de los aspectos espaciales de los delitos que está analizando.

Valores medios K

Cuando selecciona NO_SPATIAL_CONSTRAINT para el parámetro Restricciones espaciales, se utiliza un algoritmo de valores medios K para agrupar. El objetivo del algoritmo de valores medios K es para dividir las entidades de manera que las diferencias que existen entre las entidades en un grupo, en todos los grupos, se minimice. Debido a que el algoritmo es NP-duro, se utiliza una heurística codiciosa para agrupar las entidades. El algoritmo codicioso siempre convergirá en un mínimo local, pero no siempre encontrará el mínimo global (más óptimo).

El algoritmo de valores medios K funciona identificando primero las entidades semilla utilizadas para hacer crecer cada grupo. Por consiguiente, el número de semillas siempre coincidirá con el Número de grupos. La primera semilla se selecciona de manera aleatoria. Sin embargo, la selección de las semillas que quedan, mientras aún se emplea un componente aleatorio, aplica una ponderación que favorece la selección de semillas posteriores más adelante en el espacio de datos desde el conjunto existente de entidades de semillas (esta parte del algoritmo se denomina valores medios K ++). Debido al componente aleatorio para buscar entidades de semillas cuando selecciona FIND_SEED_LOCATIONS o USE_RANDOM_SEEDS para el Método de inicialización, usted puede obtener variaciones en los resultados de agrupamiento de una ejecución de la herramienta a la siguiente.

Una vez se identifican las entidades de semillas, se asignan todas las entidades a la entidad de semilla más cercana (más cercana en el espacio de datos). Para cada cluster de entidades, se calcula un centro medio de datos, y se vuelve a asignar cada entidad al centro más cercano. El proceso de calcular un centro medio de datos para cada grupo y luego reasignar las entidades al centro más cercano continúa hasta que se estabiliza la pertenencia al grupo (hasta un número máximo de 100 iteraciones).

Árbol de expansión mínima

Cuando especifica una restricción espacial para limitar la pertenencia al grupo a entidades contiguas o proximales, la herramienta primero construye un gráfico de conectividad que representa las relaciones de vecindad entre las entidades. Desde el gráfico de conectividad, se concibe un árbol de expansión mínima que resume las relaciones espaciales de la entidad y la similitud de datos de la entidad. Las entidades se convierten en nodos en el árbol de expansión mínima conectadas por medio de bordes ponderados. El peso de cada borde es proporcional a la similitud de los objetos que conecta. Después de construir el árbol de expansión mínima, se corta una rama (borde) del árbol, creando dos árbol de expansión mínima. El borde que se debe cortar se selecciona de manera que minimice la falta de similitud en los grupos resultantes, a la vez que evita (si es posible) clases invidivuales (grupos con solo una entidad). En cada iteración uno de los árboles de expansión mínima se divide por medio de este proceso de corte hasta que se obtiene el Número de Grupos especificado. El método publicado empleado se llama SKATER (Análisis de "K"luster espacial por medio de eliminación de bordes del árbol). A pesar de que se selecciona la rama que optimiza la similitud del grupo para el corte en cada iteración, no hay ninguna garantía de que el resultado final sea óptimo.

Salidas

La herramienta Análisis de agrupamiento crea un número de resultados. Todos estos (incluido el archivo de informe PDF opcional) se pueden acceder desde la ventana Resultados. Si deshabilita procesamiento en segundo plano, los resultados también se escriben en el cuadro de diálogo Progreso. Estos mensajes (que se muestra a continuación) resumen la información que se presenta en el informe PDF opcional (que se describe a continuación).

Ventana de progreso del análisis de agrupamiento

La salida predeterminada para la herramienta Análisis de agrupamiento es una nueva Clase de entidad de salida que contiene los campos que se utilizan en el análisis más un nuevo campo de Enteros llamado SS_GROUP que identifica a qué grupo pertenece cada entidad. Esta clase de entidad de salida se agrega a la tabla de contenido con un esquema de representación de color único aplicado al campo SS_GROUP. La representación vacía en pantalla indica que las entidades no se pudieron agregar a ningún grupo, normalmente porque no tienen entidades vecinas. Si especifica NO_SPATIAL_CONSTRAINT para el parámetro Restricciones espaciales, se agrega un campo adicional, SS_SEED, a la clase de entidad de salida para indicar qué entidades de semillas se utilizaron para hacer crecer los grupos.

Clase de entidad de salida del análisis de agrupamiento
Agrupamiento con la restricción espacial de contigüidad

Archivo de informe de análisis de agrupamiento

Si especifica una ruta para el parámetro Archivo de informe de salida, se crea un PDF que resume los grupos que se han creado.

NotaNota:

Crear el archivo de informe opcional puede agregar tiempo de procesamiento sustancial. Por consiguiente, a pesar de que el Análisis de agrupamiento siempre creará una clase de entidad de salida que muestra la pertenencia al grupo, el informe de archivo PDF no se creará si especifica más de 15 grupos o más de 15 variables.

Los diagramas de caja se incluyen en todo el informe, por lo tanto el primer elemento en el informe es un gráfico que muestra cómo interpretarlos (vea a continuación). Los gráficos de caja en el informe Análisis de agrupamiento representan gráficamente nueve valores de resumen para cada campo de análisis y grupo: valor mínimo de datos, cuartil inferior, mediano, cuartil superior, valor máximo de datos, los valores atípicos de datos (valores más pequeños o más grandes que 1.5 veces el rango entre cuartiles), mínimo del grupo, valor medio del grupo y máximo del grupo. Cualquier marca de "+" que caiga fuera de la patilla superior o inferior representa valores atípicos de datos.
InmersiónInmersión:

El rango entre cuartiles (IQR) es el cuartil superior menos el cuartil inferior. Los valores atípicos bajos serían valores menores que 1.5*IQR (Q1-1.5*IQR) y los valores atípicos altos serían valores mayores que 1.5*IQR (Q3+1.5*IQR). Los valores atípicos aparecen en los diagramas de caja como símbolos "+".

La primera página del informe compara las variables (los Campos de análisis) dentro de cada grupo entre sí. En el informe que se presenta a continuación, por ejemplo, el Análisis de agrupamiento se realizó en los distritos censales para crear cuatro grupos. El resumen de estadísticas para cada grupo se imprime con un color diferente (azul, rojo, verde y dorado). El primer conjunto de estadísticas del resumen se imprimen en negro porque estos son los Valores medio, Desviación estándar (Desv. estándar), Valor mínimo, Valor máximo y R2 globales para todos los datos en cada campo de análisis. Cuanto mayor sea el valor R2 para una variable específica, mejor será esa variable en la discriminación entre las entidades. Después de los resúmenes globales, el Valor medio, Desviación estándar, el Valor mínimo, Valor máximo y Compartir valores se muestran para cada variable en cada grupo. En el informe que se presenta a continuación, por ejemplo, puede ver que el Grupo 1 (azul) contiene 52 por ciento del rango de valores en la variable AGE_UNDER5 global; el rango global de valores es de 0 a 1.453 niños menores de 5 años de edad, y el grupo azul contiene distritos con de 488 a 1.246 niños menores de 5 años de edad. El número promedio de niños menores de 5 años de edad para los distritos en el grupo azul es 805,3750. El diagrama de caja a la derecha del resumen estadístico del grupo azul muestra cómo los valores del grupo se refieren a los valores globales para ese mismo campo de análisis. Observe que el punto azul en el diagrama de caja cae fuera del cuartil superior y que la primera línea vertical azul (que representa el valor mínimo de los distritos del grupo azul) es superior al valor medio de este campo. De hecho, al analizar en donde quedan los puntos azules en los diagramas de caja para todas las variables, puede ver que, con excepción de la variable MEDIANRENT, los valores medios de todos los campos de análisis están por encima del cuartil superior. Este grupo tiene el rango más alto de valores en comparación con los demás grupos.

InmersiónInmersión:

El valor de la Porción es la relación del grupo y el rango global. Para el grupo 1 y la variable AGE_UNDER5, por ejemplo, la porción del 52 por ciento se obtiene al dividir el rango de grupo (1246-488= 758) por el rango global (1453-0=1453), que produce 0.52 cuando se redondea a dos dígitos significativos.

Resumen de grupo
Sección 1 del informe de salida

La segunda sección del informe compara los rangos de las variable de cada grupo, un campo de análisis (variable) a la vez. Con esta vista de los datos, es fácil ver qué grupo tiene el rango más alto y más bajo de valores en cada variable. Los valores mínimo, medio y máximo del grupo se superponen en la parte superior del diagrama de caja reflejando todos los valores. Observe que el grupo 4 (naranja) tiene los valores más bajos de la variable MEDIANRENT. Los valores mínimo, medio y máximo de este grupo son más bajos que para cualquier otro grupo.

Resumen de variables
Sección 2 del informe de salida

El gráfico de diagrama de caja paralelo resume tanto los grupos y las variables dentro de ellos. En el gráfico a continuación, observe que el grupo 1 (azul) refleja distritos con rentas promedio, los valores más altos para los hogares liderados por mujeres con hijos (FHH_CHILD), los valores más altos para la cantidad de unidades de vivienda (HSE_UNITS) y los valores más altos para los niños menores de 5 años. El grupo 2 (rojo) refleja distritos con las rentas medias más altas, el número más bajo de hogares liderados por mujeres con hijos, más que el número promedio de unidades de vivienda (aunque menos de los distritos en los grupos 1 o 3) y el menor número de niños menores de 5 años de edad.

Diagrama de caja de análisis de agrupamiento
Diagrama de caja paralelo en el informe de salida

Al marcar la casilla en el parámetro Evaluar el número óptimo de grupos, el archivo del informe en PDF incluirá un gráfico de valores pseudo estadísticos F. El punto dentro de un círculo en el gráfico es la estadística F más grande, que indica cuántos grupos serán más eficaces para distinguir las entidades y las variables que especificó. En el gráfico a continuación, la estadística F asociada con cuatro grupos es la más alta. Cinco grupos, con una pseudo estadística F alta, también serían una buena elección.

Gráfico de pseudo estadística F
El diagrama de pseudo estadística F en el informe de salida

Mejores prácticas

Aunque hay una tendencia de querer incluir el mayor número de Campos de análisis posible, para Análisis de agrupamiento, funciona mejor comenzar con una variable única y construir. Los resultados son mucho más fáciles de interpretar con menos campos de análisis. También es más fácil determinar qué variables son los mejores discriminadores cuando hay menos campos.

En muchos casos, es probable que ejecute la herramienta Análisis de agrupamiento varias veces buscando el Número de grupos óptimo, las Restricciones espaciales más efectivas y la combinación de Campos de análisis que mejor separe las entidades en grupos. Debido que la creación del Informe de salida puede agregar tiempo de procesamiento sustancial, es probable que no desee crear el informe mientras está experimentando con diferentes parámetros de entrada.

Recursos adicionales

Duque, J. C., R. Ramos y J. Surinach. 2007. "Métodos de regionalización supervisada: Una encuesta" en Revisión Internacional de la Ciencia Regional 30: 195–220.

Assuncao, R. M., M. C. Neves, G. Camara y C. Da Costa Freitas. 2006. "Técnicas eficientes de regionalización para unidades geográficas socio-económicas utilizando árboles de expansión mínima" en International Journal of Geographical Information Science 20 (7): 797–811.

Jain, A. K. 2009. "Clustering de datos: 50 años más allá de los valores K". Cartas de reconocimiento de patrones.

Hinde, A., T. Whiteway, R. Ruddick y A. D. Heap. 2007. "Marinas del margen australiano y el suelo marino adyacente: Metodología de Keystroke". en Geoscience Australia, Registro 2007/10, 58 págs.

9/11/2013