Métodos de cálculo para el muestreo
La comprobación de Muestreo incluida con Data Reviewer le permite crear un conjunto de entidades de muestra que se seleccionan de forma aleatoria a partir de una o más capas. Hay varios métodos que se pueden utilizar para calcular el tamaño de la muestra y determinar qué capas de entidades se incluirán en la muestra.
La muestra se calcula en base a uno de los siguientes métodos:
- Un número fijo de entidades
- Un porcentaje de todas las entidades en una extensión especificada
- Un número derivado de un cálculo basado en el nivel de confianza, margen de error y nivel de aceptación
- Una cuadrícula poligonal que se carga en el mapa o desde una geodatabase
Todos los métodos de cálculo utilizan valores de peso para determinar el número de entidades que se incluirán como parte de la muestra.
Un número fijo de entidades.
Cuando especifica un número de entidades que se incluirán en la muestra, los pesos asignados a cada capa se utilizan para determinar el número de entidades que se incluirán en la muestra.
Un porcentaje de todas las entidades en la extensión o base de datos
Con la comprobación de Muestreo, puede elegir generar una muestra en base a un porcentaje de todas las entidades en el mapa. Esto significa que de todas las entidades en la cuadrícula o extensión, se selecciona un porcentaje específico para la muestra. Los pesos se utilizan para determinar cuántas entidades de cada capa se incluirán como parte de la muestra.
A continuación encontrará dos ejemplos en los que se calcula la muestra para un porcentaje de entidades en el dataset. El primero utiliza el mismo número de entidades en cada capa de entidades y el otro utiliza diferentes números de entidades en cada capa.
Las variables utilizadas en los ejemplos son las siguientes:
Variable | Descripción | Valores para ejemplo 1 | Valores para ejemplo 2 |
---|---|---|---|
F | Número de entidades para la muestra | Varía para cada capa | Varía para cada capa |
L | Número de entidades en cada capa | Varía para cada capa | Varía para cada capa |
W | Peso asignado para cada capa | Varía para cada capa | Varía para cada capa |
WF | Número de entidades ponderadas | Varía para cada capa | Varía para cada capa |
N | Factor de normalización | 3 | 2 |
S | Porcentaje de muestreo dividido entre 100 | 0.2 | 0.3 |
T | Número total de entidades | 1500 | 500 |
Ejemplo 1: Capas de muestra con un número consistente de entidades
Este primer ejemplo busca el número de entidades para obtener la muestra de cada capa de grupo que se muestra a continuación, con un porcentaje de muestreo de 20. El número de entidades en cada capa y los pesos para cada capa se muestran a continuación.
Nombre de capa | L | W | WF | F = S * (WF)/N |
---|---|---|---|---|
RoadL | 300 | 1 | 1500 | 100 |
WatrcrsL | 300 | 2 | 1200 | 80 |
ContourL | 300 | 3 | 900 | 60 |
PolbndL | 300 | 4 | 600 | 40 |
TreesA | 300 | 5 | 300 | 20 |
Total | 1500 | 4500 | 300 |
El método de cálculo utilizado para la muestra es el siguiente:
- Para cada capa, calcular WF utilizando L * ((5-W) + 1).
Por ejemplo, para RoadL, WF es 1500.
- Calcular T usando L, que es 1500.
- Calcular N usando WF/L, que es 4500/1500 = 3.
- Para cada capa, calcular F utilizando S * WF/N.
Por ejemplo, para RoadL, se calcula como ,20 * 1500/3 = 100.
- Verificar que F = S * T.
Por ejemplo, 300 = ,20 * 1500.
Observe que en el ejemplo anterior, debido a que el número de entidades en cada capa era igual, RoadL, con un peso de 1, tenía cinco veces más entidades en la muestra final que TreesA, con un peso de 1. WatrcrsL, con un peso de 2, tenía cuatro veces más, y así sucesivamente.
Ejemplo 2: Capas de muestra con un número variable de entidades
Este ejemplo busca el número de entidades para el muestreo de cada capa de grupo que se muestra a continuación, con un porcentaje de muestreo de 30. El número de entidades en cada capa y los pesos para cada capa se muestran en la tabla a continuación.
Nombre de capa | L | W | WF | F = S * (L*W)/N |
---|---|---|---|---|
RoadL | 100 | 3 | 300 | 45 |
WatrcrsL | 200 | 4 | 400 | 60 |
PolbndL | 50 | 3 | 150 | 22 |
TreesA | 150 | 5 | 150 | 23 |
Total | 500 | 1000 | 150 |
El método de cálculo utilizado para la muestra es el siguiente:
- Para cada capa, calcular WF utilizando L * ((5-W) + 1).
Por ejemplo, para RoadL, WF es 300.
- Calcular T usando L, que es 500.
- Calcular N usando WF/L, que es 1000/500 = 2.
- Para cada capa, calcular F utilizando S * WF/N.
Por ejemplo, para RoadL, es ,30 * 300/2 = 45.
- Verificar que F = S * T.
Por ejemplo, 150 = ,30 * 500.
Un cálculo basado en el nivel de confianza, margen de error y nivel de aceptación
El método de cálculo automático para determinar el tamaño de la muestra está dirigido a organizaciones que desean responder las siguientes preguntas con la comprobación de Muestreo:
- Dado un tamaño de población, ¿qué tamaño de muestra necesito para que el tamaño de mi muestra sea estadísticamente significativo en cierto intervalo de confianza, más o menos un error aceptable en el intervalo de confianza?
- Dado mi tamaño de muestra, ¿cuántas entidades pueden fallar la inspección antes de que el dataset completo falle, dada un cierto índice o porcentaje de error de objetivo?
El tamaño de la muestra se determina basado en cuatro factores:
- La probabilidad ( p) del resultado, es decir, dada una entidad, la probabilidad de "éxito" frente a un "error". Este valor se maximiza a 0,5; es decir, debido a que no tenemos conocimiento previo de una probabilidad anterior que indique que un cierto porcentaje de entidades de un cliente dado pasará o fallará, existe una probabilidad igual de que la entidad pase o falle, por lo que 0,5 es el valor utilizado en la herramienta. 0,5 representa al valor más pesimista (conservador) cuando se utiliza en la ecuación de varianza p(1- p). Es decir, p(1 - p) se maximiza cuando p = 0,5.
- El tamaño de la población (N).
- El margen aceptable de error en el intervalo de confianza (m).
- La estadística z para el nivel de confianza deseado (z). Esto se utiliza para comparar la muestra con una distribución normal. El valor lo proporciona una tabla de búsqueda.
Para una población infinita, la ecuación para determinar el tamaño de la muestra (n) es:
n = ((z/m)2)(p (1 - p))
Este valor debe entonces truncarse para ajustarse a la población real, lo que da el tamaño de muestra real (n'):
n' = n(N)/(n + (N - 1))
Umbral de error
El valor del umbral de error lo establece la ecuación Prueba de proporciones. Esta ecuación determina si el número de errores es suficientemente significativo para que falle el dataset completo, dado un tamaño de población, intervalo de confianza e índice de error especificado. La determinación del umbral de error depende de tres factores:
- El tamaño de la población (n' desde arriba)
- El índice de error máximo aceptable (r)
- La estadística z para el intervalo de confianza deseado z), que se utiliza para comparar la muestra con una distribución normal. Este valor lo proporciona una tabla de búsqueda.
El índice de error máximo permisible (r) lo proporciona esta ecuación:
Debido a que este es un índice, el valor resultante se debe entonces multiplicar por el tamaño de la muestra para obtener el número máximo de errores permisible (f):
Solución
Si un dataset determinado no pasa (es decir, el número de errores reales excede el número de errores máximo permisible), no es suficiente arreglar los errores que se detectaron y luego aprobar el dataset. Si un dataset falla, significa que la muestra reveló una deficiencia en el dataset completo, no solo los errores detectados. Deberá mejorar la calidad del dataset completo para pasar un próxima prueba basada en una muestra aleatoria.
Referencias
Las siguientes referencias se utilizaron para determinar las ecuaciones utilizadas en la comprobación de Muestreo:
Burt, J., and G. Barber. Elementary Statistics for Geographers. New York: The Guilford Press. 1996.
McGrew, J., and C. Monroe. Introduction to Statistical Problem Solving in Geography, Second Edition. McGraw-Hill. 2000.
Una cuadrícula poligonal en el mapa o que se carga desde una geodatabase
Una cuadrícula poligonal le permite dividir un dataset grande en pequeñas secciones. Estas secciones se pueden utilizar para asignar áreas de responsabilidad para tareas de control de calidad (QC) o como las extensiones para hojas de mapa. Utilizar una cuadrícula poligonal con la comprobación de Muestreo le permite seleccionar el número de celdas de cuadrícula que le gustaría seleccionar de forma aleatoria. De esas celdas seleccionadas de forma aleatoria, la comprobación de Muestreo selecciona entidades de las clases de entidades que desea incluir con la muestra. Esto le permite realizar el QC en un porcentaje especificado de cuadrículas (hojas de mapa).