Métodos de cálculo para el muestreo

La comprobación de Muestreo incluida con Data Reviewer le permite crear un conjunto de entidades de muestra que se seleccionan de forma aleatoria a partir de una o más capas. Hay varios métodos que se pueden utilizar para calcular el tamaño de la muestra y determinar qué capas de entidades se incluirán en la muestra.

La muestra se calcula en base a uno de los siguientes métodos:

Todos los métodos de cálculo utilizan valores de peso para determinar el número de entidades que se incluirán como parte de la muestra.

Un número fijo de entidades.

Cuando especifica un número de entidades que se incluirán en la muestra, los pesos asignados a cada capa se utilizan para determinar el número de entidades que se incluirán en la muestra.

Un porcentaje de todas las entidades en la extensión o base de datos

Con la comprobación de Muestreo, puede elegir generar una muestra en base a un porcentaje de todas las entidades en el mapa. Esto significa que de todas las entidades en la cuadrícula o extensión, se selecciona un porcentaje específico para la muestra. Los pesos se utilizan para determinar cuántas entidades de cada capa se incluirán como parte de la muestra.

A continuación encontrará dos ejemplos en los que se calcula la muestra para un porcentaje de entidades en el dataset. El primero utiliza el mismo número de entidades en cada capa de entidades y el otro utiliza diferentes números de entidades en cada capa.

Las variables utilizadas en los ejemplos son las siguientes:

Variable

Descripción

Valores para ejemplo 1

Valores para ejemplo 2

F

Número de entidades para la muestra

Varía para cada capa

Varía para cada capa

L

Número de entidades en cada capa

Varía para cada capa

Varía para cada capa

W

Peso asignado para cada capa

Varía para cada capa

Varía para cada capa

WF

Número de entidades ponderadas

Varía para cada capa

Varía para cada capa

N

Factor de normalización

3

2

S

Porcentaje de muestreo dividido entre 100

0.2

0.3

T

Número total de entidades

1500

500

Ejemplo 1: Capas de muestra con un número consistente de entidades

Este primer ejemplo busca el número de entidades para obtener la muestra de cada capa de grupo que se muestra a continuación, con un porcentaje de muestreo de 20. El número de entidades en cada capa y los pesos para cada capa se muestran a continuación.

Nombre de capa

L

W

WF

F = S * (WF)/N

RoadL

300

1

1500

100

WatrcrsL

300

2

1200

80

ContourL

300

3

900

60

PolbndL

300

4

600

40

TreesA

300

5

300

20

Total

1500

4500

300

El método de cálculo utilizado para la muestra es el siguiente:

  1. Para cada capa, calcular WF utilizando L * ((5-W) + 1).

    Por ejemplo, para RoadL, WF es 1500.

  2. Calcular T usando L, que es 1500.
  3. Calcular N usando WF/L, que es 4500/1500 = 3.
  4. Para cada capa, calcular F utilizando S * WF/N.

    Por ejemplo, para RoadL, se calcula como ,20 * 1500/3 = 100.

  5. Verificar que F = S * T.

    Por ejemplo, 300 = ,20 * 1500.

NotaNota:

Observe que en el ejemplo anterior, debido a que el número de entidades en cada capa era igual, RoadL, con un peso de 1, tenía cinco veces más entidades en la muestra final que TreesA, con un peso de 1. WatrcrsL, con un peso de 2, tenía cuatro veces más, y así sucesivamente.

Ejemplo 2: Capas de muestra con un número variable de entidades

Este ejemplo busca el número de entidades para el muestreo de cada capa de grupo que se muestra a continuación, con un porcentaje de muestreo de 30. El número de entidades en cada capa y los pesos para cada capa se muestran en la tabla a continuación.

Nombre de capa

L

W

WF

F = S * (L*W)/N

RoadL

100

3

300

45

WatrcrsL

200

4

400

60

PolbndL

50

3

150

22

TreesA

150

5

150

23

Total

500

1000

150

El método de cálculo utilizado para la muestra es el siguiente:

  1. Para cada capa, calcular WF utilizando L * ((5-W) + 1).

    Por ejemplo, para RoadL, WF es 300.

  2. Calcular T usando L, que es 500.
  3. Calcular N usando WF/L, que es 1000/500 = 2.
  4. Para cada capa, calcular F utilizando S * WF/N.

    Por ejemplo, para RoadL, es ,30 * 300/2 = 45.

  5. Verificar que F = S * T.

    Por ejemplo, 150 = ,30 * 500.

Un cálculo basado en el nivel de confianza, margen de error y nivel de aceptación

El método de cálculo automático para determinar el tamaño de la muestra está dirigido a organizaciones que desean responder las siguientes preguntas con la comprobación de Muestreo:

El tamaño de la muestra se determina basado en cuatro factores:

Para una población infinita, la ecuación para determinar el tamaño de la muestra (n) es:

n = ((z/m)2)(p (1 - p))

Este valor debe entonces truncarse para ajustarse a la población real, lo que da el tamaño de muestra real (n'):

n' = n(N)/(n + (N - 1))

Umbral de error

El valor del umbral de error lo establece la ecuación Prueba de proporciones. Esta ecuación determina si el número de errores es suficientemente significativo para que falle el dataset completo, dado un tamaño de población, intervalo de confianza e índice de error especificado. La determinación del umbral de error depende de tres factores:

  • El tamaño de la población (n' desde arriba)
  • El índice de error máximo aceptable (r)
  • La estadística z para el intervalo de confianza deseado z), que se utiliza para comparar la muestra con una distribución normal. Este valor lo proporciona una tabla de búsqueda.

El índice de error máximo permisible (r) lo proporciona esta ecuación:

Ecuación para el índice de error máximo

Debido a que este es un índice, el valor resultante se debe entonces multiplicar por el tamaño de la muestra para obtener el número máximo de errores permisible (f):

Ecuación para determinar el número de errores máximos permitido

Solución

Si un dataset determinado no pasa (es decir, el número de errores reales excede el número de errores máximo permisible), no es suficiente arreglar los errores que se detectaron y luego aprobar el dataset. Si un dataset falla, significa que la muestra reveló una deficiencia en el dataset completo, no solo los errores detectados. Deberá mejorar la calidad del dataset completo para pasar un próxima prueba basada en una muestra aleatoria.

Referencias

Las siguientes referencias se utilizaron para determinar las ecuaciones utilizadas en la comprobación de Muestreo:

Burt, J., and G. Barber. Elementary Statistics for Geographers. New York: The Guilford Press. 1996.

McGrew, J., and C. Monroe. Introduction to Statistical Problem Solving in Geography, Second Edition. McGraw-Hill. 2000.

Una cuadrícula poligonal en el mapa o que se carga desde una geodatabase

Una cuadrícula poligonal le permite dividir un dataset grande en pequeñas secciones. Estas secciones se pueden utilizar para asignar áreas de responsabilidad para tareas de control de calidad (QC) o como las extensiones para hojas de mapa. Utilizar una cuadrícula poligonal con la comprobación de Muestreo le permite seleccionar el número de celdas de cuadrícula que le gustaría seleccionar de forma aleatoria. De esas celdas seleccionadas de forma aleatoria, la comprobación de Muestreo selecciona entidades de las clases de entidades que desea incluir con la muestra. Esto le permite realizar el QC en un porcentaje especificado de cuadrículas (hojas de mapa).

Temas relacionados

9/11/2013