Методы вычисления выборки

Проверка Выборки (Sampling), включенная в Data Reviewer, позволяет вам создавать выборку путем случайного подбора объектов из одного или более слоев. Существует несколько методов, используемых для вычисления размера выборки и определения участвующих в выборке векторных слоев.

Выборка вычисляется на основании одного из следующих методов:

Все методы расчета используют значения весов для определения количества объектов, которые будут включены в выборку.

Фиксированное число объектов

Когда вы указываете количество объектов для включения в выборку, веса, присвоенные каждому слою, определяют количество объектов в выборке из данного слоя.

Процент от всех объектов в экстенте или базе данных

В проверке Выборка (Sampling) вы можете выбрать создание выборки на основании процента от всех объектов карты. Это означает, что из всех объектов в сетке или экстенте для выборки выбирается указанное в процентах количество. Веса используются для определения количества включаемых в выборку объектов из каждого слоя.

Ниже представлены два примера вычисления выборки методом определения процента объектов из набора данных. Первый использует равное количество объектов в каждом векторном слое, а второй использует различное количество объектов для каждого слоя.

В примерах используются следующие переменные:

Переменная

Описание

Значение для примера 1

Значение для примера 2

F

Количество объектов в выборке

Различно для каждого слоя

Различно для каждого слоя

L

Число объектов в каждом слое

Различно для каждого слоя

Различно для каждого слоя

W

Вес, присвоенный каждому слою

Различно для каждого слоя

Различно для каждого слоя

WF

Взвешенное число объектов

Различно для каждого слоя

Различно для каждого слоя

N

Коэффициент нормализации

3

2

S

Процент выборки, деленный на 100

0.2

0.3

T

Общее число объектов

1500

500

Пример 1: слои выборки с одинаковым количеством объектов

В первом примере выполняется поиск количества объектов выборки для каждого составного слоя, показанного ниже, с процентом выборки 20. Количество объектов в каждом слое и веса для каждого слоя показаны ниже.

Имя слоя

L

W

WF

F = S * (WF)/N

Road L

300

1

1500

100

WatrcrsL

300

2

1200

80

ContourL

300

3

900

60

PolbndL

300

4

600

40

TreesA

300

5

300

20

Всего

1500

4500

300

Метод вычисления выборки для данного примера:

  1. Для каждого слоя рассчитывается WF, равное L * ((5-W) + 1).

    Например, для слоя RoadL, WF составляет 1500.

  2. Рассчитывается T, равное ∑L, то есть 1500.
  3. Рассчитывается N, равное ∑WF/∑L, то есть 4500/1500 = 3.
  4. Для каждого слоя рассчитывается F, равное S * WF/N.

    Например, для слоя RoadL оно рассчитывается как 0,20 * 1500/3 = 100.

  5. Проверка равенства ∑F = S * T.

    Например, 300 = 0,20 * 1500.

ПримечаниеПримечание:

Обратите внимание, что в приведенных выше примерах, по причине того, что число объектов в каждом слое было равным, слой RoadL, с весом 1, имеет в конечной выборке в пять раз больше объектов, чем слой TreesA. Слой WatrcrsL, с весом 2, имеет в четыре раза больше объектов и т. д.

Пример 2: слои выборки с различным количеством объектов

В этом примере выполняется поиск количества объектов выборки для каждого составного слоя, показанного ниже, с процентом выборки 30. Количество объектов в каждом слое и веса для каждого слоя показаны в приведенной ниже таблице.

Имя слоя

L

W

WF

F = S * (L*W)/N

Road L

100

3

300

45

WatrcrsL

200

4

400

60

PolbndL

50

3

150

22

TreesA

150

5

150

23

Всего

500

1000

150

Метод вычисления выборки для данного примера:

  1. Для каждого слоя рассчитывается WF, равное L * ((5-W) + 1).

    Например, для слоя RoadL, WF составляет 300.

  2. Рассчитывается T, равное ∑L, то есть 500.
  3. Рассчитывается N, равное ∑WF/∑L, то есть 1000/500 = 2.
  4. Для каждого слоя рассчитывается F, равное S * WF/N.

    Например, для слоя RoadL, это значение равно 0,30 * 300/2 = 45.

  5. Проверка равенства ∑F = S * T.

    Например: 150 = 0,30 * 500.

Вычисление, основанное на уровне доверительной вероятности, допустимой величине ошибки и допустимом числе ошибок

Метод автоматического вычисления для определения размера выборки предназначен для организаций, которые на основании проверки Выборка (Sampling) хотят ответить на следующие вопросы:

Размер выборки определяется на основании четырех факторов:

При бесконечной генеральной совокупности выражение для определения размера выборки (n) принимает вид:

n = ((z/m)2)(p (1 - p))

Затем данное значение должно быть сокращено для соответствия фактической генеральной совокупности, что даст в итоге фактический размер выборки (n'):

n' = n(N)/(n + (N - 1))

Порог ошибки

Значение порога ошибки получается на основании уравнения критерия пропорциональности Test of Proportions. Данное уравнение определяет достаточность количества ошибок для признания некорректности всей базы данных при данном размере генеральной совокупности, доверительном интервале и указанном коэффициенте ошибки. Определение порога ошибки зависит от трех факторов:

  • Размер генеральной совокупности (вышеуказанное n')
  • Допустимый максимальный коэффициент ошибки (r)
  • Критерий Z для заданного доверительного интервала (z), используемый для сравнения выборки с нормальным распределением. Данное значение берется из справочной таблицы.

Максимальный допустимый коэффициент ошибки (r') определяется данным уравнением:

Уравнение для максимального коэффициента ошибки

Так как данное значение является отношением, то для получения максимального допустимого количества ошибок (f) оно должно быть умножено на размер выборки:

Уравнение для определения максимального допустимого количества ошибок

Исправление

Если набор данных не проходит отбор (то есть, фактическое количество ошибок превышает максимально допустимое), то исправления только обнаруженных ошибок будет недостаточно. Некорректность набора данных означает, что на основе выборки обнаружены недостатки во всем наборе данных, а не только в обнаруженных ошибочных объектах. Перед прохождением повторного тестирования на новой случайной выборке необходимо улучшить качество всего набора данных.

Ссылки

Для определения уравнений, применяемых в проверке Выборка (Sampling), были использованы следующие источники:

Burt, J., и G. Barber. Элементарная статистика для географов (Elementary Statistics for Geographers). New York: The Guilford Press. 1996.

McGrew, J., и C. Monroe. Введение в статистические задачи, решаемые в географии (Introduction to Statistical Problem Solving in Geography), вторая редакция. McGraw-Hill. 2000.

Полигональная сетка в документе карты или загружаемая из базы геоданных

Полигональная сетка позволяет вам делить большой набор данных на небольшие части. Эти части могут использоваться для присвоения зон ответственности в задачах контроля качества (QC) или в качестве экстентов для листов карты. Использование полигональной сетки при проверке Выборка (Sampling) позволяет задавать число ячеек сетки, случайным образом подбираемых при выборке. Из этих случайных ячеек проверка Выборка (Sampling) подберет пространственные объекты тех классов, которые вы хотите включить в выборку. Это позволит провести контроль качества для указанного процента ячеек сетки (листов карты).

Связанные темы

9/10/2013