Методы вычисления выборки
Проверка Выборки (Sampling), включенная в Data Reviewer, позволяет вам создавать выборку путем случайного подбора объектов из одного или более слоев. Существует несколько методов, используемых для вычисления размера выборки и определения участвующих в выборке векторных слоев.
Выборка вычисляется на основании одного из следующих методов:
- Фиксированное число объектов
- Процент от всех объектов в указанном экстенте
- Число, полученное в результате вычислений, основанное на уровне доверительной вероятности, допустимой величине ошибки и допустимом числе ошибок
- Полигональная сетка, загруженная в документ карты или располагающаяся в базе геоданных
Все методы расчета используют значения весов для определения количества объектов, которые будут включены в выборку.
Фиксированное число объектов
Когда вы указываете количество объектов для включения в выборку, веса, присвоенные каждому слою, определяют количество объектов в выборке из данного слоя.
Процент от всех объектов в экстенте или базе данных
В проверке Выборка (Sampling) вы можете выбрать создание выборки на основании процента от всех объектов карты. Это означает, что из всех объектов в сетке или экстенте для выборки выбирается указанное в процентах количество. Веса используются для определения количества включаемых в выборку объектов из каждого слоя.
Ниже представлены два примера вычисления выборки методом определения процента объектов из набора данных. Первый использует равное количество объектов в каждом векторном слое, а второй использует различное количество объектов для каждого слоя.
В примерах используются следующие переменные:
Переменная | Описание | Значение для примера 1 | Значение для примера 2 |
---|---|---|---|
F | Количество объектов в выборке | Различно для каждого слоя | Различно для каждого слоя |
L | Число объектов в каждом слое | Различно для каждого слоя | Различно для каждого слоя |
W | Вес, присвоенный каждому слою | Различно для каждого слоя | Различно для каждого слоя |
WF | Взвешенное число объектов | Различно для каждого слоя | Различно для каждого слоя |
N | Коэффициент нормализации | 3 | 2 |
S | Процент выборки, деленный на 100 | 0.2 | 0.3 |
T | Общее число объектов | 1500 | 500 |
Пример 1: слои выборки с одинаковым количеством объектов
В первом примере выполняется поиск количества объектов выборки для каждого составного слоя, показанного ниже, с процентом выборки 20. Количество объектов в каждом слое и веса для каждого слоя показаны ниже.
Имя слоя | L | W | WF | F = S * (WF)/N |
---|---|---|---|---|
Road L | 300 | 1 | 1500 | 100 |
WatrcrsL | 300 | 2 | 1200 | 80 |
ContourL | 300 | 3 | 900 | 60 |
PolbndL | 300 | 4 | 600 | 40 |
TreesA | 300 | 5 | 300 | 20 |
Всего | 1500 | 4500 | 300 |
Метод вычисления выборки для данного примера:
- Для каждого слоя рассчитывается WF, равное L * ((5-W) + 1).
Например, для слоя RoadL, WF составляет 1500.
- Рассчитывается T, равное ∑L, то есть 1500.
- Рассчитывается N, равное ∑WF/∑L, то есть 4500/1500 = 3.
- Для каждого слоя рассчитывается F, равное S * WF/N.
Например, для слоя RoadL оно рассчитывается как 0,20 * 1500/3 = 100.
- Проверка равенства ∑F = S * T.
Например, 300 = 0,20 * 1500.
Обратите внимание, что в приведенных выше примерах, по причине того, что число объектов в каждом слое было равным, слой RoadL, с весом 1, имеет в конечной выборке в пять раз больше объектов, чем слой TreesA. Слой WatrcrsL, с весом 2, имеет в четыре раза больше объектов и т. д.
Пример 2: слои выборки с различным количеством объектов
В этом примере выполняется поиск количества объектов выборки для каждого составного слоя, показанного ниже, с процентом выборки 30. Количество объектов в каждом слое и веса для каждого слоя показаны в приведенной ниже таблице.
Имя слоя | L | W | WF | F = S * (L*W)/N |
---|---|---|---|---|
Road L | 100 | 3 | 300 | 45 |
WatrcrsL | 200 | 4 | 400 | 60 |
PolbndL | 50 | 3 | 150 | 22 |
TreesA | 150 | 5 | 150 | 23 |
Всего | 500 | 1000 | 150 |
Метод вычисления выборки для данного примера:
- Для каждого слоя рассчитывается WF, равное L * ((5-W) + 1).
Например, для слоя RoadL, WF составляет 300.
- Рассчитывается T, равное ∑L, то есть 500.
- Рассчитывается N, равное ∑WF/∑L, то есть 1000/500 = 2.
- Для каждого слоя рассчитывается F, равное S * WF/N.
Например, для слоя RoadL, это значение равно 0,30 * 300/2 = 45.
- Проверка равенства ∑F = S * T.
Например: 150 = 0,30 * 500.
Вычисление, основанное на уровне доверительной вероятности, допустимой величине ошибки и допустимом числе ошибок
Метод автоматического вычисления для определения размера выборки предназначен для организаций, которые на основании проверки Выборка (Sampling) хотят ответить на следующие вопросы:
- С учетом заданной генеральной совокупности, какой размер выборки необходим мне для обеспечения статистической значимости размера выборки при известном доверительном интервале, плюс-минус допустимая ошибка в доверительном интервале?
- С учетом моего размера выборки, как много объектов могут не пройти контроль качества, прежде чем весь набор данных будет считаться некорректным, при заданном целевом коэффициенте или проценте ошибок?
Размер выборки определяется на основании четырех факторов:
- Вероятность ( p) выходного результата, которая представляет собой вероятность "успешного прохождения" данного пространственного объекта относительно "неуспешного прохождения". Данное значение может быть максимум 0,5; так как без предварительного знания о вероятности прохождения, то есть без уверенности в том, что определенный процент объектов данного клиента пройдет или не пройдет отбор, имеется равная вероятность прохождения и не прохождения этих объектов. Поэтому максимальная вероятность прохождения равна 0,5. Значение 0,5 представляет наиболее пессимистичное (консервативное) значение при его подстановке в уравнение дисперсии: p(1- p). Иными словами, дисперсия (мера неопределенности) p(1 - p) имеет максимальное значение при p = 0,5.
- Размер генеральной совокупности (N).
- Допустимая величина ошибки в доверительном интервале (m).
- Критерий Z для заданной доверительной вероятности (z). Используется для сравнения выборки с нормальным распределением. Значение берется из справочной таблицы.
При бесконечной генеральной совокупности выражение для определения размера выборки (n) принимает вид:
n = ((z/m)2)(p (1 - p))
Затем данное значение должно быть сокращено для соответствия фактической генеральной совокупности, что даст в итоге фактический размер выборки (n'):
n' = n(N)/(n + (N - 1))
Порог ошибки
Значение порога ошибки получается на основании уравнения критерия пропорциональности Test of Proportions. Данное уравнение определяет достаточность количества ошибок для признания некорректности всей базы данных при данном размере генеральной совокупности, доверительном интервале и указанном коэффициенте ошибки. Определение порога ошибки зависит от трех факторов:
- Размер генеральной совокупности (вышеуказанное n')
- Допустимый максимальный коэффициент ошибки (r)
- Критерий Z для заданного доверительного интервала (z), используемый для сравнения выборки с нормальным распределением. Данное значение берется из справочной таблицы.
Максимальный допустимый коэффициент ошибки (r') определяется данным уравнением:
Так как данное значение является отношением, то для получения максимального допустимого количества ошибок (f) оно должно быть умножено на размер выборки:
Исправление
Если набор данных не проходит отбор (то есть, фактическое количество ошибок превышает максимально допустимое), то исправления только обнаруженных ошибок будет недостаточно. Некорректность набора данных означает, что на основе выборки обнаружены недостатки во всем наборе данных, а не только в обнаруженных ошибочных объектах. Перед прохождением повторного тестирования на новой случайной выборке необходимо улучшить качество всего набора данных.
Ссылки
Для определения уравнений, применяемых в проверке Выборка (Sampling), были использованы следующие источники:
Burt, J., и G. Barber. Элементарная статистика для географов (Elementary Statistics for Geographers). New York: The Guilford Press. 1996.
McGrew, J., и C. Monroe. Введение в статистические задачи, решаемые в географии (Introduction to Statistical Problem Solving in Geography), вторая редакция. McGraw-Hill. 2000.
Полигональная сетка в документе карты или загружаемая из базы геоданных
Полигональная сетка позволяет вам делить большой набор данных на небольшие части. Эти части могут использоваться для присвоения зон ответственности в задачах контроля качества (QC) или в качестве экстентов для листов карты. Использование полигональной сетки при проверке Выборка (Sampling) позволяет задавать число ячеек сетки, случайным образом подбираемых при выборке. Из этих случайных ячеек проверка Выборка (Sampling) подберет пространственные объекты тех классов, которые вы хотите включить в выборку. Это позволит провести контроль качества для указанного процента ячеек сетки (листов карты).