Что такое эмпирический байесовский кригинг (Empirical Bayesian kriging)?
Введение
Эмпирический байесовский кригинг (ЭБК, Empirical Bayesian kriging) — это метод геостатистической интерполяции, автоматизирующий наиболее трудоемкие аспекты построения корректной модели кригинга. Другие методы кригинга в модуле Geostatistical Analyst требуют ручного изменения параметров для достижения точных результатов, а метод ЭБК автоматически вычисляет эти параметры путем разбиения данных на поднаборы и моделирования данных.
Кроме того, эмпирический байесовский кригинг отличается от других методов кригинга тем, что учитывает ошибку, связанную с оценкой основной вариограммы. Другие методы кригинга рассчитывают вариограмму на основе известных местоположений данных и используют эту единственную вариограмму для прогнозирования в неизвестных местоположениях; данный процесс неявно предполагает, что расчетная вариограмма является истинной для региона интерполяции. Не учитывая неопределенность расчета вариограммы, другие методы кригинга недооценивают стандартные ошибки интерполяции.
Эмпирический байесовский кригинг предоставляется в составе мастера геостатистики (Geostatistical Wizard) и в качестве инструмента геообработки.
Достоинства и недостатки
Достоинства
- Требуется минимум интерактивного моделирования.
- Стандартные ошибки интерполяции меньше по сравнению с другими методами кригинга.
- Возможность точной интерполяции умеренно нестационарных данных.
- Более высокая точность для небольших наборов данных по сравнению с другими методами кригинга.
Недостатки
- Время обработки быстро возрастает с увеличением числа входных точек, размера поднабора или коэффициента перекрытия. Применение преобразования также увеличит время обработки. Эти параметры описаны ниже.
- Обработка происходит медленнее, чем в других методах кригинга, особенно при выводе в растр.
- Недоступны кокригинг и анизотропия.
- Малое количество параметров в модели вариограммы ограничивает возможности настройки. Другие методы кригинга предусматривают множество вариантов модели вариограммы.
- Логарифмическое эмпирическое преобразование особенно чувствительно к выпадающим значениям. Если это преобразование применяется для данных с выпадающими значениями, результаты интерполяции могут отличаться от значений входных точек на несколько порядков. Этот параметр описан ниже, под заголовком "Преобразования"("Transformations").
Оценка вариограммы
В отличие от других методов кригинга (которые используют метод взвешенных наименьших квадратов), параметры вариограммы в ЭБК оцениваются с использованием ограниченной максимальной вероятности (REML). В связи с вычислительными ограничениями REML для крупных наборов данных, входные данные сначала делятся на перекрывающиеся поднаборы определенного размера (по умолчанию 100 точек на каждый поднабор). В каждом поднаборе вариограммы рассчитываются следующим образом.
- Вариограмма рассчитывается на основе данных в поднаборе.
- С использованием этой вариограммы в качестве модели выполняется безусловное моделирование новых данных в каждой входной точке в поднаборе.
- Новая вариограмма рассчитывается на основе смоделированных данных.
- Шаги 2 и 3 повторяются заданное число раз. При каждом повторении вариограмма, рассчитанная в шаге 1, используется для моделирования нового набора данных во входных точках, а на основе смоделированных данных выполняется оценка новой вариограммы.
В результате этого процесса создается множество вариограмм для каждого поднабора. Если изобразить их на одной диаграмме, получится распределение вариограмм, заштрихованных в зависимости от плотности (чем темнее синий цвет, тем больше вариограмм проходит через данный регион). Кроме того, медиана распределения обозначена сплошной красной линией, а 25-й и 75-й процентили — пунктирными красными линиями, как показано ниже.
Число моделированных вариограмм для каждого поднабора по умолчанию равно 100, и каждая из этих вариограмм является оценкой истинной вариограммы для поднабора.
Для каждого местоположения интерполяция выполняется с использованием уникального распределения вариограмм, которое рассчитывается на основе взвешенной суммы распределений из окружающих поднаборов; поднаборам, близким к месту интерполяции, присваиваются более высокие веса, чем удаленным поднаборам.
Модель кригинга
Эмпирический байесовский кригинг отличается от других методов кригинга в ArcGIS Geostatistical Analyst Extension с использованием внутренней случайной функции нулевого порядка (intrinsic random function, IRF-0) в качестве модели кригинга.
Другие методы кригинга предполагают, что процесс следует общему среднему (или заданному тренду) с отдельными отклонениями относительно этого среднего. Большие отклонения смещаются к среднему, поэтому значения никогда не отклоняются слишком сильно. В отличие от них, метод ЭБК не предполагает тенденции к общему среднему, поэтому большие отклонения могут с равной вероятностью стать как меньше, так и больше.
Модель вариограммы
Для данного расстояния h эмпирический байесовский кригинг использует модель вариограммы в следующей форме:
γ(h)= Nugget + b|h|α
Самородок и b (уклон) должны быть положительными, а α (степень) должна принимать значения от 0,25 до 1,75. При этих ограничениях параметры оцениваются с использованием REML. Такая модель вариограммы не имеет параметра диапазона или порога, поскольку у функции нет верхней границы. В ЭБК можно анализировать эмпирическое распределение оценок параметров, поскольку в каждом местоположении рассчитывается множество вариограмм. На вкладках Самородок (Nugget), Уклон (Slope) и Степень (Power) отображаются распределения связанных параметров. На приведенном ниже рисунке показаны распределения параметров моделированных вариограмм, изображенных на предыдущем рисунке:
Если щёлкнуть другое местоположение на поверхности предварительного просмотра, то распределение вариограмм и распределения параметров вариограмм будут показаны для нового местоположения. Если распределения по области данных меняются несущественно, значит, данные являются глобально стационарными. Распределения должны плавно меняться по области данных, однако если в распределениях заметны значительные изменения на малых расстояниях, то увеличение значения Коэффициента перекрытия (Overlap Factor) может сгладить переходы между распределениями.
Как описано в разделе «Преобразования» ниже, применение преобразования меняет модель кригинга с IRF-0 на простой кригинг.
Преобразования
Эмпирический байесовский кригинг предусматривает преобразование по методу нормальных меток для мультипликативного искажения с двумя вариантами базовых распределений: Эмпирическим и Логарифмическим эмпирическим (Empirical and Log Empirical). Для Логарифмического эмпирического преобразования необходимо, чтобы все значения были положительны — в этом случае и результаты интерполяции будут также положительны. Этот вариант подходит для неотрицательных данных, таких как количество атмосферных осадков.
Если применяется преобразование, модель простого кригинга используется вместо IRF-0, и вариограммы приводятся в соответствие с экспоненциальной моделью вариограммы. Из-за этих изменений распределения параметров меняются на Самородок (Nugget), Частичный порог (Partial Sill) и Диапазон (Range). Появляется дополнительная вкладка Преобразование (Transformation), где показано распределение подобранных преобразований (по одному для каждой имитации). Как и на вкладке Вариограммы (Semivariograms), распределение преобразований выделено цветом в зависимости от плотности и показаны линии квантилей.
Новые параметры для эмпирического байесовского кригинга
Эмпирический байесовский кригинг использует три параметра, которые отсутствуют в других методах кригинга.
- Размер поднабора (Subset Size) — число точек в каждом поднаборе. Чем больше размер поднабора, тем больше времени займет вычисление ЭБК.
- Коэффициент перекрытия (Overlap Factor) — степень перекрытия между поднаборами. Каждая входная точка может попадать в несколько поднаборов, и коэффициент перекрытия определяет среднее число поднаборов, в которые попадает каждая точка. Например, если коэффициент перекрытия равен 1,5, то около половины точек будет использоваться в одном поднаборе и половина — в двух поднаборах. Чем выше значение коэффициента перекрытия, тем более сглаженной будет выходная поверхность, но тем больше время обработки.
- Количество имитаций (Number of Simulations) — число вариограмм, которые будут смоделированы для каждого поднабора. Чем больше имитаций, тем точнее интерполяция, но время обработки при этом также возрастает.
Ссылки
- J-P. Chilès, P. Delfiner (1999). Глава 4 издания Geostatistics: 'Modeling Spatial Uncertainty (Моделирование пространственной неопределенности). Нью-Йорк: 'John Wiley & Sons, Inc.
- J. Pilz, G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods, Stochastic Environmental Research and Risk Assessment" (Зачем нужны методы байесовского кригинга и как их реализовывать, Стохастическое исследование окружающей среды и оценка риска) 22 (5): 621–632.