Упражнение 2. Исследование данных

Уровень сложности: Начальный Требования к данным: ArcGIS Tutorial Data for Desktop Путь к данным: C:\ArcGIS\ArcTutor\Geostatistical Analyst Задача: Используйте инструменты ESDA для анализа данных и сбора информации, чтобы создать оптимальную модель интерполяции.

Прежде чем приступить к этому упражнению, вы должны выполнить упражнение 1.

В этом упражнении вы проведете анализ данных. Как предполагает структурированная процедура, описанная в конце упражнения 1, чтобы принимать правильные решения во время создания модели, сначала нужно проанализировать и глубоко осмыслить набор данных. Изучая данные, проверьте, нет ли очевидных ошибок в значениях, которые могут существенно повлиять на выходную интерполируемую поверхность; проанализируйте распределение данных; ищите глобальные тренды, влияния направления и т. п.

ArcGIS Geostatistical Analyst Extension содержит множество инструментов анализа данных. В этом упражнении вы проведете анализ данных тремя способами.

Анализ распределения данных с помощью инструмента Гистограмма (Histogram)

Методы интерполяции, применяемые для создания поверхности, дают наилучшие результаты, если данные распределены по нормальному закону (по кривой в форме колокола). В случае асимметричного распределения данных можно провести их нормирование. Таким образом, важно знать распределение данных до создания поверхности. Инструмент Гистограмма (Histogram) строит частотные гистограммы для атрибутов в наборе данных, позволяя проанализировать одномерное (для одной переменной) распределение для каждого атрибута в наборе. Далее вы проанализируете распределение концентраций озона для слоя O3_Sep06_3pm.

Шаги:
  1. Если вы закрыли предыдущую сессию ArcMap, запустите программу снова и откройте Ozone Prediction Map.mxd.
  2. Щёлкните на слое ca_outline и перетащите его под слой O3_Sep06_3pm в таблице содержания.
    Пример таблицы содержания
    Пример таблицы содержания
  3. Щёлкните на слое O3_Sep06_3pm, чтобы выбрать его.
  4. На панели инструментов ArcGIS Geostatistical Analyst Extension щёлкните на ArcGIS Geostatistical Analyst Extension > Исследовать данные (Explore Data) > Гистограмма (Histogram).

    Гистограмма (Histogram) в меню Исследовать данные (Explore Data)
    Гистограмма (Histogram) в меню Исследовать данные (Explore Data)

  5. В диалоговом окне Гистограмма (Histogram) щёлкните на стрелке Атрибут (Attribute) и выберите OZONE.
    Гистограмма (Histogram)
    Гистограмма (Histogram)

    Значения по оси x перемасштабированы с коэффициентом 10, чтобы их было легче читать. Можно изменить размер диалогового окна Гистограмма (Histogram) и переместить его, чтобы также была видна карта, как показано ниже.

    Отображение гистограммы
    Отображение гистограммы

    Распределение значений концентрации озона нанесено на гистограмму в виде диапазона, разделенного на 10 классов. Частота данных в каждом классе представлена высотой каждого столбца. В общем случае важными характеристиками распределения являются его центральное значение, разброс и симметрия. Можно провести быструю проверку: если среднее и медиана примерно равны, то это аргумент в пользу того, что данные могут быть распределены по нормальному закону.

    Гистограмма данных по озону говорит о том, что распределение данных является одновершинным (с одной выпуклостью) и смещено вправо. Правый хвост распределения показывает относительно малое количество точек выборки с большими значениями концентрации озона. Похоже, что распределение данных не стремится к нормальному закону.

  6. Выберите два столбца гистограммы со значениями концентрации озона выше 0,10 промилле (напомним, что значения были перемасштабированы с коэффициентом 10), щёлкнув на кнопку мыши и протащив курсор по этим столбцам.

    Опорные точки в данном диапазоне будут выделены на карте. Обратите внимание, что большинство этих точек выборки расположено в Большой Калифорнийской долине.

    Гистограмма и карта с выбранными точками
    Гистограмма и карта с выбранными точками
  7. Щёлкните на кнопке Очистить выбранные объекты (Clear Selected Features) Очистить выбранные объекты на панели Инструменты (Tools), чтобы очистить выбранные точки на карте и гистограмме.
  8. Щёлкните на кнопке Закрыть (Close) в верхнем углу диалогового окна Гистограмма (Histogram).

Создание нормального графика КК

График «квантиль-квантиль» (КК) используется для сравнения распределения данных со стандартным нормальным распределением, предоставляя еще один способ оценить соответствие данных нормальному закону. Чем ближе точки к прямой линии на графике (расположенной под углом 45 градусов), тем ближе распределение опорных данных к нормальному закону.

Шаги:
  1. На панели инструментов ArcGIS Geostatistical Analyst Extension щёлкните на ArcGIS Geostatistical Analyst Extension > Исследовать данные (Explore Data) > Нормальный график КК (Normal QQPlot).
    Нормальный график КК (Normal QQPlot) в меню Исследовать данные (Explore Data)
    Нормальный график КК (Normal QQPlot) в меню Исследовать данные (Explore Data)
  2. Щёлкните на стрелке Атрибут (Attribute) и выберите OZONE.
    Отображение нормального графика КК
    Отображение нормального графика КК

    В общем случае график КК — это график, на котором сопоставляются квантили из двух распределений. Для двух идентичных распределений график КК будет представлять собой прямую линию. Таким образом, можно проверить соответствие распределения данных по озону нормальному закону путем нанесения на график квантилей этих данных в сопоставлении с квантилями стандартного нормального распределения. Приведенный выше нормальный график КК не стремится к прямой линии. Основное отклонение от этой линии наблюдается при низких значениях концентрации озона (выделены зеленым цветом на рисунке выше, выбраны путем нажатия кнопки мыши и растягивания над ними прямоугольника).

    Если по гистограмме или нормальному графику КК видно, что данные не распределены по нормальному закону, то, возможно, необходимо преобразовать данные, чтобы привести их в соответствие с нормальным распределением и лишь затем использовать определенные методы интерполяции на основе кригинга.

  3. Щёлкните на Закрыть (Close) в верхнем углу диалогового окна Нормальный график КК (Normal QQPlot).

Выявление глобальных трендов в данных

Если в данных присутствует тренд, это неслучайный (детерминированный) компонент поверхности, который можно выразить математической формулой. Например, пологий склон холма можно представить плоскостью. Долину можно представить более сложной формулой (полиномом второго порядка), которая определяет U-образную форму. Такая формула может создать нужное представление поверхности. Однако часто поверхность, определяемая формулой, получается слишком сглаженной, чтобы точно отражать явление, поскольку склон холма не является идеальной плоскостью, а любая долина не имеет идеальную U-образную форму. В поверхность можно внести локальное изменение, смоделировав тренд с использованием одной из этих функций сглаживания, затем удалив тренд из данных и продолжив анализ, моделируя остатки — элементы, оставшиеся после удаления тренда. При моделировании остатков проводится анализ вариации поверхности ближнего действия (локальных изменений). Инструмент Анализ тренда (Trend Analysis) позволяет определить наличие или отсутствие трендов во входном наборе данных и порядок полинома, который наиболее точно выражает тренд.

Шаги:
  1. На панели инструментов ArcGIS Geostatistical Analyst Extension щёлкните на ArcGIS Geostatistical Analyst Extension > Исследовать данные (Explore Data) > Анализ тренда (Trend Analysis).
    Анализ тренда (Trend Analysis) в меню Исследовать данные (Explore Data)
    Анализ тренда (Trend Analysis) в меню Исследовать данные (Explore Data)
  2. Щёлкните на стрелке Атрибут (Attribute) и выберите OZONE.

    Каждый вертикальный отрезок на графике анализа тренда представляет местоположение, а высота отрезка — значение каждого измерения концентрации озона. Точки данных проецируются на перпендикулярные плоскости — восток-запад и север-юг. Линия наилучшего соответствия (полином) проведена через проецируемые точки, показывая тренды в определенных направлениях. Если бы линия была ровная, это означало бы, что трендов нет. Однако светло-зеленая линия на приведенном ниже рисунке начинается с низких значений, растет по направлению к центру оси х, а затем снижается. Аналогично синяя линия растет в северном направлении и снижается, начиная с центра штата. Это говорит о выраженном тренде, начиная с центра области данных во всех направлениях.

    График анализа тренда
    График анализа тренда
  3. Щёлкните на полосе прокрутки Повернуть местоположения (Rotate Locations) и прокручивайте влево, пока угол поворота не достигнет 90 градусов.
    Поворот при помощи полос прокрутки
    Поворот при помощи полос прокрутки

    Вы заметите, что в процессе поворота точек форма трендов всегда перевернутая U-образная. Также тренд не кажется более выраженным (с более четкой U-образной формой) для какого-либо определенного угла поворота, подтверждая сделанное ранее наблюдение выраженного тренда, начиная от центра области данных во всех направлениях. Поскольку тренд имеет U-образную форму, оптимально использовать полином второго порядка в качестве глобальной модели тренда. Причиной этого тренда, возможно, является тот факт, что на побережье уровень загрязнения низкий, но по мере удаления от моря численность населения растет, снова сокращаясь в горах. Вы удалите эти тренды в упражнении 4.

    График анализа тренда, повернутый на 90 градусов
    График анализа тренда, повернутый на 90 градусов
  4. Щёлкните на кнопке Закрыть (Close) в верхнем углу диалогового окна Анализ тренда (Trend Analysis).

Анализ пространственной автокорреляции и влияний направления

Шаги:
  1. На панели инструментов ArcGIS Geostatistical Analyst Extension щёлкните на ArcGIS Geostatistical Analyst Extension > Исследовать данные (Explore Data) > Облако вариограммы/ковариации (Semivariogram/Covariance Cloud).
    Облако вариограммы/ковариации (Semivariogram/Covariance Cloud) в меню Исследовать данные (Explore Data)
    Облако вариограммы/ковариации (Semivariogram/Covariance Cloud) в меню Исследовать данные (Explore Data)
  2. Щёлкните на стрелке Атрибут (Attribute) и выберите OZONE.

    Облако вариограммы/ковариации позволяет проанализировать пространственную автокорреляцию между измеренными точками выборки. В общем случае предполагается, что объекты, расположенные близко друг к другу, более схожи. Облако вариограммы/ковариации позволяет проверить эту взаимосвязь. Для этого значение вариограммы, которое представляет собой квадрат разницы между значениями каждой пары местоположений, наносится на график по оси y, а по оси х откладывается расстояние между точками измерений в каждой паре.

    Каждая красная точка в облаке вариограммы/ковариации представляет пару местоположений. Местоположения, близкие друг к другу, должны быть более схожи. На графике вариограммы ближайшим местоположениям (в крайней левой области по оси х) должны соответствовать невысокие значения вариограммы (низкие значения по оси y). По мере увеличения расстояния между парами местоположений (вправо по оси х) значения вариограммы должны также расти (вверх по оси y). Однако по достижении определенного расстояния облако перестает меняться. Это показывает, что значения в парах точек, расположенных друг от друга дальше этого расстояния, больше не коррелированы.

    Если при рассмотрении вариограммы окажется, что некоторые местоположения данных, близкие друг к другу (около нуля по оси х), имеют более высокие значения вариограммы (вверх по оси y), чем ожидалось, то следует изучить эти пары местоположений на предмет точности данных.

    Облако вариограммы
    Облако вариограммы
  3. Щёлкните на кнопке Выбрать объекты прямоугольником (Select Features By Rectangle) Выбрать прямоугольником на панели Инструменты (Tools), затем щёлкните на кнопке мыши и протащите курсор по нескольким точкам с большими значениями вариограммы (по оси y) в диалоговом окне Облако вариограммы/ковариации (Semivariogram/Covariance Cloud), чтобы выбрать их. (Руководствуйтесь схемой слева. Необязательно выбирать точно такие же точки, как на схеме внизу.)
    Выбор точек — пример 1
    Выбор точек — пример 1

    Выбранные на вариограмме пары точек выборки будут выделены на карте и попарно соединены линиями. Как можно ожидать согласно карте интерполяции с использованием кригинга по умолчанию, линии с высокими значениями вариограммы для определенного расстояния между точками в паре — это линии, соответствующие максимальному градиенту значений концентрации озона.

    На схеме ниже показаны пары с типичными значениями вариограммы, где расстояния между парами точек примерно одинаковые.

    Выбор точек — пример 2
    Выбор точек — пример 2
    Большинство линий приблизительно параллельны береговой линии. Очевидно, существуют влияния направления на данные. Причины влияний направления, возможно, известны местным ученым-экологам. Можно получить статистическую количественную оценку этих причин, не зная источников высокой загрязненности воздуха. Эти влияния направления скажутся на точности поверхности, которую вы создадите в следующем упражнении. Однако, если о влиянии направления известно, инструменты ArcGIS Geostatistical Analyst Extension позволят учесть его в процессе создания поверхности. Чтобы проанализировать влияние направления на облако вариограммы, можно использовать инструменты Направление поиска (Search Direction).

  4. Установите флажок Показывать направление поиска (Show search direction).
  5. Щёлкните на указателе направления и переместите его на любой угол.
    Пример указателя направления
    Пример указателя направления

    Направление по указателю определяет, какие пары местоположений данных будут нанесены на вариограмму. Например, если указатель ориентирован в направлении восток-запад, на вариограмму будут нанесены только пары точек данных, расположенных к востоку или к западу друг от друга. Это позволяет исключить лишние пары и проанализировать влияния направления на данные.

  6. Щёлкните на инструменте Выбрать объекты прямоугольником (Select Features By Rectangle) и растяните прямоугольник вокруг пар точек с самыми высокими значениями вариограммы, чтобы выбрать их на графике и на карте. (Руководствуйтесь приведенной ниже схемой. Необязательно выбирать точно такие же точки или использовать то же направление поиска, как на схеме.)
    Пример выбора облака вариограммы
    Пример выбора облака вариограммы

    Обратите внимание, что большинство связанных местоположений (представляющих пары точек на карте) соответствует одной из опорных точек в центральной Калифорнии. Это объясняется тем, что значения концентрации озона в данной области выше, чем во всех других районах Калифорнии.

  7. Щёлкните на кнопке Закрыть (Close) в верхнем углу диалогового окна.
  8. Щёлкните на кнопке Очистить выбранные объекты (Clear Selected Features) Очистить выбранные объекты на панели Инструменты (Tools), чтобы очистить выбранные точки на карте.

Из этого упражнения вы узнали следующее.

В упражнении 3 вы используете полученные знания об особенностях данных по озону, чтобы создать более точную модель интерполяции, чем в упражнении 1, где модель была основана на значениях параметров по умолчанию.

Связанные темы

9/11/2013