Упражнение 2. Исследование данных
Прежде чем приступить к этому упражнению, вы должны выполнить упражнение 1.
В этом упражнении вы проведете анализ данных. Как предполагает структурированная процедура, описанная в конце упражнения 1, чтобы принимать правильные решения во время создания модели, сначала нужно проанализировать и глубоко осмыслить набор данных. Изучая данные, проверьте, нет ли очевидных ошибок в значениях, которые могут существенно повлиять на выходную интерполируемую поверхность; проанализируйте распределение данных; ищите глобальные тренды, влияния направления и т. п.
ArcGIS Geostatistical Analyst Extension содержит множество инструментов анализа данных. В этом упражнении вы проведете анализ данных тремя способами.
- Проверка распределения данных.
- Выявление трендов в данных.
- Определение пространственной автокорреляции и влияний направления.
Анализ распределения данных с помощью инструмента Гистограмма (Histogram)
Методы интерполяции, применяемые для создания поверхности, дают наилучшие результаты, если данные распределены по нормальному закону (по кривой в форме колокола). В случае асимметричного распределения данных можно провести их нормирование. Таким образом, важно знать распределение данных до создания поверхности. Инструмент Гистограмма (Histogram) строит частотные гистограммы для атрибутов в наборе данных, позволяя проанализировать одномерное (для одной переменной) распределение для каждого атрибута в наборе. Далее вы проанализируете распределение концентраций озона для слоя O3_Sep06_3pm.
- Если вы закрыли предыдущую сессию ArcMap, запустите программу снова и откройте Ozone Prediction Map.mxd.
- Щёлкните на слое ca_outline и перетащите его под слой O3_Sep06_3pm в таблице содержания.
- Щёлкните на слое O3_Sep06_3pm, чтобы выбрать его.
- На панели инструментов ArcGIS Geostatistical Analyst Extension щёлкните на ArcGIS Geostatistical Analyst Extension > Исследовать данные (Explore Data) > Гистограмма (Histogram).
- В диалоговом окне Гистограмма (Histogram) щёлкните на стрелке Атрибут (Attribute) и выберите OZONE.
Значения по оси x перемасштабированы с коэффициентом 10, чтобы их было легче читать. Можно изменить размер диалогового окна Гистограмма (Histogram) и переместить его, чтобы также была видна карта, как показано ниже.
Распределение значений концентрации озона нанесено на гистограмму в виде диапазона, разделенного на 10 классов. Частота данных в каждом классе представлена высотой каждого столбца. В общем случае важными характеристиками распределения являются его центральное значение, разброс и симметрия. Можно провести быструю проверку: если среднее и медиана примерно равны, то это аргумент в пользу того, что данные могут быть распределены по нормальному закону.
Гистограмма данных по озону говорит о том, что распределение данных является одновершинным (с одной выпуклостью) и смещено вправо. Правый хвост распределения показывает относительно малое количество точек выборки с большими значениями концентрации озона. Похоже, что распределение данных не стремится к нормальному закону.
- Выберите два столбца гистограммы со значениями концентрации озона выше 0,10 промилле (напомним, что значения были перемасштабированы с коэффициентом 10), щёлкнув на кнопку мыши и протащив курсор по этим столбцам.
Опорные точки в данном диапазоне будут выделены на карте. Обратите внимание, что большинство этих точек выборки расположено в Большой Калифорнийской долине.
- Щёлкните на кнопке Очистить выбранные объекты (Clear Selected Features) на панели Инструменты (Tools), чтобы очистить выбранные точки на карте и гистограмме.
- Щёлкните на кнопке Закрыть (Close) в верхнем углу диалогового окна Гистограмма (Histogram).
Создание нормального графика КК
График «квантиль-квантиль» (КК) используется для сравнения распределения данных со стандартным нормальным распределением, предоставляя еще один способ оценить соответствие данных нормальному закону. Чем ближе точки к прямой линии на графике (расположенной под углом 45 градусов), тем ближе распределение опорных данных к нормальному закону.
-
На панели инструментов ArcGIS Geostatistical Analyst Extension щёлкните на ArcGIS Geostatistical Analyst Extension > Исследовать данные (Explore Data) > Нормальный график КК (Normal QQPlot).
-
Щёлкните на стрелке Атрибут (Attribute) и выберите OZONE.
В общем случае график КК — это график, на котором сопоставляются квантили из двух распределений. Для двух идентичных распределений график КК будет представлять собой прямую линию. Таким образом, можно проверить соответствие распределения данных по озону нормальному закону путем нанесения на график квантилей этих данных в сопоставлении с квантилями стандартного нормального распределения. Приведенный выше нормальный график КК не стремится к прямой линии. Основное отклонение от этой линии наблюдается при низких значениях концентрации озона (выделены зеленым цветом на рисунке выше, выбраны путем нажатия кнопки мыши и растягивания над ними прямоугольника).
Если по гистограмме или нормальному графику КК видно, что данные не распределены по нормальному закону, то, возможно, необходимо преобразовать данные, чтобы привести их в соответствие с нормальным распределением и лишь затем использовать определенные методы интерполяции на основе кригинга.
- Щёлкните на Закрыть (Close) в верхнем углу диалогового окна Нормальный график КК (Normal QQPlot).
Выявление глобальных трендов в данных
Если в данных присутствует тренд, это неслучайный (детерминированный) компонент поверхности, который можно выразить математической формулой. Например, пологий склон холма можно представить плоскостью. Долину можно представить более сложной формулой (полиномом второго порядка), которая определяет U-образную форму. Такая формула может создать нужное представление поверхности. Однако часто поверхность, определяемая формулой, получается слишком сглаженной, чтобы точно отражать явление, поскольку склон холма не является идеальной плоскостью, а любая долина не имеет идеальную U-образную форму. В поверхность можно внести локальное изменение, смоделировав тренд с использованием одной из этих функций сглаживания, затем удалив тренд из данных и продолжив анализ, моделируя остатки — элементы, оставшиеся после удаления тренда. При моделировании остатков проводится анализ вариации поверхности ближнего действия (локальных изменений). Инструмент Анализ тренда (Trend Analysis) позволяет определить наличие или отсутствие трендов во входном наборе данных и порядок полинома, который наиболее точно выражает тренд.
-
На панели инструментов ArcGIS Geostatistical Analyst Extension щёлкните на ArcGIS Geostatistical Analyst Extension > Исследовать данные (Explore Data) > Анализ тренда (Trend Analysis).
-
Щёлкните на стрелке Атрибут (Attribute) и выберите OZONE.
Каждый вертикальный отрезок на графике анализа тренда представляет местоположение, а высота отрезка — значение каждого измерения концентрации озона. Точки данных проецируются на перпендикулярные плоскости — восток-запад и север-юг. Линия наилучшего соответствия (полином) проведена через проецируемые точки, показывая тренды в определенных направлениях. Если бы линия была ровная, это означало бы, что трендов нет. Однако светло-зеленая линия на приведенном ниже рисунке начинается с низких значений, растет по направлению к центру оси х, а затем снижается. Аналогично синяя линия растет в северном направлении и снижается, начиная с центра штата. Это говорит о выраженном тренде, начиная с центра области данных во всех направлениях.
- Щёлкните на полосе прокрутки Повернуть местоположения (Rotate Locations) и прокручивайте влево, пока угол поворота не достигнет 90 градусов.
Вы заметите, что в процессе поворота точек форма трендов всегда перевернутая U-образная. Также тренд не кажется более выраженным (с более четкой U-образной формой) для какого-либо определенного угла поворота, подтверждая сделанное ранее наблюдение выраженного тренда, начиная от центра области данных во всех направлениях. Поскольку тренд имеет U-образную форму, оптимально использовать полином второго порядка в качестве глобальной модели тренда. Причиной этого тренда, возможно, является тот факт, что на побережье уровень загрязнения низкий, но по мере удаления от моря численность населения растет, снова сокращаясь в горах. Вы удалите эти тренды в упражнении 4.
- Щёлкните на кнопке Закрыть (Close) в верхнем углу диалогового окна Анализ тренда (Trend Analysis).
Анализ пространственной автокорреляции и влияний направления
-
На панели инструментов ArcGIS Geostatistical Analyst Extension щёлкните на ArcGIS Geostatistical Analyst Extension > Исследовать данные (Explore Data) > Облако вариограммы/ковариации (Semivariogram/Covariance Cloud).
-
Щёлкните на стрелке Атрибут (Attribute) и выберите OZONE.
Облако вариограммы/ковариации позволяет проанализировать пространственную автокорреляцию между измеренными точками выборки. В общем случае предполагается, что объекты, расположенные близко друг к другу, более схожи. Облако вариограммы/ковариации позволяет проверить эту взаимосвязь. Для этого значение вариограммы, которое представляет собой квадрат разницы между значениями каждой пары местоположений, наносится на график по оси y, а по оси х откладывается расстояние между точками измерений в каждой паре.
Каждая красная точка в облаке вариограммы/ковариации представляет пару местоположений. Местоположения, близкие друг к другу, должны быть более схожи. На графике вариограммы ближайшим местоположениям (в крайней левой области по оси х) должны соответствовать невысокие значения вариограммы (низкие значения по оси y). По мере увеличения расстояния между парами местоположений (вправо по оси х) значения вариограммы должны также расти (вверх по оси y). Однако по достижении определенного расстояния облако перестает меняться. Это показывает, что значения в парах точек, расположенных друг от друга дальше этого расстояния, больше не коррелированы.
Если при рассмотрении вариограммы окажется, что некоторые местоположения данных, близкие друг к другу (около нуля по оси х), имеют более высокие значения вариограммы (вверх по оси y), чем ожидалось, то следует изучить эти пары местоположений на предмет точности данных.
- Щёлкните на кнопке Выбрать объекты прямоугольником (Select Features By Rectangle) на панели Инструменты (Tools), затем щёлкните на кнопке мыши и протащите курсор по нескольким точкам с большими значениями вариограммы (по оси y) в диалоговом окне Облако вариограммы/ковариации (Semivariogram/Covariance Cloud), чтобы выбрать их. (Руководствуйтесь схемой слева. Необязательно выбирать точно такие же точки, как на схеме внизу.)
Выбранные на вариограмме пары точек выборки будут выделены на карте и попарно соединены линиями. Как можно ожидать согласно карте интерполяции с использованием кригинга по умолчанию, линии с высокими значениями вариограммы для определенного расстояния между точками в паре — это линии, соответствующие максимальному градиенту значений концентрации озона.
На схеме ниже показаны пары с типичными значениями вариограммы, где расстояния между парами точек примерно одинаковые.
Большинство линий приблизительно параллельны береговой линии. Очевидно, существуют влияния направления на данные. Причины влияний направления, возможно, известны местным ученым-экологам. Можно получить статистическую количественную оценку этих причин, не зная источников высокой загрязненности воздуха. Эти влияния направления скажутся на точности поверхности, которую вы создадите в следующем упражнении. Однако, если о влиянии направления известно, инструменты ArcGIS Geostatistical Analyst Extension позволят учесть его в процессе создания поверхности. Чтобы проанализировать влияние направления на облако вариограммы, можно использовать инструменты Направление поиска (Search Direction). - Установите флажок Показывать направление поиска (Show search direction).
- Щёлкните на указателе направления и переместите его на любой угол.
Направление по указателю определяет, какие пары местоположений данных будут нанесены на вариограмму. Например, если указатель ориентирован в направлении восток-запад, на вариограмму будут нанесены только пары точек данных, расположенных к востоку или к западу друг от друга. Это позволяет исключить лишние пары и проанализировать влияния направления на данные.
- Щёлкните на инструменте Выбрать объекты прямоугольником (Select Features By Rectangle) и растяните прямоугольник вокруг пар точек с самыми высокими значениями вариограммы, чтобы выбрать их на графике и на карте. (Руководствуйтесь приведенной ниже схемой. Необязательно выбирать точно такие же точки или использовать то же направление поиска, как на схеме.)
Обратите внимание, что большинство связанных местоположений (представляющих пары точек на карте) соответствует одной из опорных точек в центральной Калифорнии. Это объясняется тем, что значения концентрации озона в данной области выше, чем во всех других районах Калифорнии.
- Щёлкните на кнопке Закрыть (Close) в верхнем углу диалогового окна.
- Щёлкните на кнопке Очистить выбранные объекты (Clear Selected Features) на панели Инструменты (Tools), чтобы очистить выбранные точки на карте.
Из этого упражнения вы узнали следующее.
- Распределение данных по озону является одновершинным, но не слишком близко к нормальному закону, как видно по гистограмме.
- Нормальный график КК также показывает, что данные не распределены по нормальному закону, поскольку точки на графике не образуют прямую линию. Может потребоваться преобразование данных.
- С помощью инструмента Анализ тренда (Trend Analysis) вы увидели, что в данных присутствует тренд и после уточнения определили, что тренд лучше всего выражается полиномом второго порядка.
- Облако вариограммы/ковариации продемонстрировало, что необычно высокие значения вариограммы широко представлены линиями, перпендикулярными береговой линии. Анализ с помощью этого инструмента показывает, что модель интерполяции должна учитывать анизотропию.
- Поверхность вариограммы свидетельствует о пространственной автокорреляции в данных. Зная, что в наборе данных нет выпадающих (или ошибочных) опорных точек, можно уверенно приступать к интерполяции поверхности. Вы сможете создать более точную поверхность, чем в упражнении 1, где использовались параметры по умолчанию, поскольку теперь известно о присутствии тренда и анизотропии в данных и можно учесть эти обстоятельства в интерполяции. Преобразование данных может также улучшить модель интерполяции.
В упражнении 3 вы используете полученные знания об особенностях данных по озону, чтобы создать более точную модель интерполяции, чем в упражнении 1, где модель была основана на значениях параметров по умолчанию.