Картографирование данных
Первым шагом в любом анализе является картографирование и изучение данных. Это позволит вам просмотреть пространственные компоненты набора данных, даст представление о выпадающих и ошибочных значениях данных, глобальном тренде и определяющих направлениях пространственной автокорреляции наряду с другими факторами, имеющими большое значение для исследования интерполяционной модели интерполяции, которая с высокой степенью точности отражает изучаемое явление.
ArcGIS предоставляет множество способов визуализации данных: ArcMap обеспечивает доступ к большому числу схем классификации и цветов, которые можно использовать для выделения различных аспектов данных, тогда как ArcScene представляет данные в трехмерном пространстве для поиска локальных выпадающих значений и глобальных трендов. Несмотря на то, что не существует ни одного правильного способа отображения данных, на следующих рисунках представлены различные визуализации одних и тех же данных для наблюдения разных исследуемых аспектов. Более подробную информацию о схемах классификации в ArcGIS см. в разделе Классификация числовых полей для применения градуированных символов.
Начальное представление данных, которое предлагает ArcMap, использует одинаковый символ для всех опорных точек. Данное представление предоставляет сведения о пространственном экстенте образцов, покрытии исследуемой области (при наличии границы) и определяет области, отбор на которых выполнялся более интенсивно, чем другие (предпочтительная выборка). В некоторых моделях интерполяции (например, в моделях простого кригинга, которые строятся в качестве основы для геостатистических имитаций, и в моделях дизъюнктного кригинга) важно использовать метод декластеризации (см. Использование декластеризации для настройки предпочтительной выборки) для получения набора данных, который является представлением явления и не поддается влиянию дополнительной выборки в регионах высоких и низких значений изучаемой области.
На втором шаге создания карты данных используется схема классификации и цветов, отображающая значения данных и их пространственные отношения. По умолчанию ArcMap применит к данным классификацию по методу естественных границ. На рисунке ниже используется пять классов и следующая цветовая схема: синий цвет — для низких температур воды, красный — для высоких температур воды.
Естественные границы осуществляют поиск существенных различий между соседними парами данных (данные отсортированы по значению, а не по местоположению). В данном случае более высокие температуры отмечаются для самых западных образцов, тогда как в центре изучаемой области температура более низкая. Образцы, находящиеся рядом с полуостровом Аляска, демонстрируют более высокие температуры. На карте также видно, что температуры примерно одинаковы вдоль линий, проходящих от севера-запада на юго-восток. Такие сведения могут интерпретироваться как ложбина с более холодной водой в центре изучаемой области, которая проходит с северо-запада на юго-восток. Это глобальный тренд в данных, который можно смоделировать как полином второго порядка с помощью интерполяции по методу глобального или локального полинома либо как тренд в кригинге.
Другие методы, которые можно использовать для классификации данных: метод равного интервала (который использует классы равного размера) и метод квантиля (который разбивает данные на классы с одинаковым количеством значений данных). Такие классификации представлены ниже и фактически демонстрируют те же пространственные объекты, что и классификация естественных границ для этого набора данных.
Классификации на основе статистического распределения значений данных обеспечивает другое представление данных. Такая визуализация может использоваться для определения выпадающих и ошибочных данных. На рисунке ниже используется классификация по стандартному отклонению и следующая цветовая схема: положительные отклонения от среднего значения отображаются красным цветом, а отрицательные — синим.
Такая классификация улучшает предварительную оценку: положительные отклонения от среднего значения наблюдаются в самых западных образцах, тогда как в центре изучаемой области существует зона более низких температур (отрицательных отклонений от среднего значения), проходящая с северо-запада на юго-восток. Значения образцов, расположенных рядом с полуостровом Аляска, несильно отклоняются от среднего значения (отображены желтым цветом). Классификацию по стандартному отклонению можно корректировать вручную для получения единого подхода к поиску аномальных значений: границы класса корректируются, чтобы определить значения, которые отклоняются более чем на одно стандартное отклонение от среднего значения. Средняя часть данных (то есть значения, лежащие между средним значением за минусом одного стандартного отклонения и средним значением плюс одно стандартное отклонение) будет содержать 64% значения данных, если эти данные нормально распределены (по Гауссу). Скорректированная классификация представлена ниже и отображает более наглядно те значения, которые значительно отклоняются от среднего. В этом случае классификация по стандартному отклонению подтверждает то, что наблюдалось при использовании классификации по естественным границам, равному интервалу и квантилю.
При визуальном исследовании данных целесообразно разобраться, как число классов влияет на визуализацию данных. Число классов должно быть достаточным для отображения локальных элементов в значениях данных, но не настолько большим, чтобы скрыть общие закономерности в данных. Для данных, используемых в этих примерах, достаточно пяти классов. Использование девяти классов не слишком подходит для карт и делает сложнее интерпретацию пространственных объектов.