Статистический анализ
Информация об атрибутах пространственных объектов, а также их местоположение, являются неотъемлемой частью ГИС-данных. Эта информация используется для создания карт, которые могут быть визуально проанализированы. Статистический анализ помогает вам получать дополнительную информацию из ГИС-данных, которая не очевидна при простом взгляде на карту, например, как распределены значения атрибутов, есть ли пространственные тренды в данных, или формируют ли объекты пространственные закономерности. В отличие от функций запросов, таких как идентификация или выборка, которые предоставляют информацию об отдельных пространственных объектах, статистический анализ выявляет характеристики набора пространственных объектов как единого целого.
Некоторые методы статистического анализа, описанные в этом документе, являются самыми удобными для интерактивных приложений, таких как ArcMap, что позволяет вам выбрать и визуализировать данные в специально заданной и изменчивой среде. Некоторые методы, описанные здесь, находятся в меню и в наборе инструментов ArcMap и не имеют аналогов в инструментах геообработки. Другие методы, такие как инструменты пространственной статистики, реализованы только как инструменты геообработки.
Использование статистического анализа
Статистический анализ часто используется для исследования ваших данных, например, для исследования распределения значений конкретного атрибута или определения значений выбросов (экстремально высоких или низких значений). Иметь подобную информацию полезно при определении классов и интервалов на карте, при переклассификации данных или при поиске ошибок в данных.
В приведенном ниже примере по данным переписи была рассчитана статистика для распределения проживания пожилых граждан в этом регионе (процентное отношение людей в возрасте 65 лет и старше в каждом районе), включая среднее и среднеквадратическое отклонение, а также гистограмму, показывающую распределение значений. В большинстве районов процент проживающих пожилых людей ниже среднего значения, но некоторые участки имеют очень высокий процент.
Другим способом статистического анализа является суммирование данных. Часто суммирование производится для категорий, например, расчет общей площади в каждой категории землепользования. Вы можете также создать суммирование пространственных значений, таких как расчет средней высоты для каждого водораздела. Суммарные данные могут быть полезны для лучшего понимания условий в изучаемой области.
В приведенном ниже примере суммарная статистика была рассчитана для каждого класса землепользования, она показывает количество участков в этом классе, размер наименьшего и самого большого участков, средний размер участка, и общую площадь в классе.
Статистический анализ также используется для идентификации и подтверждения пространственных моделей, таких как центр группы объектов, направляющий тренд или объединение объектов в кластеры. Наряду с тем, что закономерности могут быть очевидны на карте, попытка сделать заключение по данным карты может быть затруднена, так как в зависимости от того, как вы классифицируете данные, и какие символы вы им присвоите, закономерности могут быть или преувеличены или, наоборот, будут выглядеть неочевидно. Статистические функции анализируют имеющиеся данные и предоставляют вам измерения, которые могут быть использованы для подтверждения существования и устойчивости закономерности.
Ниже приводится пример анализа, который показывает усредненные центры наборов данных о совершении краж, и эллипс стандартного отклонения для набора данных о местообитаниях лося (отображающий направляющий тренд).
Ниже приводится пример анализа, который показывает статистически значимые кластеры районов переписи с наибольшей численностью пожилых людей (оранжевый цвет) и наименьшей (синий).
Типы статистического анализа
Функции статистического анализа в ArcGIS for Desktop являются либо непространственными (табличными), либо пространственными (содержат местоположения).
Непространственная статистика используется для анализа значений атрибутов, связанных с пространственными объектами. Значения атрибутов доступны напрямую из таблицы атрибутов слоев пространственных объектов. Примеры непространственной статистики включают функции среднего и среднеквадратического отклонения.
В данном примере был использован инструмент Суммарная статистика (Summary Statistics) для расчета числа свободных участков для набора районов переписи, включая общее, среднее и среднеквадратическое отклонение.
Диаграммы и графики, например, гистограмма или графики нормальной вероятности являются другим способом анализа непространственных данных. Во всех случаях анализируются только значения. Местоположения объектов, с которыми связаны значения, и любые пространственные взаимоотношения между объектами не учитываются.
В этом примере гистограмма показывает распределение свободных участков (число свободных участков вдоль оси x и количество районов в каждом интервале оси y).
График нормальной вероятности используется для оценки подобия распределения наборов значений и стандартного нормального распределения (обычная кривая нормального распределения, при отображении на гистограмме). Линия на графике нормальной вероятности показывает ожидаемые значения для нормального распределения: чем ближе значение к линии, тем распределение ближе к нормальному. На этом примере, концентрация элементов фосфора для набора образцов почвы близка к нормальному распределению.
Инструмент График нормальной вероятности (Normal QQ Plot) является одним из инструментов исследования данных с помощью модуля Geostatistical Analyst.
Пространственная статистика, напротив, исследует пространственные отношения между объектами – насколько компактно или разбросанно распределены пространственные объекты, ориентированы ли они в каком-то определенном направлении, и формируют ли они кластеры. Пространственные отношения обычно определяются как расстояние (насколько далеко объекты расположены друг от друга), но эти отношения могут быть представлены другими формами взаимодействия между пространственными объектами.
В приведенном ниже примере выходные данные инструмента Стандартное расстояние (Standard Distance) (графически отображаемые в виде круга) были рассчитаны с использованием расстояний до каждой точки наблюдения дикого животного от вычисленного центра визуальных наблюдений.
Некоторые инструменты пространственной статистики учитывают как пространственные отношения объектов, так и значения атрибутов, связанных с этими пространственными объектами. Такие инструменты известны как инструменты взвешенной статистики, в которых на пространственные отношения влияют значения атрибутов. Взвешенная пространственная статистика используется для выяснения, имеют ли пространственные объекты схожие значения, встречающиеся вместе, если, например, школы с высокими или низкими оценками тестирования формируют кластеры.
На приведенном ниже примере, центр парков был получен путем взвешивания числа посетителей в каждом парке (представлен зелеными кружками разных размеров).
Статистические функции могут быть также классифицированы как дескриптивные (описательные), так и дедуктивные. Дескриптивная статистика суммирует некоторые характеристики значений или пространственных объектов, которые вы анализируете, определяя среднее значение, частоту распределения значений или направляющий тренд группы пространственных объектов. Инструменты дескриптивной статистики часто полезны для сравнения двух наборов пространственных объектов для одной и той же области.
На приведенном ниже примере показан результат сравнения распределения проживания в районе пожилых людей (верхняя часть) и детей моложе 5 лет (нижняя часть) для одного и того же набора данных переписи.
На приведенном ниже примере круги стандартного расстояния для численности населения американских индейцев и афроамериканцев показывают, что распределение афроамериканцев в этой области намного компактнее.
Инструменты дедуктивной статистики используют теорию вероятности либо для того, чтобы предсказать вероятность распространения значений (с использованием набора уже известных значений), либо для оценки вероятности того, что каждая закономерность или тренд, который вы наблюдаете в данных, не являются случайными. Эта функция предоставляет измерения пространственной закономерности или отношения. Затем вы выполняете статистическую проверку с использованием этой единицы измерения для определения, является ли этот признак значимым на некотором уровне достоверности. Если статистический анализ показывает, что места совершения грабежей попадают в кластеры, вы можете затем запустить проверку на предмет, являются ли эти кластеры случайными. Вы можете обнаружить, например, что кластеры образованы неслучайно с 90-процентной степенью вероятности, показывая, что грабежи могут быть связаны каким-то образом между собой. По существу, для определения вероятности проверка сравнивает измерение, которое вы получили для существующих пространственных объектов, с измерением, которое вы ожидаете получить для такого же числа объектов, расположенных в той же области, но распределенных беспорядочно.
На приведенном ниже примере карта слева показывает кластеры районной переписи, в которых с 90-процентной вероятностью отмечается большое количество проживающих пожилых людей (оранжевый цвет) или малое количество проживающих пожилых людей (голубой); на карте слева показаны кластеры, сформированные с 99-процентной вероятностью.
Функции статистического анализа
Статистические функции в ArcGIS for Desktop присутствуют в ArcMap, ArcCatalog и разделе геообработки, а также в двух дополнительных модулях: Spatial Analyst и Geostatistical Analyst.
Табличная статистика
Основной набор инструментов описательной статистики, которая суммирует значения для единичного поля, доступен в нескольких местах в ArcGIS for Desktop – в окне таблицы в ArcMap, на закладке просмотра таблиц в ArcCatalog и в группе инструментов Статистика (Statistics) набора инструментов Анализ (Analysis).
Функция |
Местоположение |
Статистика |
Выходные данные |
---|---|---|---|
Окно таблицы в ArcMap или закладка просмотр таблицы в ArcCatalog |
Число (Count), Минимум (Minimum), Максимум (Maximum), Сумма (Sum), Среднее (Mean), Среднеквадратическое отклонение (Standard Deviation), гистограмма Частота (Frequency) |
Результаты показаны в окне. |
|
Инструмент Суммарная статистика (Summary Statistics) |
Набор инструментов Анализ (Analysis) / группа инструментов Статистика (Statistics) |
Минимум (Minimum), Максимум (Maximum), Сумма (Sum), Среднее (Mean), Среднеквадратическое отклонение (Standard Deviation), Диапазон (Range), Первый (First), Последний (Last) |
Результаты записаны в новую таблицу. |
Для того чтобы суммировать поле с помощью одного или более других полей (например, подсчитать количество земельных участков в каждом классе землепользования, общую площадь каждого класса землепользования или определить средний размер участка в каждом классе), используйте опцию Суммировать (Summarize) в окне таблицы в ArcMap или инструмент Частота (Frequency) в группе инструментов Статистика (Statistics) набора инструментов Анализ (Analysis).
Функция |
Местоположение |
Статистика |
Выходные данные |
---|---|---|---|
Окно таблицы ArcMap (щелчок правой кнопкой на названии поля) |
Минимум (Minimum), Максимум (Maximum), Среднее (Average, Mean), Сумма (Sum), Среднеквадратическое отклонение (Standard Deviation), Дисперсия (Variance) |
Результаты записаны в новую таблицу. |
|
Инструмент Частота (Frequency) |
Набор инструментов Анализ (Analysis) / группа инструментов Статистика (Statistics) |
Число (Count), Сумма (Sum) |
Результаты записаны в новую таблицу. |
Пространственная статистика
Набор инструментов Пространственная статистика (Spatial Statistics) содержит несколько стандартных статистических приемов для анализа распределения наборов пространственных объектов, анализа закономерностей и определения кластеров.
Область применения |
Группа инструментов |
Инструменты |
---|---|---|
Измерения географического распределения |
Усредненный центр (Mean Center), Центральный объект (Central Feature), Стандартное расстояние (Standard Distance), Направленное распределение (эллипс стандартного отклонения) (Directional Distribution (Standard Deviational Ellipse)), Среднее линейное направление (Linear Directional Mean) |
|
Анализ географических закономерностей |
Среднее ближайшее соседство (Average Nearest Neighbor), Пространственная автокорреляция (Spatial Autocorrelation, Moran's I), Кластеризация с высокими/низкими значениями (High/Low Clustering, Getis-Ord General G) |
|
Географический кластерный анализ |
Анализ кластеров и выбросов (Cluster and Outlier Analysis, Anselin Local Moran's I), Анализ горячих точек (Hot Spot Analysis, Getis-Ord Gi*) |
|
регрессионный анализ | Метод наименьших квадратов (Ordinary Least Squares), Исследовательская регрессия (Exploratory Regression), Географически взвешенная регрессия (Geographically Weighted Regression) |
Статистика растра
Дополнительный модуль Spatial Analyst включает в себя несколько статистических функций, которые могут быть использованы для анализа растров, главным образом для суммирования значений атрибутов и определения суммарной статистики для ячеек в новом растровом слое. Эти функции расположены в нескольких различных группах инструментов набора инструментов дополнительного модуля Spatial Analyst.
Инструмент |
Местоположение |
Входные данные |
Выходные данные |
Что делает |
---|---|---|---|---|
Несколько растров |
Растр |
Рассчитывается специальная статистика для каждой ячейки нескольких входных растров |
||
Растр |
Растр |
Суммируются значения для растра в определенной ближайшей окрестности вокруг каждой ячейки, и присваивается значение определенной ячейке выходного растра |
||
Точечные объекты |
Растр |
Суммируются значения для атрибутов объектов в определенной ближайшей окрестности, и присваиваются значения ячейкам в выходном растре |
||
Линейные объекты |
Растр |
Суммируются значения для атрибутов линейных объектов в определенном соседстве и присваиваются значения ячейкам выходного растра |
||
Растры или полигональные объекты |
Растр или суммарная таблица |
Суммируются значения для растровой поверхности с помощью категорий или классов (зон) входного растра или набора полигонов |
Инструменты изучения данных
Дополнительный модуль Geostatistical Analyst – фокусируется на создании поверхности из набора точек выборки-также содержит набор инструментов для визуального исследования данных значений с помощью графиков и диаграмм. Эти инструменты в основном используются для создания поверхностей с целью определить, какие параметры использовать в специальном наборе данных, но также и могут быть использованы для изучения наборов ваших данных. Инструменты позволяют вам изучать распределение значений, имеется ли тренд направления в данных, и есть ли отношения между двумя атрибутами (например, определить меняются ли значения одинаково или противоположно). Инструменты доступны в опции Исследовать данные (Explore Data) на панели инструментов Geostatistical Analyst.