Поиск глобальных и локальных выпадающих значений
Глобальное выпадающее значение — это измеренная опорная точка с очень высоким или очень низким значением по сравнению со всеми значениями в наборе данных. Например, если значения 99 из 100 точек находятся в промежутке от 300 до 400, а значение 100-й точки равно 750, то 100-я точка может являться глобальным выпадающим значением.
Локальное выпадающее значение— это измеренная опорная точка, которая имеет значение в пределах нормы для всего набора данных, но если посмотреть на окрестные точки, то это значение будет чрезвычайно высоким или низким. Например, на диаграмме ниже представлено поперечное сечение долины. При этом в центре долины имеется точка с чрезвычайно высоким значением по сравнению с ее окрестностями, но весьма обычным по сравнению со всем набором данных.
Выпадающие значения важно установить по двум причинам: выпадающие значения могут быть реальными аномалиями в явлении, и значение может быть измерено или записано неправильно.
Если выпадающее значение является фактической аномалией в явлении, то он может быть самой показательной точкой в исследовании и осмыслении явления. Например, образец пласта минеральной руды может быть выпадающим значением и наиболее важным местоположением для горнодобывающей компании.
Если выпадающие значения вызваны ошибками во время ввода очевидно неправильных данных, то они должны быть исправлены или удалены перед созданием поверхности. Выпадающие значения могут неблагоприятно влиять на поверхность интерполяции, поскольку оказывают влияние на моделирование вариограммы и соседние значения.
Поиск выпадающих значений с помощью инструмента Гистограмма (Histogram)
Инструмент Гистограмма (Histogram) позволяет осуществить выбор точек в хвосте распределения. Выбранные точки отображаются в виде данных ArcMap. Если экстремальные значения принадлежат изолированным местоположениям (например, окруженные очень разными значениями), то может потребоваться их дальнейшее исследование и при необходимости удаление.
В примере, представленном выше, высокие значения концентрации озона не являются выпадающими значениями и не должны удаляться из набора данных.
Определение выпадающих значений с помощью облака вариограммы/ковариации (Semivariogram/Covariance cloud)
При наличии глобального выпадающего значения с очень высоким значением в наборе данных все пары точек с этим выпадающим значением будут иметь высокие значения в Облаке вариограммы (Semivariogram cloud) вне зависимости от расстояния. Это можно увидеть на облаке вариограммы и на гистограмме, представленной ниже. Заметьте, что существует два основных слоя точек на вариограмме. Если закрасить точки верхнего слоя, как показано на рисунке, можно увидеть в представлении ArcMap, что все эти высокие значения получены из пар одного местоположения — глобального выпадающего значения. Таким образом, верхний слой точек создается всеми местоположениями в паре с одним выпадающим значением, а нижний слой состоит из пар оставшихся местоположений. На гистограмме можно увидеть высокое значение в правом хвосте гистограммы, также указывающее на глобальное выпадающее значение. Возможно, это значение неправильно введено. Его необходимо удалить или исправить.
При наличии локального выпадающего значения значение будет находиться вне диапазона полного распределения, а также будет сильно отличаться от окрестных значений. На гистограмме локального выпадающего значения, представленной ниже, видно, что пары местоположений, расположенных близко друг к другу, имеют высокие значения вариограммы (эти точки находятся в крайне левом положении по оси х, что указывает на, что они расположены поблизости, и имеют высокие значения по оси у, свидетельствующие о высоких значениях вариограммы). Если выделить эти точки, видно, что все они являются парами одного местоположения. На вариограмме отсутствует выделяющееся значение. Рассматриваемое местоположение выделено в нижнем хвосте гистограммы и образует пары с более высокими окружающими значениями (см. выделенные цветом точки на гистограмме). Это местоположение может являться выпадающим значением. Необходимо произвести дальнейшие исследования, прежде чем решить, ошибочна ли эта точка, или она действительно отражает истинные характеристики явления и должна быть включена в модель.
Поиск выпадающих значений с помощью карт Вороного
Карты Вороного (Voronoi maps), основанные на кластерном методе и методе энтропии, используются для определения возможных выпадающих значениий.
Значения энтропии предоставляют меру отличия соседних ячеек. В природе можно ожидать, что объекты, расположенные рядом друг с другом, будут более подобными, чем удаленные объекты. Следовательно, локальные выпадающие значения можно определить по высокой энтропии.
Кластерный метод определяет те ячейки, которые отличаются от окружающих соседей. Можно ожидать, что значение, записываемое в конкретную ячейку, будет сходно как минимум со значением одного из соседей. Следовательно, данный инструмент можно использовать для определения возможных выпадающих значений.