Гистограммы

Инструмент Гистограмма (Histogram) предоставляет одномерное (с одной переменной) описание данных. В диалоговом окне инструмента отображается частотное распределение интересующего набора данных и вычисляется суммарная статистика.

Частотное распределение

Частотное распределение представляет собой столбчатую диаграмму для отображения частотности попадания наблюдаемых значений в определенные интервалы или классы. Можно указать ряд классов с одинаковой шириной, которые будут использоваться в гистограмме. Относительная пропорция данных, которая распределяется по каждому классу, выражается высотой каждого столбца. Например, в гистограмме ниже показано частотное распределение (10 классов) для набора данных.

Сгруппированная гистограмма
Пример диалогового окна Гистограмма (Histogram)

Суммарная статистика

Важные объекты распределения могут быть суммированы с помощью различных статистик, которые характеризуют их местоположение, распределение и форму.

Показатели расположения

Показатели расположения дают представление о том, где находятся центр и другие части распределения.

  • Среднее значение — это среднее арифметическое данных. Среднее представляет собой один из показателей центра распределения.
  • Значение медианы соответствует кумулятивной пропорции 0,5. Если данные организованы в порядке возрастания, 50 процентов значений будут находиться ниже медианы, а другие 50 процентов — выше медианы. Медиана предоставляет еще один показатель центра распределения.
  • Первая и третья квартили соответствуют кумулятивной пропорции 0,25 и 0,75. Если данные организованы в порядке возрастания, 25 процентов значений будут находиться ниже первой квартили, а еще 25 процентов — выше третьей квартили. Первая и третья квартили являются особыми случаями квантилей. Квантили вычисляются следующим образом:
    quantile = (i - 0.5) / N
    где i — упорядоченное i-тое значение данных.

Показатели разброса

Разброс точек вокруг среднего значения — еще одна характеристика отображаемого частотного распределения.

  • Дисперсия данных представляет собой среднеквадратическое отклонение всех значений от среднего. Поскольку в нее включаются квадраты разностей, вычисляемая дисперсия чувствительна к необычно высоким или низким значениям. Дисперсия оценивается суммированием квадратических отклонений от среднего и делением суммы на (N-1).
  • Стандартное отклонение представляет собой квадратный корень из дисперсии и описывает разброс данных вокруг среднего. Чем меньше дисперсия и стандартное отклонение, тем гуще сконцентрирован кластер измерений вокруг среднего значения.

На диаграмме ниже показаны два распределения с различными стандартными отклонениями. Частотное распределение, представленное черной линией, более переменчиво (с широким разбросом), чем частотное распределение, представленное красной линией. Дисперсия и стандартное отклонение для черного частотного распределения больше, чем для красного.

Показатели диаграммы разброса
Показатели диаграммы разброса

Показатели формы

Частотное распределение также характеризуется формой.

Коэффициент асимметрии — это показатель симметрии распределения. Для симметричных распределений коэффициент асимметрии равен нулю. Если у распределения есть длинный правый хвост больших значений, то у него положительная асимметрия, а если длинный левый хвост малых значений — то отрицательная. Среднее значение для распределений с положительной асимметрией больше, чем медиана, а для распределений с отрицательной асимметрией — наоборот. На рисунке ниже показано распределение с положительной асимметрией.

Распределение с положительной асимметрией
Пример распределения с положительной асимметрией

Эксцесс основан на размере хвостов распределения и представляет собой показатель вероятности того, что распределение будет создавать выпадающие значения. Эксцесс нормального распределения равен трем. Распределения с относительно толстыми хвостами называются островершинными (лептокуртическими), и у них эксцесс больше трех. Распределения с относительно тонкими хвостами называются плосковершинными (платикуртическими), и у них эксцесс меньше трех. На следующей диаграмме нормальное распределение показано красным цветом, а островершинное (с толстыми хвостом) — черным.

Нормальное распределение
Пример нормального распределения

Примеры

С помощью инструмента Гистограмма (Histogram) можно исследовать форму распределения путем прямого наблюдения. Просматривая статистику среднего значения и медианы, можно определить расположение центра распределения. На рисунке внизу обратите внимание на колоколообразное распределение, и так как значения среднего арифметического и медианы близки, это распределение близко к нормальному. Также можно выделить экстремальные значения в хвосте гистограммы и увидеть, как они расположены в пространстве на отображаемой карте.

Колоколообразная гистограмма
Пример колоколообразной гистограммы

Если асимметрия данных слишком большая, можно протестировать эффекты трансформации на данных. На этом рисунке показано распределение с асимметрией перед применением преобразования.

Гистограмма с асимметрией (Skewed histogram)
Пример гистограммы с асимметрией

К асимметричным данным применяется логарифмическое преобразование, и в этом случае преобразование приближает распределение к нормальному.

Гистограмма логарифмического преобразования
Пример гистограммы логарифмического преобразования

Более подробно о преобразованиях, доступных в инструменте Гистограмма (Histogram), см. в разделе Преобразования по методу Box-Cox, арксинуса- и логарифмические.

9/11/2013