Что такое z-оценка? Что такое p-значение?

Большинство статистических тестов начинаются с определения нулевой гипотезы. Нулевая гипотеза для инструментов анализа структурных закономерностей (Группа инструментов Анализ структурных закономерностей (Analyzing Patterns toolset) и Список кластеров (Mapping Clusters)) — это полная пространственная хаотичность (ППХ) или самих объектов или значений, связанных с ними. Z-оценки и p-значения, полученные в результате анализа структурных закономерностей, свидетельствуют о том, можно ли отклонить нулевую гипотезу или нет. Как правило, вы запускаете один из инструментов анализа структурных закономерностей, предполагая, что z-оценка и р-значение будут свидетельствовать о возможном опровержении нулевой гипотезы. Это будет говорить о том, что ваши объекты или значения, связанные с ними, проявляют статистически значимую кластеризацию или дисперсию. Всякий раз, когда вы видите пространственную структуру, такую как объединение в кластеры, в ваших пространственных данных, вы видите доказательства некоторых основных пространственных процессов на работе, и как географа или ГИС-аналитика вас это больше всего интересует.

p-значение - вероятность. Для анализа структурных закономерностей, это вероятность того, что наблюдаемые пространственные закономерности были созданы некоторым случайным процессом. Когда p-значение является очень маленьким, это означает, что это очень маловероятно (маленькая вероятность), что наблюдаемые пространственные закономерности - результат случайных процессов, таким образом, вы можете отклонить нулевую гипотезу. Вы можете задать вопрос: насколько маленький объект в действительности мал? Хороший вопрос. Смотрите таблицу и обсуждения ниже.

Z-оценки - это просто стандартные отклонения. Если, например, инструмент возвращает z-оценку +2.5, вы сказали бы, что результат - 2.5 стандартных отклонений. И z-оценки и p-значения связаны со стандартным нормальным распределением, как показано ниже.

Стандартное нормальное распределение

Очень высокие или очень низкие (отрицательные) z-оценки, связанные с очень маленькими p-значениями, располагаются в хвостах нормального распределения. Когда Вы запускаете аналитический инструмент анализа структурных закономерностей, и он приводит к маленьким p-значениями или очень высоким или очень низким z-оценкам, это указывает, что маловероятно, что наблюдаемая пространственная модель отражает теоретическую случайную структурную закономерность, представленную Вашей нулевой гипотезой.

Чтобы отклонить нулевую гипотезу, Вы должны сделать субъективное суждение относительно уровня риска, который вы готовы принять для того, чтобы быть неправыми (для того, чтобы ложно отклонить нулевую гипотезу). Следовательно, прежде чем вы запустите пространственный статистический процесс, вы выбираете доверительный уровень. Типичные доверительные уровни 90, 95, или 99 процентов. Доверительный уровень 99 процентов был бы самым консервативным в этом случае, указывая, что вы не желаете отклонить нулевую гипотезу до тех пор, пока вероятность, что модель была создана случайным процессом, не является действительно маленькой (меньше чем 1-процентная вероятность). Таблица ниже показывает критические p-значения и z-оценки для различных доверительных уровней.

z-оценка (Стандартные отклонения)

p-значения (Вероятность)

Доверительный уровень

< -1,65 или > +1,65

< 0,10

90%

< -1,96 или > +1,96

< 0,05

95%

< -2,58 или > +2,58

< 0,01

99%

Рассмотрим пример. Критические значения z-оценки, используя 95-процентный доверительный уровень являются-1.96 и +1.96 стандартными отклонениями. P-значение, связанное с 95-процентным доверительным уровнем, - 0.05. Если ваша z-оценка будет между-1.96 и +1.96, то ваше p-значение будет больше чем 0.05, и вы не можете отклонить свою нулевую гипотезу; показанная модель может очень вероятно быть результатом случайных пространственных процессов. Если z-оценка падает вне того диапазона (например,-2.5 или +5.4 стандартных отклонений), наблюдаемая пространственная модель, вероятно, слишком необычная, чтобы быть результатом случайного процесса, и p-значения будут маленькими, чтобы отклонить это. В этом случае возможно отклонить нулевую гипотезу и возобновить выяснение, что могло бы вызывать статистически существенную пространственную структуру в ваших данных.

Ключевая идея здесь состоит в том, что значения в середине нормального распределения (z-оценки такие как 0.19 или-1.2, например), представляют ожидаемый результат. Когда абсолютное значение z-оценки является большим, и вероятности являются маленькими (в хвостах нормального распределения), однако, вы видите что-то необычное и вообще очень интересное. Для инструмента Анализ горячих точек например, "необычный" означает или статистически существенную горячую "точку" или статистически существенное холодное "пятно".

Нулевая гипотеза

Несколько статистических показателей в наборе инструментов пространственной статистики представляют собой логически выведенные пространственные методы анализа структурных закономерностей. Например, Пространственная автокорреляция (Общий индекс I Морана), Анализ кластеров и выбросов и Анализ горячих точек (Getis-Ord Gi*). Логически выведенные статистические показатели обоснованы в теории вероятности. Вероятность - мера случайности, и лежащие в основе все статистические тесты (любой прямо или косвенно) - вычисления вероятностей, которые оценивают роль случая на результат вашего анализа. Как правило, с традиционными (не пространственными) статистическими показателями, вы работаете со случайной выборкой и пытаетесь определить вероятность, что ваша выборка данных - хорошее представление (рефлексивно) населения в целом. Как пример, вы могли бы спросить, "Каковы шансы, что результаты моего экзит-пола (показывающие, что кандидат А слегка превзойдет кандидата Б) отразят заключительные результаты выборов?" Но в большинстве случаев работая с пространственными статистическими показателями, включая упомянутую выше пространственную автокорреляцию, как правило, вы используете все данные, которые доступны в области исследования (все преступления, все случаи болезни, атрибуты для каждого переписного участка, и так далее). Когда вы вычисляете статистическую величину для всего населения, у вас больше нет оценки вообще. Перед вами факт. Следовательно, не имеет никакого смысла говорить о вероятности или вероятностях. Таким образом, как могут инструменты анализа пространственных структурных закономерностей, часто применяемые ко всем данным в области исследования, законно сообщить о вероятностях? Ответ - то, что они могут сделать это, постулируя через нулевую гипотезу, что данные, фактически, являются частью некоторого более многочисленного населения. Рассмотрим это более подробно.

Рандомизация нулевой гипотезы (Randomization Null Hypothesis) . Где необходимо, инструменты в наборе инструментов пространственной статистики используют рандомизацию нулевой гипотезы в качестве основания для статистически значимого теста. Рандомизация нулевой гипотезы постулирует, что наблюдаемая пространственная модель ваших данных представляет одно из многих (n!) возможных пространственных организаций данных. Если бы вы могли собрать свои значения данных и бросить их вниз на объекты в вашей области исследования, у вас было бы одно возможное пространственное расположение тех значений. (Отметьте, что собирание ваших значений данных и произвольных их бросок являются примером случайного пространственного процесса). Рандомизация нулевой гипотезы утверждает, что, если бы Вы могли сделать это упражнение (собрать их, бросить их вниз) бесконечное количество раз, в большинстве случаев вы бы создали структуру, которая не будет заметно отличаться от наблюдаемой структуры (ваши реальные данные). Время от времени вы могли бы случайно бросить все самые высокие значения в один и тот же угол вашей области исследования, но вероятность такого исхода является маленькой. Рандомизация нулевой гипотезы утверждает, что ваши данные - один из многих, многих, многих возможных версий полной пространственной хаотичности. Значения данных фиксированы; только их пространственная организация могла измениться.

Нормализация нулевой гипотезы. Общая альтернативная нулевая гипотеза, не реализованная для набора инструментов пространственной статистики, — это нормализация нулевой гипотезы. Нормализация Нулевой гипотезы постулирует, что наблюдаемые величины получены из бесконечно большого, нормально распределенного населения посредством некоторого случайного процесса осуществления выборки. С разной выборкой, вы получили бы различные значения, но вы будете все еще ожидать, что те значения будут представительны для большего распределения. Нормализация нулевой гипотезы утверждает, что значения представляют один из многих возможных выборок значений. Если вы могли бы привести свои наблюдаемые данные к нормальной кривой и хаотично выбирать значения из того распределения, чтобы бросить на вашу область исследования, большую часть раз вы произведете модель и распределение значений, которые заметно не отличались бы от наблюдаемого образца/распределения (ваши реальные данные). Нормализация нулевой гипотезы утверждает, что ваши данные и их организация - один из многих, многих, многих возможных случайных выборок. Ни значения данных, ни их пространственное расположение не установлены. Нормализация нулевой гипотезы является только соответствующей, когда значения данных нормально распределены.

Дополнительные источники:

Связанные темы

9/11/2013