Уровень значимости

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, когда на самом деле она верна.

Другая интерпретация: уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.

Уровень значимости обычно обозначают греческой буквой \alpha (альфа).

Стандартная методика проверки статистических гипотез

В стандартной методике проверки статистических гипотез уровень значимости фиксируется заранее, до того, как становится известной выборка x^m=(x_1,\ldots,x_m).

Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) \alpha может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative). Вероятность ошибки второго рода \beta связана с мощностью критерия \gamma простым соотношением  \gamma = 1-\beta. Выбор уровня значимости требует компромисса между значимостью и мощностью или (что то же самое, но другими словами) между вероятностями ошибок первого и второго рода.

Обычно рекомендуется выбирать уровень значимости из априорных соображений. Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться, и выбор часто сводится к назначению одного из популярных вариантов \alpha=0.005,\; 0.01,\; 0.05,\; 0.1. В докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц. Теперь нет никаких специальных причин для выбора именно этих значений.

Существует две альтернативные методики, не требующие априорного назначения \alpha.

Вычисление пи-величины

Достигаемый уровень значимости или пи-величина (p-value) — это наименьшая величина уровня значимости, при которой нулевая гипотеза отвергается для данного значения статистики критерия T.

p(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},

где \Omega_\alpha — критическая область критерия.

Другая интерпретация: достигаемый уровень значимости или пи-величина p(T) — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики T.

Случайная величина p(T(x^m)) имеет равномерное распределение. Фактически, функция p(T) приводит значение статистики критерия T к шкале вероятности. Маловероятным значениям (хвостам распределения) статистики T соотвествуют значения p(T), близкие к нулю или к единице.

Вычислив значение p(T(x^m)) на заданной выборке x^m, статистик имеет возможность решить, является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу. Данная методика является более гибкой, чем стандартная. В частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок [0.01,\,0.1].

Вычисление ROC-кривой

ROC-кривая (receiver operating characteristic) — это зависимость мощности (1-\beta) от уровня значимости \alpha.

Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.


Литература

  1. Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
  2. Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
  3. Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.

См. также

Ссылки

  • P-value — статья в англоязычной Википедии.
  • ROC curve — статья в англоязычной Википедии.
Личные инструменты