Проверка статистических гипотез
Материал из MachineLearning.
м  (уточнение)  | 
				м  (уточнение, формулы)  | 
			||
| Строка 15: | Строка 15: | ||
# Задаётся некоторая [[статистика (функция выборки)]] <tex>T:\: X^m \to \mathbb{R}</tex>, для которой в условиях справедливости гипотезы <tex>H_0</tex> выводится [[функция распределения]] <tex>F(T)</tex> и/или [[плотность распределения]] <tex>p(T)</tex>. Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика <tex>T</tex>. Вывод функции распределения <tex>F(T)</tex> при заданных <tex>H_0</tex> и <tex>T</tex> является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для <tex>F(T)</tex>; в статистических пакетах имеются готовые вычислительные процедуры.   | # Задаётся некоторая [[статистика (функция выборки)]] <tex>T:\: X^m \to \mathbb{R}</tex>, для которой в условиях справедливости гипотезы <tex>H_0</tex> выводится [[функция распределения]] <tex>F(T)</tex> и/или [[плотность распределения]] <tex>p(T)</tex>. Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика <tex>T</tex>. Вывод функции распределения <tex>F(T)</tex> при заданных <tex>H_0</tex> и <tex>T</tex> является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для <tex>F(T)</tex>; в статистических пакетах имеются готовые вычислительные процедуры.   | ||
# Фиксируется ''[[уровень значимости]]'' — допустимая для данной задачи вероятность ''ошибки первого рода'', то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число <tex>\alpha \in [0,1]</tex>. На практике часто полагают <tex>\alpha=0.05</tex>.  | # Фиксируется ''[[уровень значимости]]'' — допустимая для данной задачи вероятность ''ошибки первого рода'', то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число <tex>\alpha \in [0,1]</tex>. На практике часто полагают <tex>\alpha=0.05</tex>.  | ||
| - | # На множестве допустимых значений статистики <tex>T</tex> выделяется ''критическое множество'' <tex>\  | + | # На множестве допустимых значений статистики <tex>T</tex> выделяется ''критическое множество'' <tex>\Omega_\alpha</tex> наименее вероятных значений статистики <tex>T</tex>, такое, что <tex>\mathbb{P}\{T\in\Omega_\alpha\} = \alpha</tex>. Вычисление границ критического множества как функции от уровня значимости <tex>\alpha</tex> является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.   | 
# Собственно ''статистический тест'' (''статистический критерий'') заключается в проверке условия:  | # Собственно ''статистический тест'' (''статистический критерий'') заключается в проверке условия:  | ||
| - | #* если <tex>T(X^m)\in\  | + | #* если <tex>T(X^m)\in\Omega_\alpha</tex>, то делается вывод «данные противоречат нулевой гипотезе при уровне значимости <tex>\alpha</tex>». Гипотеза отвергается.   | 
| - | #* если <tex>T(X^m)\notin\  | + | #* если <tex>T(X^m)\notin\Omega_\alpha</tex>, то делается вывод «данные не противоречат нулевой гипотезе при уровне значимости <tex>\alpha</tex>». Гипотеза принимается.  | 
Итак, ''статистический критерий'' определяется статистикой <tex>T</tex>  | Итак, ''статистический критерий'' определяется статистикой <tex>T</tex>  | ||
| - | и критическим множеством <tex>\  | + | и критическим множеством <tex>\Omega_\alpha</tex>, которое зависит от уровня значимости <tex>\alpha</tex>.  | 
'''Замечание.'''    | '''Замечание.'''    | ||
| Строка 39: | Строка 39: | ||
Поэтому чаще всего возникают критические области одного из трёх типов:  | Поэтому чаще всего возникают критические области одного из трёх типов:  | ||
| - | * '''Двусторонняя критическая область''' определяется двумя интервалами <tex>\  | + | * '''Двусторонняя критическая область''' определяется двумя интервалами <tex>\Omega_\alpha = (-\infty,\;t_{\alpha/2})\cup(t_{1-\alpha/2}\;+\infty)</tex>.   | 
| - | * '''Левосторонняя критическая область''' определяется интервалом <tex>\  | + | * '''Левосторонняя критическая область''' определяется интервалом <tex>\Omega_\alpha = (-\infty,\; t_\alpha)</tex>.  | 
| - | * '''Правосторонняя критическая область''' определяется интервалом <tex>\  | + | * '''Правосторонняя критическая область''' определяется интервалом <tex>\Omega_\alpha = (t_{1-\alpha},\;+\infty)</tex>.  | 
| Строка 49: | Строка 49: | ||
* '''Ошибка первого рода''' или «ложная тревога» (англ. type I error, <tex>\alpha</tex> error, false positive) — когда нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:  | * '''Ошибка первого рода''' или «ложная тревога» (англ. type I error, <tex>\alpha</tex> error, false positive) — когда нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:  | ||
| - | ::<tex>\alpha = \mathbb{P}\left\{ T\in\  | + | ::<tex>\alpha = \mathbb{P}\left\{ T\in\Omega_\alpha | H_0 \right\}.</tex>   | 
* '''Ошибка второго рода''' или «пропуск цели» (англ. type II error, <tex>\beta</tex> error, false negative) — когда нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:  | * '''Ошибка второго рода''' или «пропуск цели» (англ. type II error, <tex>\beta</tex> error, false negative) — когда нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:  | ||
| - | ::<tex>\beta(H_1) = \mathbb{P}\left\{ T\notin\  | + | ::<tex>\beta(H_1) = \mathbb{P}\left\{ T\notin\Omega_\alpha | H_1 \right\}.</tex>  | 
<center>  | <center>  | ||
| Строка 77: | Строка 77: | ||
'''Мощность критерия''':  | '''Мощность критерия''':  | ||
| - | <tex>1 - \beta(H) = \mathbb{P}\left\{ T\in\  | + | <tex>1 - \beta(H) = \mathbb{P}\left\{ T\in\Omega_\alpha | H \right\}</tex> — вероятность отклонить гипотезу <tex>H_0</tex>, если на самом деле верна альтернативная гипотеза <tex>H</tex>.  | 
''Мощность критерия'' является числовой функцией от альтернативной гипотезы <tex>H</tex>.  | ''Мощность критерия'' является числовой функцией от альтернативной гипотезы <tex>H</tex>.  | ||
Версия 18:44, 11 августа 2008
 
  | 
Статистическая гипотеза (statistical hypothesys) — это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.
Проверка статистической гипотезы (testing statistical hypotheses) — это процесс принятия решения о том, что рассматриваемая статистическая гипотеза не противоречит наблюдаемой выборке данных.
Статистический тест или статистический критерий — строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.
Методика проверки статистических гипотез
Пусть задана случайная выборка  — последовательность 
 объектов из множества 
. 
Предполагается, что на множестве 
 существует некоторая неизвестная вероятностная мера 
.
Методика состоит в следующем.
-  Формулируется нулевая гипотеза 
о распределении вероятностей на множестве
. Гипотеза формулируется исходя из требований прикладной задачи. Чаще всего рассматриваются две гипотезы — основная или нулевая
и альтернативная
. Иногда альтернатива не формулируется в явном виде; тогда предполагается, что
означает «не
». Иногда рассматривается сразу несколько альтернатив. В математической статистике хорошо изучено несколько десятков «наиболее часто встречающихся» типов гипотез, и известны ещё сотни специальных вариантов и разновидностей. Примеры приводятся ниже.
 -  Задаётся некоторая статистика (функция выборки) 
, для которой в условиях справедливости гипотезы
выводится функция распределения
и/или плотность распределения
. Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика
. Вывод функции распределения
при заданных
и
является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для
; в статистических пакетах имеются готовые вычислительные процедуры.
 -  Фиксируется уровень значимости — допустимая для данной задачи вероятность ошибки первого рода, то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число 
. На практике часто полагают
.
 -  На множестве допустимых значений статистики 
выделяется критическое множество
наименее вероятных значений статистики
, такое, что
. Вычисление границ критического множества как функции от уровня значимости
является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.
 -  Собственно статистический тест (статистический критерий) заключается в проверке условия:
-  если 
, то делается вывод «данные противоречат нулевой гипотезе при уровне значимости
». Гипотеза отвергается.
 -  если 
, то делается вывод «данные не противоречат нулевой гипотезе при уровне значимости
». Гипотеза принимается.
 
 -  если 
 
Итак, статистический критерий определяется статистикой 
и критическим множеством 
, которое зависит от уровня значимости 
.
Замечание. Если данные не противоречат нулевой гипотезе, это ещё не значит, что гипотеза верна. Тому есть две причины.
- По мере увеличения длины выборки нулевая гипотеза может сначала приниматься, но потом выявятся более тонкие несоответствия данных гипотезе, и она будет отвергнута. То есть многое зависит от объёма данных; если данных не хватает, можно принять даже самую неправдоподобную гипотезу.
 -  Выбранная статистика 
может отражать не всю информацию, содержащуюся в гипотезе
. В таком случае увеличивается вероятность ошибки второго рода — нулевая гипотеза может быть принята, хотя на самом деле она не верна. Допустим, например, что
= «распределение нормально»;
= «коэффициент асимметрии»; тогда выборка с любым симметричным распределением будет признана нормальной. Чтобы избегать таких ошибок, следует пользоваться более мощными критериями.
 
Типы критической области
Обозначим через  значение, которое находится из уравнения 
, где 
 — функция распределения статистики 
. 
Фактически, 
 есть обратная к ней функция: 
.
Значение 
 называется также 
-квантилью распределения 
.
На практике, как правило, используются статистики  с унимодальной (имеющей форму пика) плотностью распределения. 
Критические области (наименее вероятные значения статистики) соответствуют «хвостам» этого распределения. 
Поэтому чаще всего возникают критические области одного из трёх типов:
-  Двусторонняя критическая область определяется двумя интервалами 
.
 
-  Левосторонняя критическая область определяется интервалом 
.
 
-  Правосторонняя критическая область определяется интервалом 
.
 
Ошибки первого и второго рода
-  Ошибка первого рода или «ложная тревога» (англ. type I error, 
error, false positive) — когда нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:
 
-  Ошибка второго рода или «пропуск цели» (англ. type II error, 
error, false negative) — когда нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:
 
| Верная гипотеза | |||
|---|---|---|---|
|   |   | ||
| Результат применения критерия  |   |   |   (Ошибка второго рода)  | 
|   |   (Ошибка первого рода)  |   | |
Свойства статистических критериев
Мощность критерия:
 — вероятность отклонить гипотезу 
, если на самом деле верна альтернативная гипотеза 
.
Мощность критерия является числовой функцией от альтернативной гипотезы 
.
Несмещённый критерий:  
 для всех альтернатив 
.
Состоятельный критерий:  
 при 
 для всех альтернатив 
.
Равномерно более мощный критерий.
Говорят, что критерий с мощностью  является равномерно более мощным, чем критерий с мощностью 
, если выполняются два условия:
;
для всех рассматриваемых альтернатив
, причём хотя бы для одной альтернативы неравенство строгое.
Типы статистических гипотез
-  Простая гипотеза однозначно определяет функцию распределения на множестве 
. Простые гипотезы имеют узкую область применения, ограниченную критериями согласия (см. ниже). Для простых гипотез известен общий вид равномерно более мощного критерия (Теорема Неймана-Пирсона).
 
-  Сложная гипотеза утверждает принадлежность распределения к некоторому множеству распределений на 
. Для сложных гипотез вывести равномерно более мощный критерий удаётся лишь в некоторых специальных случаях.
 
Типы статистических критериев
В зависимости от проверяемой нулевой гипотезы статистические критерии делятся на группы, перечисленные ниже по разделам.
Наряду с нулевой гипотезой, которая принимается или отвергается по результату анализа выборки, статистические критерии могут опираться на дополнительные предположения, которые априори предпологаются выполненными.
- Параметрические критерии предполагают, что выборка порождена распределением из заданного параметрического семейства. В частности, существует много критериев, предназначенных для анализа выборок из нормального распределения. Преимущество этих критериев в том, что они более мощные. Однако если выборка не удовлетворяет дополнительным предположениям, то вероятность ошибок (как I, так и II рода) резко возрастает. Прежде чем применять такие критерии, необходимо проверить дополнительную гипотезу о распределении с помощью критериев согласия.
 - Непараметрические критерии не опираются на дополнительные предположения о распределении. В частности, к этому типу критериев относятся ранговые критерии.
 
Критерии согласия
Критерии согласия проверяют, согласуется ли заданная выборка с заданным фиксированным распределением, с заданным параметрическим семейством распределений, или с другой выборкой.
- Критерий Колмогорова-Смирнова
 - Критерий хи-квадрат (Пирсона)
 - Критерий омега-квадрат (фон Мизеса)
 
Критерии нормальности
Критерии нормальности — это выделенный частный случай критериев согласия. Нормально распределённые величины часто встречаются в прикладных задачах, что обусловлено действием закона больших чисел. Если про выборки заранее известно, что они подчиняются нормальному распределению, то к ним становится возможно применять более мощные параметрические критерии. Проверка нормальность часто выполняется на первом шаге анализа выборки, чтобы решить, использовать далее параметрические методы или непараметрические. В справочнике А. И. Кобзаря приведена сравнительная таблица мощности для 21 критерия нормальности.
Критерии однородности
Критерии однородности предназначены для проверки нулевой гипотезы о том, что две выборки (или несколько) взяты из одного распределения, либо их распределения имеют одинаковые значения математического ожидания, дисперсии, или других параметров.
Критерии тренда, стационарности и случайности
Критерии тренда и случайности предназначены для проверки нулевой гипотезы об отсутствии зависимости между выборочными данными и номером наблюдения в выборке. Они часто применяются в анализе временных рядов, в частности, при анализе регрессионных остатков.
Критерии выбросов
Критерии дисперсионного анализа
Критерии корреляционного анализа
Критерии регрессионного анализа
Литература
- Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
 - Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
 
Ссылки
- Statistical hypothesis testing — статья в англоязычной Википедии.
 

