Проверка статистических гипотез

Материал из MachineLearning.

(Различия между версиями)

Версия 18:44, 11 августа 2008

Содержание

1 Методика проверки статистических гипотез
2 Типы критической области
3 Ошибки первого и второго рода
4 Свойства статистических критериев
5 Типы статистических гипотез
6 Типы статистических критериев
7 Литература
8 Ссылки

Статистическая гипотеза (statistical hypothesys) — это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.

Проверка статистической гипотезы (testing statistical hypotheses) — это процесс принятия решения о том, что рассматриваемая статистическая гипотеза не противоречит наблюдаемой выборке данных.

Статистический тест или статистический критерий — строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.

Методика проверки статистических гипотез

Пусть задана случайная выборка $x^m = (x_1,\ldots,x_m)$ — последовательность $m$ объектов из множества $X$ . Предполагается, что на множестве $X$ существует некоторая неизвестная вероятностная мера $\mathbb{P}$ .

Методика состоит в следующем.

Формулируется нулевая гипотеза $H_0$ о распределении вероятностей на множестве $X$ . Гипотеза формулируется исходя из требований прикладной задачи. Чаще всего рассматриваются две гипотезы — основная или нулевая $H_0$ и альтернативная $H_1$ . Иногда альтернатива не формулируется в явном виде; тогда предполагается, что $H_1$ означает «не $H_0$ ». Иногда рассматривается сразу несколько альтернатив. В математической статистике хорошо изучено несколько десятков «наиболее часто встречающихся» типов гипотез, и известны ещё сотни специальных вариантов и разновидностей. Примеры приводятся ниже.
Задаётся некоторая статистика (функция выборки) $T:\: X^m \to \mathbb{R}$ , для которой в условиях справедливости гипотезы $H_0$ выводится функция распределения $F(T)$ и/или плотность распределения $p(T)$ . Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика $T$ . Вывод функции распределения $F(T)$ при заданных $H_0$ и $T$ является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для $F(T)$ ; в статистических пакетах имеются готовые вычислительные процедуры.
Фиксируется уровень значимости — допустимая для данной задачи вероятность ошибки первого рода, то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число $\alpha \in [0,1]$ . На практике часто полагают $\alpha=0.05$ .
На множестве допустимых значений статистики $T$ выделяется критическое множество $\Omega_\alpha$ наименее вероятных значений статистики $T$ , такое, что $\mathbb{P}\{T\in\Omega_\alpha\} = \alpha$ . Вычисление границ критического множества как функции от уровня значимости $\alpha$ является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.
Собственно статистический тест (статистический критерий) заключается в проверке условия:
- если $T(X^m)\in\Omega_\alpha$ , то делается вывод «данные противоречат нулевой гипотезе при уровне значимости $\alpha$ ». Гипотеза отвергается.
- если $T(X^m)\notin\Omega_\alpha$ , то делается вывод «данные не противоречат нулевой гипотезе при уровне значимости $\alpha$ ». Гипотеза принимается.

Итак, статистический критерий определяется статистикой $T$ и критическим множеством $\Omega_\alpha$ , которое зависит от уровня значимости $\alpha$ .

Замечание. Если данные не противоречат нулевой гипотезе, это ещё не значит, что гипотеза верна. Тому есть две причины.

По мере увеличения длины выборки нулевая гипотеза может сначала приниматься, но потом выявятся более тонкие несоответствия данных гипотезе, и она будет отвергнута. То есть многое зависит от объёма данных; если данных не хватает, можно принять даже самую неправдоподобную гипотезу.
Выбранная статистика $T$ может отражать не всю информацию, содержащуюся в гипотезе $H_0$ . В таком случае увеличивается вероятность ошибки второго рода — нулевая гипотеза может быть принята, хотя на самом деле она не верна. Допустим, например, что $H_0$ = «распределение нормально»; $T(X^m)$ = «коэффициент асимметрии»; тогда выборка с любым симметричным распределением будет признана нормальной. Чтобы избегать таких ошибок, следует пользоваться более мощными критериями.

Типы критической области

Обозначим через $t_\alpha$ значение, которое находится из уравнения $F(t_\alpha) = \alpha$ , где $F(t) = \mathbb{P}\left\{ T<t \right\}$ — функция распределения статистики $T$ . Фактически, $t_\alpha$ есть обратная к ней функция: $t_\alpha = F^{-1}(\alpha)$ . Значение $t_\alpha$ называется также $\alpha$ -квантилью распределения $F(t)$ .

На практике, как правило, используются статистики $T$ с унимодальной (имеющей форму пика) плотностью распределения. Критические области (наименее вероятные значения статистики) соответствуют «хвостам» этого распределения. Поэтому чаще всего возникают критические области одного из трёх типов:

Двусторонняя критическая область определяется двумя интервалами $\Omega_\alpha = (-\infty,\;t_{\alpha/2})\cup(t_{1-\alpha/2}\;+\infty)$ .

Левосторонняя критическая область определяется интервалом $\Omega_\alpha = (-\infty,\; t_\alpha)$ .

Правосторонняя критическая область определяется интервалом $\Omega_\alpha = (t_{1-\alpha},\;+\infty)$ .

Ошибки первого и второго рода

Ошибка первого рода или «ложная тревога» (англ. type I error, $\alpha$ error, false positive) — когда нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:

$\alpha = \mathbb{P}\left\{ T\in\Omega_\alpha | H_0 \right\}.$

Ошибка второго рода или «пропуск цели» (англ. type II error, $\beta$ error, false negative) — когда нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:

$\beta(H_1) = \mathbb{P}\left\{ T\notin\Omega_\alpha | H_1 \right\}.$


		Верная гипотеза
		$H_0$	$H_1$
Результат применения критерия	$H_0$	$H_0$ верно принята	$H_1$ неверно отвергнута (Ошибка второго рода)
Результат применения критерия	$H_1$	$H_0$ неверно отвергнута (Ошибка первого рода)	$H_1$ верно принята

Свойства статистических критериев

Мощность критерия: $1 - \beta(H) = \mathbb{P}\left\{ T\in\Omega_\alpha | H \right\}$ — вероятность отклонить гипотезу $H_0$ , если на самом деле верна альтернативная гипотеза $H$ . Мощность критерия является числовой функцией от альтернативной гипотезы $H$ .

Несмещённый критерий: $1-\beta(H) > \alpha$ для всех альтернатив $H$ .

Состоятельный критерий: $\beta(H) \to 0$ при $m\to\infty$ для всех альтернатив $H$ .

Равномерно более мощный критерий. Говорят, что критерий с мощностью $1-\beta(H)$ является равномерно более мощным, чем критерий с мощностью $1-\beta'(H)$ , если выполняются два условия:

$\beta(H_0) = \beta'(H_0)$ ;
$\beta(H_1) \leq \beta'(H_1)$ для всех рассматриваемых альтернатив $H_1\neq H_0$ , причём хотя бы для одной альтернативы неравенство строгое.

Типы статистических гипотез

Простая гипотеза однозначно определяет функцию распределения на множестве $X$ . Простые гипотезы имеют узкую область применения, ограниченную критериями согласия (см. ниже). Для простых гипотез известен общий вид равномерно более мощного критерия (Теорема Неймана-Пирсона).

Сложная гипотеза утверждает принадлежность распределения к некоторому множеству распределений на $X$ . Для сложных гипотез вывести равномерно более мощный критерий удаётся лишь в некоторых специальных случаях.

Типы статистических критериев

В зависимости от проверяемой нулевой гипотезы статистические критерии делятся на группы, перечисленные ниже по разделам.

Наряду с нулевой гипотезой, которая принимается или отвергается по результату анализа выборки, статистические критерии могут опираться на дополнительные предположения, которые априори предпологаются выполненными.

Параметрические критерии предполагают, что выборка порождена распределением из заданного параметрического семейства. В частности, существует много критериев, предназначенных для анализа выборок из нормального распределения. Преимущество этих критериев в том, что они более мощные. Однако если выборка не удовлетворяет дополнительным предположениям, то вероятность ошибок (как I, так и II рода) резко возрастает. Прежде чем применять такие критерии, необходимо проверить дополнительную гипотезу о распределении с помощью критериев согласия.
Непараметрические критерии не опираются на дополнительные предположения о распределении. В частности, к этому типу критериев относятся ранговые критерии.

Критерии согласия

Критерии согласия проверяют, согласуется ли заданная выборка с заданным фиксированным распределением, с заданным параметрическим семейством распределений, или с другой выборкой.

Критерии нормальности

Критерии нормальности — это выделенный частный случай критериев согласия. Нормально распределённые величины часто встречаются в прикладных задачах, что обусловлено действием закона больших чисел. Если про выборки заранее известно, что они подчиняются нормальному распределению, то к ним становится возможно применять более мощные параметрические критерии. Проверка нормальность часто выполняется на первом шаге анализа выборки, чтобы решить, использовать далее параметрические методы или непараметрические. В справочнике А. И. Кобзаря приведена сравнительная таблица мощности для 21 критерия нормальности.

Критерии однородности

Критерии однородности предназначены для проверки нулевой гипотезы о том, что две выборки (или несколько) взяты из одного распределения, либо их распределения имеют одинаковые значения математического ожидания, дисперсии, или других параметров.

Критерии тренда, стационарности и случайности

Критерии тренда и случайности предназначены для проверки нулевой гипотезы об отсутствии зависимости между выборочными данными и номером наблюдения в выборке. Они часто применяются в анализе временных рядов, в частности, при анализе регрессионных остатков.

Критерии выбросов

Критерии дисперсионного анализа

Критерии корреляционного анализа

Критерии регрессионного анализа

Литература

Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Statistical hypothesis testing — статья в англоязычной Википедии.

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7»

Категории: Незавершённые статьи | Математическая статистика | Прикладная статистика | Популярные и обзорные статьи

@@ Строка 15: / Строка 15: @@
 # Задаётся некоторая [[статистика (функция выборки)]] <tex>T:\: X^m \to \mathbb{R}</tex>, для которой в условиях справедливости гипотезы <tex>H_0</tex> выводится [[функция распределения]] <tex>F(T)</tex> и/или [[плотность распределения]]&nbsp;<tex>p(T)</tex>. Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика&nbsp;<tex>T</tex>. Вывод функции распределения <tex>F(T)</tex> при заданных&nbsp;<tex>H_0</tex> и&nbsp;<tex>T</tex> является строгой математической задачей, которая решается методами теории вероятностей; в&nbsp;справочниках приводятся готовые формулы для&nbsp;<tex>F(T)</tex>; в&nbsp;статистических пакетах имеются готовые вычислительные процедуры.
 # Фиксируется ''[[уровень значимости]]'' — допустимая для данной задачи вероятность ''ошибки первого рода'', то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число <tex>\alpha \in [0,1]</tex>. На&nbsp;практике часто полагают <tex>\alpha=0.05</tex>.
-# На множестве допустимых значений статистики&nbsp;<tex>T</tex> выделяется ''критическое множество''&nbsp;<tex>\Omega</tex> наименее вероятных значений статистики&nbsp;<tex>T</tex>, такое, что <tex>\mathbb{P}\{T\in\Omega\} = \alpha</tex>. Вычисление границ критического множества является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.
+# На множестве допустимых значений статистики&nbsp;<tex>T</tex> выделяется ''критическое множество''&nbsp;<tex>\Omega_\alpha</tex> наименее вероятных значений статистики&nbsp;<tex>T</tex>, такое, что <tex>\mathbb{P}\{T\in\Omega_\alpha\} = \alpha</tex>. Вычисление границ критического множества как функции от уровня значимости <tex>\alpha</tex> является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.
 # Собственно ''статистический тест'' (''статистический критерий'') заключается в проверке условия:
-#* если <tex>T(X^m)\in\Omega</tex>, то делается вывод «данные противоречат нулевой гипотезе при уровне значимости&nbsp;<tex>\alpha</tex>». Гипотеза отвергается.
+#* если <tex>T(X^m)\in\Omega_\alpha</tex>, то делается вывод «данные противоречат нулевой гипотезе при уровне значимости&nbsp;<tex>\alpha</tex>». Гипотеза отвергается.
-#* если <tex>T(X^m)\notin\Omega</tex>, то делается вывод «данные не противоречат нулевой гипотезе при уровне значимости&nbsp;<tex>\alpha</tex>». Гипотеза принимается.
+#* если <tex>T(X^m)\notin\Omega_\alpha</tex>, то делается вывод «данные не противоречат нулевой гипотезе при уровне значимости&nbsp;<tex>\alpha</tex>». Гипотеза принимается.
 Итак, ''статистический критерий'' определяется статистикой&nbsp;<tex>T</tex>
-и критическим множеством&nbsp;<tex>\Omega</tex>, которое зависит от уровня значимости.
+и критическим множеством&nbsp;<tex>\Omega_\alpha</tex>, которое зависит от уровня значимости <tex>\alpha</tex>.
 '''Замечание.'''
@@ Строка 39: / Строка 39: @@
 Поэтому чаще всего возникают критические области одного из трёх типов:
-* '''Двусторонняя критическая область''' определяется двумя интервалами <tex>\Omega = (-\infty,\;t_{\alpha/2})\cup(t_{1-\alpha/2}\;+\infty)</tex>.
+* '''Двусторонняя критическая область''' определяется двумя интервалами <tex>\Omega_\alpha = (-\infty,\;t_{\alpha/2})\cup(t_{1-\alpha/2}\;+\infty)</tex>.
-* '''Левосторонняя критическая область''' определяется интервалом <tex>\Omega = (-\infty,\; t_\alpha)</tex>.
+* '''Левосторонняя критическая область''' определяется интервалом <tex>\Omega_\alpha = (-\infty,\; t_\alpha)</tex>.
-* '''Правосторонняя критическая область''' определяется интервалом <tex>\Omega = (t_{1-\alpha},\;+\infty)</tex>.
+* '''Правосторонняя критическая область''' определяется интервалом <tex>\Omega_\alpha = (t_{1-\alpha},\;+\infty)</tex>.
@@ Строка 49: / Строка 49: @@
 * '''Ошибка первого рода''' или «ложная тревога» (англ. type I error, <tex>\alpha</tex>&nbsp;error, false positive) — когда нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:
-::<tex>\alpha = \mathbb{P}\left\{ T\in\Omega | H_0 \right\}.</tex>
+::<tex>\alpha = \mathbb{P}\left\{ T\in\Omega_\alpha | H_0 \right\}.</tex>
 * '''Ошибка второго рода''' или «пропуск цели» (англ. type II error, <tex>\beta</tex>&nbsp;error, false negative) — когда нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:
-::<tex>\beta(H_1) = \mathbb{P}\left\{ T\notin\Omega | H_1 \right\}.</tex>
+::<tex>\beta(H_1) = \mathbb{P}\left\{ T\notin\Omega_\alpha | H_1 \right\}.</tex>
 <center>
@@ Строка 77: / Строка 77: @@
 '''Мощность критерия''':
-<tex>1 - \beta(H) = \mathbb{P}\left\{ T\in\Omega | H \right\}</tex> — вероятность отклонить гипотезу&nbsp;<tex>H_0</tex>, если на самом деле верна альтернативная гипотеза&nbsp;<tex>H</tex>.
+<tex>1 - \beta(H) = \mathbb{P}\left\{ T\in\Omega_\alpha | H \right\}</tex> — вероятность отклонить гипотезу&nbsp;<tex>H_0</tex>, если на самом деле верна альтернативная гипотеза&nbsp;<tex>H</tex>.
 ''Мощность критерия'' является числовой функцией от альтернативной гипотезы&nbsp;<tex>H</tex>.