Критерий хи-квадрат
Материал из MachineLearning.
 (→Определение:   - описка)  | 
				 (→Пример 2:  -описка)  | 
			||
| Строка 75: | Строка 75: | ||
<tex>\chi^2 = 1.05 \sim \chi_{5-1-1}^2</tex>  | <tex>\chi^2 = 1.05 \sim \chi_{5-1-1}^2</tex>  | ||
| - | + | тогда при уровне значимости <tex>\alpha=0.05</tex> гипотеза <tex>H_0</tex> верна.  | |
== Проблемы ==  | == Проблемы ==  | ||
Версия 15:08, 9 января 2009
 
  | 
Определение
Критерий  - наиболее часто используемый статистический критерий для проверки гипотезы 
, что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.
Пусть дана случайная величина X .
Гипотеза : с. в. X подчиняется закону распределения 
. 
Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: 
. 
По выборке построим эмпирическое распределение 
 с.в X. Сравнение эмпирического 
 и теоретического распределения 
 производится с помощью специально подобранной случайной величины — критерия согласия. Рассмотрим критерий согласия Пирсона (критерий 
):
Гипотеза : Хn порождается функцией 
.
Разделим [a,b] на k непересекающихся интервалов ;
Пусть  - количество наблюдений в j-м интервале: 
;
 - вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы 
;
 Ожидаемое число попаданий в j-ый интервал;
Статистика:   - Распределение хи-квадрат с k-1 степенью свободы.
  Проверка гипотезы 
 
В  зависимости от значения критерия , гипотеза 
 может приниматься, либо отвергаться:
-  
, гипотеза
выполняется.
 
-  
(попадает в левый "хвост" распределения). Следовательно теоретические и практические значения очень близки и гипотеза
выполняется.
 
-  
(попадает в правый "хвост" распределения) гипотеза
отвергается.
 
Пример 1
Проверим гипотезу : если взять случайную выборку 100 человек из некоторой популяции, в которой количество мужчин и женщин примерно одинаково (встречаются с одинаковой частотой), то в наблюдаемой выборке отношение количества мужчин и женщин будет соотноситься с частотой по всей популяции (50/50). Пусть в наблюдаемой выборке 46 мужчин и 54 женщины, тогда число степеней свобод 
 и 
Т.о. при уровне значимости  гипотеза 
 выполняется (см. таблицу значений ф-ии 
).
Сложная гипотеза
Гипотеза : Хn порождается функцией 
 - неизвестна. Найдем 
 с помощью метода максимального правдоподобия.
, 
, 
 - фиксированы при 
.
Теорема Фишера Для проверки сложной гипотезы критерий  представляется в виде:
, где  
Пример 2
Пусть есть квадрат на местности, разделенный сеткой из 24-ёх горизонтальных и 24-ёх вертикальных линий на 576 равных участков. По квадрату производится артиллерийский обстрел. Подсчитывается количество попаданий снарядов в каждый из участков. Получены следующие данные: 0 попаданий - 229 участков, 1 попадание - 211 участок, 2 - 93, 3 - 35, 4 - 7, 5 и 6 - 0, 7 - 1 попадание. Гипотеза : стрельба случайна (нет "целевых" участков).
Закон редких событий (распределение Пуассона)
, S - число попаданий 
Тогда при уровне значимости  гипотеза 
 не выполняется (см. таблицу значений ф-ии 
).
Объединим события (4,5,6,7) с малой частотой попаданий в одно, тогда имеем:
1 попадание - 211 участок, 2 - 93, 3 - 35, {4,5,6,7} - 8.
тогда при уровне значимости  гипотеза 
 верна.
Проблемы
Критерий  ошибается на выборках с низкочастотными (редкими) событиями. Решить эту проблему можно отбросив низкочастотные события, либо объединив их с другими событиями. Этот способ называется коррекцией Йетса (Yates' correction).

