Критерий хи-квадрат
Материал из MachineLearning.
 
  | 
Определение
Критерий  - наиболее часто используемый статистический критерий для проверки гипотезы 
, что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.
Пусть дана случайная величина X .
Гипотеза : с. в. X подчиняется закону распределения 
. 
Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: 
. 
По выборке построим эмпирическое распределение 
 с.в X. Сравнение эмпирического 
 и теоретического распределения 
 производится с помощью специально подобранной случайной величины — критерия согласия. Рассмотрим критерий согласия Пирсона (критерий 
):
Гипотеза : Хn порождается функцией 
.
Разделим [a,b] на k непересекающихся интервалов ;
Пусть  - количество наблюдений в j-м интервале: 
;
 - вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы 
;
 Ожидаемое число попаданий в j-ый интервал;
Статистика:   - Распределение хи-квадрат с k-1 степенью свободы.
  Проверка гипотезы 
 
В  зависимости от значения критерия , гипотеза 
 может приниматься, либо отвергаться:
-  
, гипотеза
выполняется.
 
-  
(попадает в левый "хвост" распределения) гипотеза
отвергается.
 
-  
(попадает в правый "хвост" распределения) гипотеза
отвергается.
 
Пример
Проверим гипотезу : если взять случайную выборку 100 человек из некоторой популяции, в которой количество мужчин и женщин примерно одинаково (встречаются с одинаковой частотой), то в наблюдаемой выборке отношение количества мужчин и женщин будет соотноситься с частотой по всей популяции (50/50). Пусть в наблюдаемой выборке 46 мужчин и 54 женщины, тогда число степеней свобод 
 и 
Т.о. при уровне значимости  гипотеза 
 выполняется (см таблицу значений ф-ии 
).
Сложная гипотеза
Гипотеза : Хn порождается функцией 
 - неизвестна. Найдем 
 с помощью метода максимального правдоподобия.
, 
, 
 - фиксированы при 
.
Теорема Фишера , где  

