WM-критерий

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Описание критерия)
(Описание критерия)
Строка 18: Строка 18:
==Описание критерия==
==Описание критерия==
-
Пусть имеются две выборки:
+
Пусть имеются две простые независимые выборки:
::<tex>X_1^{n_1} = (X_{11},\ldots,X_{1n_1}),\; X_{1i} \sim F(t)</tex>
::<tex>X_1^{n_1} = (X_{11},\ldots,X_{1n_1}),\; X_{1i} \sim F(t)</tex>
::<tex>X_2^{n_2} = (X_{21},\ldots,X_{2n_2}),\; X_{2i} \sim G(t) = F(\frac{t-\mu}{\sigma}) </tex>.
::<tex>X_2^{n_2} = (X_{21},\ldots,X_{2n_2}),\; X_{2i} \sim G(t) = F(\frac{t-\mu}{\sigma}) </tex>.
Строка 30: Строка 30:
::H<sub>1</sub>: <tex>\sigma <\neq> 1</tex>
::H<sub>1</sub>: <tex>\sigma <\neq> 1</tex>
 +
'''Подсчет статистики критерия:'''
Генерируем вспомогательные выборки
Генерируем вспомогательные выборки
::<tex>D_1^{N_1} = (|X_{1i} - X_{1j}|), \quad N_1 = \lfloor\frac{n_1}{2}\rfloor</tex>
::<tex>D_1^{N_1} = (|X_{1i} - X_{1j}|), \quad N_1 = \lfloor\frac{n_1}{2}\rfloor</tex>
Строка 36: Строка 37:
Алгоритм порождения выборки <tex>D_1</tex>: из <tex>X_1</tex> берутся наугад без возвращения пары наблюдений <tex>(X_{1i}, X_{1j})</tex>, в выборку <tex>D_2</tex> добавляется <tex>|X_{1i}-X_{1j}|</tex>, процесс продолжается до тех пор, пока в <tex>X_1</tex> не останется наблюдений, либо останется одно наблюдение. Выборка <tex>D_2</tex> порождается аналогично.
Алгоритм порождения выборки <tex>D_1</tex>: из <tex>X_1</tex> берутся наугад без возвращения пары наблюдений <tex>(X_{1i}, X_{1j})</tex>, в выборку <tex>D_2</tex> добавляется <tex>|X_{1i}-X_{1j}|</tex>, процесс продолжается до тех пор, пока в <tex>X_1</tex> не останется наблюдений, либо останется одно наблюдение. Выборка <tex>D_2</tex> порождается аналогично.
-
 
+
В предположении H<sub>0</sub>, статистика <tex>U(D_1^{N_1}, D_2^{N_2})</tex> [[Критерий Уилкоксона-Манна-Уитни|U-критерия Мана-Уитни]] имеет табличное распределение.
Критерий может быть расширен на случай k выборок за счет использования [[Критерий_Краскела-Уоллиса|критерия Краскела-Уоллиса]] (обобщение U-критерия).
Критерий может быть расширен на случай k выборок за счет использования [[Критерий_Краскела-Уоллиса|критерия Краскела-Уоллиса]] (обобщение U-критерия).

Версия 17:15, 18 февраля 2014


WM-критерий — непараметрический ранговый критерий для проверки принадлежности двух независимых выборок к общей генеральной совокупности с одинаковыми характеристиками рассеяния. В отличие от критерия Зигеля-Тьюки не требует предположения о равенстве средних в выборках.

Коротко, идея метода следующая. По двум выборкам подсчитываются модули разностей значений наблюдений, взятых наугад без возвращения. К получившимся выборкам модулей разностей применяется U-критерий Манна-Уитни о равенстве медиан.

Содержание

Примеры задач

Менеджер по кейтерингу хочет проверить, одинакова ли дисперсия количества соуса в упаковке при расфасовке с помощью двух диспенсеров. Каждым из диспенсеров он наполнил 10 упаковок. Возможно, диспенсеры откалиброваны по-разному (нет требования равенства медиан).

H0 : дисперсия количества соуса в упаковке не отличается для двух диспенсеров.
H1 : дисперсия количества соуса в упаковке для двух диспенсеров отличается.

Другой пример: предположим, существует два альтернативных агротехнических метода обработки полей. Для каждого такого метода составим выборку из обработанных им полей. Значение в выборке равно урожайности данного поля. Требуется найти наиболее эффективный метод.

Описание критерия

Пусть имеются две простые независимые выборки:

X_1^{n_1} = (X_{11},\ldots,X_{1n_1}),\; X_{1i} \sim F(t)
X_2^{n_2} = (X_{21},\ldots,X_{2n_2}),\; X_{2i} \sim G(t) = F(\frac{t-\mu}{\sigma}) .

Параметр местоположения \mu неизвестен, предположения о симметрии распределения F(t) не делается.

Нулевая гипотеза:

H0: \sigma = 1 (Выборки имеют одинаковый разбросс)

Против альтернатив:

H1: \sigma <\neq> 1

Подсчет статистики критерия: Генерируем вспомогательные выборки

D_1^{N_1} = (|X_{1i} - X_{1j}|), \quad N_1 = \lfloor\frac{n_1}{2}\rfloor
D_2^{N_2} = (|X_{2i} - X_{2j}|), \quad N_2 = \lfloor\frac{n_2}{2}\rfloor

Алгоритм порождения выборки D_1: из X_1 берутся наугад без возвращения пары наблюдений (X_{1i}, X_{1j}), в выборку D_2 добавляется |X_{1i}-X_{1j}|, процесс продолжается до тех пор, пока в X_1 не останется наблюдений, либо останется одно наблюдение. Выборка D_2 порождается аналогично.

В предположении H0, статистика U(D_1^{N_1}, D_2^{N_2}) U-критерия Мана-Уитни имеет табличное распределение.

Критерий может быть расширен на случай k выборок за счет использования критерия Краскела-Уоллиса (обобщение U-критерия).

Литература

См. также

Ссылки

Личные инструменты