WM-критерий

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

WM-критерий — непараметрический ранговый критерий для проверки принадлежности двух независимых выборок к общей генеральной совокупности с одинаковыми характеристиками рассеяния. В отличие от критерия Зигеля-Тьюки не требует предположения о равенстве средних в выборках.

Коротко, идея метода следующая. По двум выборкам подсчитываются модули разностей значений наблюдений, взятых наугад без возвращения. К получившимся выборкам модулей разностей применяется U-критерий Манна-Уитни о сдвиге.

Примеры задач

Пример 1. Менеджер по кейтерингу хочет проверить, одинакова ли дисперсия количества соуса в упаковке при расфасовке с помощью двух диспенсеров. Каждым из диспенсеров он наполнил 10 упаковок. Возможно, диспенсеры откалиброваны по-разному (нет требования равенства медиан).

H₀ : дисперсия количества соуса в упаковке не отличается для двух диспенсеров.

H₁ : дисперсия количества соуса в упаковке для двух диспенсеров отличается.

Описание критерия

Пусть имеются две простые независимые выборки:

$X_1^{n_1} = (X_{11},\ldots,X_{1n_1}),\; X_{1i} \sim F(t)$

$X_2^{n_2} = (X_{21},\ldots,X_{2n_2}),\; X_{2i} \sim G(t) = F(\frac{t-\mu}{\sigma})$ .

Параметр местоположения $\mu$ неизвестен, предположения о симметрии распределения $F(t)$ не делается.

Нулевая гипотеза:

H₀: $\sigma = 1$ (Выборки имеют одинаковый разброс)

Против альтернатив:

H₁: $\sigma <\neq> 1$

Подсчет статистики критерия: Генерируем вспомогательные выборки

$D_1^{N_1} = (|X_{1i} - X_{1j}|), \quad N_1 = \lfloor\frac{n_1}{2}\rfloor$

$D_2^{N_2} = (|X_{2i} - X_{2j}|), \quad N_2 = \lfloor\frac{n_2}{2}\rfloor$

Алгоритм порождения выборки $D_1$ : из $X_1$ берутся наугад без возвращения пары наблюдений $(X_{1i}, X_{1j})$ , в выборку $D_2$ добавляется $|X_{1i}-X_{1j}|$ , процесс продолжается до тех пор, пока в $X_1$ не останется наблюдений, либо останется одно наблюдение. Выборка $D_2$ порождается аналогично.

В предположении H₀, статистика $U(D_1^{N_1}, D_2^{N_2})$ U-критерия Мана-Уитни имеет табличное распределение.

Критерий может быть расширен на случай k выборок за счет использования критерия Краскела-Уоллиса (обобщение U-критерия).

Реализация

Реализация WM-критерия для Matlab
Пример реализации на языке R:

wm.test <- function(x, y, alternative=c("two.sided", "less", "greater")) {
    x1 <- sample(x, 2*floor(length(x)/2))
    y1 <- sample(y, 2*floor(length(y)/2))
    x_diff <- abs(x1[1:(length(x1)/2)] - x1[(length(x1)/2+1):length(x1)])
    y_diff <- abs(y1[1:(length(y1)/2)] - y1[(length(y1)/2+1):length(y1)])
    return(wilcox.test(x_diff, y_diff, alternative))
}

Литература

Clifford Blair, R., & Thompson, G. L. (1992). A distribution-free rank-like test for scale with unequal population locations. Communications in Statistics — Simulation and Computation, 21(2), 353-371.
Ramsey, P. H., & Ramsey, P. P. (2007). Testing variability in the two-sample case. Communications in Statistics — Simulation and Computation, 36(2), 233-248.

См. также

Источник — «http://www.machinelearning.ru/wiki/index.php?title=WM-%D0%BA%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9»

Категории: Прикладная статистика | Непараметрические статистические тесты

@@ Строка 1: / Строка 1: @@
-{{Заготовка}}
 '''WM-критерий''' — непараметрический ранговый критерий для проверки принадлежности двух независимых выборок к общей генеральной совокупности с одинаковыми характеристиками рассеяния. В отличие от [[Критерий Зигеля-Тьюки|критерия Зигеля-Тьюки]] не требует предположения о равенстве средних в выборках.
-Коротко, идея метода следующая. По двум выборкам подсчитываются модули разностей значений наблюдений, взятых наугад без возвращения. К получившимся выборкам модулей разностей применяется [[Критерий Уилкоксона-Манна-Уитни|U-критерий Манна-Уитни]] о равенстве медиан.
+Коротко, идея метода следующая. По двум выборкам подсчитываются модули разностей значений наблюдений, взятых наугад без возвращения. К получившимся выборкам модулей разностей применяется [[Критерий Уилкоксона-Манна-Уитни|U-критерий Манна-Уитни]] о сдвиге.
 ==Примеры задач==
-Менеджер по [http://ru.wikipedia.org/wiki/Кейтеринг кейтерингу] хочет проверить, одинакова ли дисперсия количества соуса в упаковке при расфасовке с помощью двух диспенсеров. Каждым из диспенсеров он наполнил 10 упаковок. Возможно, диспенсеры откалиброваны по-разному (нет требования равенства медиан).
+'''Пример 1.''' Менеджер по [http://ru.wikipedia.org/wiki/Кейтеринг кейтерингу] хочет проверить, одинакова ли дисперсия количества соуса в упаковке при расфасовке с помощью двух диспенсеров. Каждым из диспенсеров он наполнил 10 упаковок. Возможно, диспенсеры откалиброваны по-разному (нет требования равенства медиан).
 ::H<sub>0</sub> : дисперсия количества соуса в упаковке не отличается для двух диспенсеров.
 ::H<sub>1</sub> : дисперсия количества соуса в упаковке для двух диспенсеров отличается.
-Другой пример: предположим, существует два альтернативных агротехнических метода обработки полей.
-Для каждого такого метода составим выборку из обработанных им полей.
-Значение в выборке равно урожайности данного поля.
-Требуется найти наиболее эффективный метод.
 ==Описание критерия==
-Пусть имеются две выборки:
+Пусть имеются две простые независимые выборки:
 ::<tex>X_1^{n_1} = (X_{11},\ldots,X_{1n_1}),\; X_{1i} \sim F(t)</tex>
 ::<tex>X_2^{n_2} = (X_{21},\ldots,X_{2n_2}),\; X_{2i} \sim G(t) = F(\frac{t-\mu}{\sigma}) </tex>.
@@ Строка 25: / Строка 18: @@
 '''Нулевая гипотеза:'''
-::H<sub>0</sub>: <tex>\sigma = 1</tex>
+::H<sub>0</sub>: <tex>\sigma = 1</tex> (Выборки имеют одинаковый разброс)
 '''Против альтернатив:'''
 ::H<sub>1</sub>: <tex>\sigma <\neq> 1</tex>
+'''Подсчет статистики критерия:'''
 Генерируем вспомогательные выборки
 ::<tex>D_1^{N_1} = (|X_{1i} - X_{1j}|), \quad N_1 = \lfloor\frac{n_1}{2}\rfloor</tex>
@@ Строка 36: / Строка 30: @@
 Алгоритм порождения выборки <tex>D_1</tex>: из <tex>X_1</tex> берутся наугад без возвращения пары наблюдений <tex>(X_{1i}, X_{1j})</tex>, в выборку <tex>D_2</tex> добавляется <tex>|X_{1i}-X_{1j}|</tex>, процесс продолжается до тех пор, пока в <tex>X_1</tex> не останется наблюдений, либо останется одно наблюдение. Выборка <tex>D_2</tex> порождается аналогично.
+В предположении H<sub>0</sub>, статистика <tex>U(D_1^{N_1}, D_2^{N_2})</tex> [[Критерий Уилкоксона-Манна-Уитни|U-критерия Мана-Уитни]] имеет табличное распределение.
 Критерий может быть расширен на случай k выборок за счет использования [[Критерий_Краскела-Уоллиса|критерия Краскела-Уоллиса]] (обобщение U-критерия).
+==Реализация==
+* [http://www.mathworks.com/matlabcentral/fileexchange/44995-wmtest Реализация WM-критерия для Matlab]
+* Пример реализации на языке R:
+<pre>
+wm.test <- function(x, y, alternative=c("two.sided", "less", "greater")) {
+    x1 <- sample(x, 2*floor(length(x)/2))
+    y1 <- sample(y, 2*floor(length(y)/2))
+    x_diff <- abs(x1[1:(length(x1)/2)] - x1[(length(x1)/2+1):length(x1)])
+    y_diff <- abs(y1[1:(length(y1)/2)] - y1[(length(y1)/2+1):length(y1)])
+    return(wilcox.test(x_diff, y_diff, alternative))
+}
+</pre>
 ==Литература==
@@ Строка 49: / Строка 57: @@
 * [[Критерий знаков]]
-==Ссылки==
-* [http://www.mathworks.com/matlabcentral/fileexchange/44995-wmtest Реализация WM-критерия для Matlab]
 [[Категория:Прикладная статистика]]
 [[Категория:Непараметрические статистические тесты]]

WM-критерий

Материал из MachineLearning.

Текущая версия

Содержание

Примеры задач

Описание критерия

Реализация

Литература

См. также

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты