Участник:Василий Ломакин/Критерий Уилкоксона для связных выборок

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 8: Строка 8:
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>.
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>.
-
'''Дополнительные предположения:'''
+
'''Дополнительные предположения:'''
 +
* связанные выборки
 +
* ещё что-то
'''[[Нулевая гипотеза]]''' <tex>H_0:\; \mathbb{P} \{x_i-y_i < 0 \} = 1/2</tex>.
'''[[Нулевая гипотеза]]''' <tex>H_0:\; \mathbb{P} \{x_i-y_i < 0 \} = 1/2</tex>.
'''Статистика критерия:'''
'''Статистика критерия:'''
-
# Рассчитать значения разностей двух выборок. Нулевые разности далее не учитываются. <tex>N</tex> - количество ненулевых разностей.
+
# Рассчитать значения разностей пар двух выборок. Нулевые разности далее не учитываются. <tex>N</tex> - количество ненулевых разностей.
# Проранжировать модули разностей пар в возрастающем порядке.
# Проранжировать модули разностей пар в возрастающем порядке.
# Приписать рангам знаки соответствующих им разностей.
# Приписать рангам знаки соответствующих им разностей.
# Рассчитать сумму <tex>R</tex> положительных рангов.
# Рассчитать сумму <tex>R</tex> положительных рангов.
-
# Вычислить критериальное значение:
 
-
:: <tex>T = \frac{R - \frac{N(N+1)}{4}}{\sqrt{\frac{N(N+1)(2N+1)}{24}}}</tex>;
 
-
::При наличии связок выражение под корнем в знаменателе рекомендуется заменить на следующее:
+
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
-
::<tex>\frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24},</tex>
+
Против альтернативы <tex>H_1:\; \mathbb{P} \{ x_i-y_i \} \neq 1/2</tex>:
-
::где <tex>g</tex> - количество связок, <tex>t_1, \ldots, t_g</tex> - их размеры.
+
: если <tex>R</tex> больше табличного значения критерия знаковых рангов Уилкоксона <tex>T^{+}</tex> с уровнем значимости <tex>\alpha/2</tex> и числом степеней свободы <tex>N</tex>, то нулевая гипотеза отвергается.
-
== Свойства и границы применимости критерия ==
+
'''Асимптотический критерий''':
-
== История ==
+
Рассмотрим нормированную и центрированную статистика Уилкоксона:
 +
: <tex>T = \frac{R - \frac{N(N+1)}{4}}{\sqrt{\frac{N(N+1)(2N+1)}{24}}}</tex>;
 +
:<tex>T</tex> асимптотически имеет стандартное нормальное распределение при <tex>N \ge 20</tex>
 +
 
 +
:При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее:
 +
 
 +
:<tex>\frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24},</tex>
 +
:где <tex>g</tex> - количество связок, <tex>t_1, \ldots, t_g</tex> - их размеры.
 +
 
 +
'''Другие гипотезы''':
 +
<tex>H_0:\; </tex> средняя разница между значениями пар двух выборок равна заданной константе A.
 +
<tex>H_1:\; </tex> средняя разница не равна A.
 +
 
 +
В этом случае из каждой разности вычитается значение A, и дальнейшая обработка выполняется по описанной схеме.
 +
 
 +
 
 +
== Свойства и границы применимости критерия ==
== Литература ==
== Литература ==
-
# ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 222-227 с.
+
# ''Лапач С. Н., Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. — 164-166 с.
-
# ''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. — 164-166 с.
+
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 457-458 с.
== Ссылки ==
== Ссылки ==
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
* [[Статистика (функция выборки)]]
* [[Статистика (функция выборки)]]

Версия 18:26, 11 декабря 2009

Критерий Уилкоксона для связных выборокнепараметрический статистический критерий. Аналог t-критерия для парных наблюдений в случае закона распределения, отличного от нормального, либо данных в нечисловой шкале. Применяется для связанных пар наблюдений.

Содержание

Пример задачи

Описание критерия

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • связанные выборки
  • ещё что-то

Нулевая гипотеза H_0:\; \mathbb{P} \{x_i-y_i < 0 \} = 1/2.

Статистика критерия:

  1. Рассчитать значения разностей пар двух выборок. Нулевые разности далее не учитываются. N - количество ненулевых разностей.
  2. Проранжировать модули разностей пар в возрастающем порядке.
  3. Приписать рангам знаки соответствующих им разностей.
  4. Рассчитать сумму R положительных рангов.

Критерий (при уровне значимости \alpha):

Против альтернативы H_1:\; \mathbb{P} \{ x_i-y_i \} \neq 1/2:

если R больше табличного значения критерия знаковых рангов Уилкоксона T^{+} с уровнем значимости \alpha/2 и числом степеней свободы N, то нулевая гипотеза отвергается.

Асимптотический критерий:

Рассмотрим нормированную и центрированную статистика Уилкоксона:

T = \frac{R - \frac{N(N+1)}{4}}{\sqrt{\frac{N(N+1)(2N+1)}{24}}};
T асимптотически имеет стандартное нормальное распределение при N \ge 20
При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее:
\frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24},
где g - количество связок, t_1, \ldots, t_g - их размеры.

Другие гипотезы: H_0:\; средняя разница между значениями пар двух выборок равна заданной константе A. H_1:\; средняя разница не равна A.

В этом случае из каждой разности вычитается значение A, и дальнейшая обработка выполняется по описанной схеме.


Свойства и границы применимости критерия

Литература

  1. Лапач С. Н., Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 164-166 с.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 457-458 с.

Ссылки

Личные инструменты