Критерий Лемана-Розенблатта

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Литература)
(Ссылки)
Строка 88: Строка 88:
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
* [[Статистика (функция выборки)]]
* [[Статистика (функция выборки)]]
-
* [[О критерии Лемана-Розенблатта на сайте Новосибирского государственного технического университета]] == http://ami.nstu.ru/~headrd/seminar/publik_html/Izm_T_8.htm ==
+
* [[http://ami.nstu.ru/~headrd/seminar/publik_html/Izm_T_8.htm О критерии Лемана-Розенблатта на сайте Новосибирского государственного технического университета]]
[[Категория:Статистические тесты]]
[[Категория:Статистические тесты]]
[[Категория:Непараметрические статистические тесты]]
[[Категория:Непараметрические статистические тесты]]

Версия 17:15, 21 октября 2013

Критерий Лемана-Розенблатта (Lehmann-Rosenblatt) — двухвыборочный непараметрический критерий согласия, похожий на Критерий омега-квадрат.

Другие названия: критерий Розенблатта (Rosenblatt).

Содержание

Примеры задач

Задача - проверить сходство уровней интеллекта среди мужчин и женщин по двум выборкам измерений IQ.

Описание критерия

Заданы две выборки x^n = (x_1,\ldots,x_n),\; x_i \in \mathbb{R};\;\; y^m = (y_1,\ldots,y_m),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • обе выборки простые, объединённая выборка независима;
  • выборки взяты из неизвестных непрерывных распределений F(x) и G(x) соответственно.

Нулевая гипотеза H_0:\; F(x)=G(x) при всех x.

Альтернативная гипотеза H_1:\; G(x)\ne F(x) при некотором  x .

Критерий Лемана-Розенблатта применяется для проверки гипотезы однородности H_0 против альтернативы неоднородности H_1.


Статистика критерия:

\omega^2_{n,m}=\int\limits_{-\infty}^{\infty}\left[\hat{F}_n(x) - \hat{G}_m(x)\right]^2d\hat{H}_{n+m}(x),

где \hat{F}_n(x), \hat{G}_m(x) - эмпирические функции распределения выборок, а \hat{H}_{n+m}(x)\;=\;\frac{n}{n+m}\hat{F}_n(x)+\frac{m}{n+m}\hat{G}_m(x) - эмпирическая функция, построенная по объединённой выборке \left( x_1,\ldots,x_n,y_1,\ldots,y_m\right).

Согласно [2, стр 86] значение статистики зависит лишь от рангов элементов выборки:

\omega^2_{n,m}\;=\;\frac{1}{nm}\left[1/6+\frac{1}{m}\sum_{i=1}^n\left(R_i-i\right)^2+\frac{1}{n}\sum_{j=1}^m\left(S_j-j\right)^2\right]-2/3,

где R_i - ранг x_{(i)}, а S_j - ранг y_{(j)} в объединённом вариационном ряде двух выборок.

Критерий (при уровне значимости \alpha):

При выполнении гипотезы H_0, а также при условии, что

\lim\limits_{ n,m \to \infty} n/(n+m)=\gamma \in (0,1),

закон распределения \frac{nm}{n+m}\omega^2_{n,m} стремится к предельному закону A_1 (М.Розенблатт, 1952 г.), приведённому в [2, стр. 83]. Здесь мы приведём лишь таблицу некоторых квантилей z_{1-\alpha} этого закона:

\alpha 0.5 0.15 0.1 0.05 0.025 0.01 0.001
z_{1-\alpha} 0.12 0.28 0.35 0.46 0.58 0.74 1.17

Критерий имеет правостороннюю критическую область и при попадании значения статистики \frac{nm}{n+m}\omega^2_{n,m} в полуинтервал \Omega_{\alpha}=(z_{1-\alpha},\infty) гипотеза H_0 отвергается.


Малый размер выборок:

Использование нормированной и центрированной статистики

 Z=(\frac{nm}{n+m}\omega^2_{n,m}-M)/\sqrt{45D}+1/6,

где

  • M=\frac{1}{6}\left(1+\frac{1}{n+m}\right),
  • D=\frac{1}{45}\left(1+\frac{1}{n+m}\right)\left[1+\frac{1}{n+m}-\frac{3}{4}\left(\frac{1}{n}+\frac{1}{m}\right)\right],

обеспечивает удовлетворительную точность приближения критических значений уже при n,m \geq 7.

Литература

  1. Лагутин М. Б. Наглядная математическая статистика. — 2009.
  2. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики. —М. Наука. 1983.
  3. Lehmann E.L. Consistency and unbiasedness of certain nonparametric tests / Ann. Math. Statist. – 1951. V.22. № 1. – P.165-179.
  4. Rosenblatt M. Limit theorems associated with variants of the von Mises statis­tic // Ann. Math. Statist. – 1952. V.23. – P.617-623.

Ссылки

Личные инструменты