Критерий Колмогорова-Смирнова

Материал из MachineLearning.

Перейти к: навигация, поиск

Критерий Колмогорова-Смирнова используется для проверки гипотезы H_0: "случайная величина X имеет распределение F(x)".

Содержание

Примеры задач

Критерий Колмогорова-Смирнова уместно применять в тех случаях, когда нужно проверить, подчиняется ли наблюдаемая случайная величина некоторому закону распределения, известному с точностью до параметров. Например, все исходы, выдаваемые рулеткой казино, должны быть равновероятны. Предположим, требуется выяснить, можно ли считать некоторую рулетку "честной". Для этого следует составить достаточно большую выборку из исходов этой рулетки. Чтобы установить, является ли выборка равномерно распределённой, можно воспользоваться критерием Колмогорова-Смирнова.

Описание критерия

Пусть X_n - выборка независимых одинаково распределённых случайных величин, F_n(x) - эмпирическая функция распределения, \Phi(x) - некоторая фиксированная "истинная" функция распределения. Тогда статистика критерия определяется следующим образом:

D_n=\sup_x |F_n(x)-\Phi(x)|.

Обозначим через H_0 гипотезу о том, что выборка подчиняется распределению \Phi(X)\in \mathrm{C}^1(\mathbb{X}). Тогда по теореме Колмогорова для введённой статистики справедливо:

\forall t>0: \quad \lim_{n \to \infty}P(\sqrt{n} D_n \leq t)=K(t)=\sum_{j=-\infty}^{+\infty}(-1)^j \mathrm{e}^{-2j^2t^2}.

Гипотеза H_0 отвергается, если статистика \sqrt{n}D_n\! превышает квантиль распределения K_\alpha заданного уровня значимости \alpha, и принимается в противном случае.


Примечание: В критерии Колмогорова целесообразно использовать статистику с поправкой Большева: \sqrt{n}D_n+1/(6\sqrt{n}). Распределение этой статистики при справедливости проверяемой гипотезы быстро сходится к распределению Колмогорова и при  n>25  зависимостью от объема выборки можно пренебречь.

Использование критерия для проверки нормальности

При помощи критерия Колмогорова-Смирнова определяется, описывает ли заданная функция наблюдаемое распределение X, в то время как для проверки нормальности требуется выяснить, принадлежит ли функция распределения величины X параметрическому семейству функций. Возможный способ решения заключается в использовании выборочных оценок среднего и дисперсии. Однако в этом случае следует использовать модифицированное значение статистики

D_n^*=D_n(\sqrt{n} - 0.01 + \frac{0.85}{\sqrt{n}}).

Критическме значения D_n^* приведены в следующей таблице (Lilliefors ):

\alpha 0,15 0,10 0,05 0,03 0,01
D_n^*(\alpha) 0,775 0,819 0,895 0,955 1,035

Проверка сложных гипотез

При проверке сложных гипотез, когда по выборке оцениваются параметры закона, с которым проверяется согласие, непараметрические критерии согласия теряют свойство свободы от распределения (Kac, Kiefer, Wolfowitz). При проверке сложных гипотез условные распределения статистик непараметрических критериев согласия (и критерия Колмогорова) зависят от ряда факторов: от вида наблюдаемого закона, соответствующего справедливой проверяемой гипотезе; от типа оцениваемого параметра и числа оцениваемых параметров; в некоторых случаях от конкретного значения параметра (например, в случае семейств гамма- и бета-распределений); от метода оценивания параметров.

Различия в предельных распределениях той же самой статистики при проверке простых и сложных гипотез настолько существенны, что пренебрегать этим ни коем случае нельзя.

О применении критерия Колмогорова для проверки различных сложных гипотез см. на сайте Новосибирского государственного технического университета:

Литература

  1. Kolmogoroff A.N. Sulla determinazione empirica di una legge di distribuzione // Giornale dell` Istituto Italiano degly Attuari. 1933. – Vol. 4. – № 1. – P. 83-91.
  2. Большев Л.Н., Смирнов Н.В. Таблицы математической стати¬стики. М.: Наука, 1983.
  3. Lilliefors H.W. On the Kolmogorov-Smirnov test for normality with mean and variance unknown // J. Am. Statist. Assoc., 1967. V.62. – P.399-402.
  4. Kac M., Kiefer J., Wolfowitz J. On Tests of Normality and Other Tests of Goodness of Fit Based on Distance Methods // Ann. Math. Stat., 1955. V.26. – P.189-211.
  5. [Р 50.1.037–2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. – М.: Изд-во стандартов. 2002. – 64 с.[1]]

См. также

Ссылки

Личные инструменты