Критерий Хартли

Материал из MachineLearning.

Статья в настоящий момент дорабатывается.
Уважаемый автор! Если дата завершения работ неизвестна, прошу рассмотреть возможность редактировать эту страницу в личном пространстве участника. Например: "Участник:Headrd/Название статьи". --Strijov 18:51, 25 октября 2013 (MSD)

Статья написана с использованием LLM Claude (Anthropic) и проверена участником ~~Ilia Vdovin~~

Критерий Хартли (англ. Hartley's test), также известный как F_max-тест (англ. F_max test или maximum F-ratio test) — статистический критерий, предназначенный для проверки гомогенности (однородности) дисперсий в нескольких независимых выборках. Является одним из простейших способов проверить предпосылку о равенстве дисперсий групп, которая лежит в основе классического дисперсионного анализа (ANOVA) и ряда других параметрических методов.

Определение и основная идея

Пусть имеется k независимых выборок (групп), каждая объёмом n, извлечённых из нормально распределённых генеральных совокупностей. Для каждой группы $j = 1, \dots, k$ вычисляется выборочная дисперсия $s_j^2$ . Критерий Хартли проверяет нулевую гипотезу

$H_0: \sigma_1^2 = \sigma_2^2 = \dots = \sigma_k^2$

против альтернативы о том, что хотя бы две дисперсии различаются. Идея теста предельно проста: если дисперсии во всех группах действительно равны, то отношение наибольшей выборочной дисперсии к наименьшей не должно сильно отличаться от единицы. Соответственно, чем сильнее это отношение отклоняется от 1, тем больше оснований отвергнуть гипотезу об однородности дисперсий.

Такой подход делает критерий Хартли удобным «быстрым» инструментом предварительной диагностики данных перед применением ANOVA, t-критерия и других методов, чувствительных к нарушению однородности дисперсий.

Мотивация

Большинство классических параметрических процедур — в первую очередь однофакторный и многофакторный дисперсионный анализ — опираются на допущение о том, что случайные ошибки во всех сравниваемых группах имеют одинаковую дисперсию (это допущение называют гомоскедастичностью). Если это условие нарушено (наблюдается гетероскедастичность), то:

оценки стандартных ошибок становятся смещёнными;
номинальный уровень значимости α перестаёт соответствовать фактической вероятности ошибки первого рода;
мощность критерия F в ANOVA снижается, а выводы о значимости различий средних становятся ненадёжными, особенно при неравных объёмах групп.

Поэтому перед применением ANOVA рекомендуется заранее проверить предпосылку о равенстве дисперсий. Критерий Хартли исторически стал одним из первых и самых наглядных инструментов такой проверки — благодаря простоте расчёта (не требует калькулятора для сложных сумм, достаточно найти максимум и минимум дисперсий и свериться с таблицей).

Историческая справка

Критерий был предложен английским статистиком Х. О. Хартли (H. O. Hartley) в 1950 году в статье «The Maximum F-Ratio as a Short-cut Test for Heterogeneity of Variance», опубликованной в журнале Biometrika [1]. Хартли стремился создать вычислительно простую альтернативу более трудоёмким на тот момент процедурам, пригодную для «ручных» расчётов в эпоху до широкого распространения вычислительной техники.

Критерий тесно связан с двумя другими классическими тестами на однородность дисперсий:

Критерий Кокрена (Cochran's C test, 1941) — предложен несколько раньше и также использует отношение экстремальной дисперсии к сумме всех дисперсий; тест Кокрена особенно чувствителен к одному «выбросу» среди дисперсий [2].
Критерий Бартлетта (Bartlett's test, 1937) — более общий тест, основанный на хи-квадрат приближении к отношению правдоподобий; в отличие от критерия Хартли, не требует равных объёмов выборок, но при этом ещё сильнее реагирует на отклонения от нормальности [3].

Критические значения статистики Хартли были табулированы самим автором, а впоследствии уточнены и расширены Х. Дэвидом [4] и вошли в широко используемый справочник Э. Пирсона и Х. Хартли «Biometrika Tables for Statisticians» [5].

Позднее, в 1950-х годах, Дж. Бокс показал, что критерии типа Хартли, Кокрена и Бартлетта крайне чувствительны к нарушению нормальности исходных данных [6], что стимулировало разработку более устойчивых («робастных») альтернатив — критерия Левене и его модификаций.

Основные понятия

Математическая формулировка

Статистика критерия Хартли определяется как отношение наибольшей и наименьшей из k выборочных дисперсий:

$F_{\max} = \frac{\max_j (s_j^2)}{\min_j (s_j^2)}, \qquad j = 1, \dots, k$

где $s_j^2$ — несмещённая выборочная дисперсия в j-й группе, вычисляемая по формуле

$s_j^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_{ij} - \bar{x}_j)^2$

При выполнении нулевой гипотезы об однородности дисперсий статистика $F_{\max}$ имеет специальное распределение, зависящее от двух параметров:

k — числа сравниваемых групп (выборок);
ν = n − 1 — числа степеней свободы в каждой группе (одинакового для всех групп, так как объёмы выборок предполагаются равными).

Это распределение не имеет простого аналитического выражения и задаётся в виде табулированных критических значений $F_{\max, \alpha}(k, \nu)$ [5].

Правило принятия решения: нулевая гипотеза об однородности дисперсий отвергается на уровне значимости α, если наблюдаемое значение статистики превышает табличное критическое значение:

$F_{\max}^{\,\text{набл.}} > F_{\max, \alpha}(k, \nu) \;\Rightarrow\; H_0 \text{ отвергается}$

Изображение:2 fmax distribution

Ниже приведён фрагмент таблицы критических значений при α = 0,05 и ν = 9 (n = 10) для разного числа групп k [5]:

k	2	3	4	5	6	8	10
F_max,0.05(k, 9)	4,03	5,34	6,31	7,11	7,80	8,95	9,91

Полную таблицу для других сочетаний k и ν см. в [5].

Пример расчёта

Предположим, необходимо сравнить дисперсии баллов, полученных студентами в четырёх (k = 4) учебных группах по n = 10 человек в каждой. Пусть выборочные дисперсии составили:

$s_1^2 = 12{,}4;\quad s_2^2 = 18{,}9;\quad s_3^2 = 9{,}7;\quad s_4^2 = 31{,}5$

Тогда наблюдаемое значение статистики:

$F_{\max} = \frac{31{,}5}{9{,}7} \approx 3{,}25$

Для k = 4, ν = 9 табличное критическое значение при α = 0,05 составляет 6,31 (см. таблицу выше). Поскольку наблюдаемое значение (3,25) меньше критического (6,31), оснований отвергнуть гипотезу об однородности дисперсий нет — можно считать группы гомоскедастичными и переходить к однофакторному ANOVA. Изображение:1hart.png

Предположения теста

Корректное применение критерия Хартли требует выполнения следующих условий:

Нормальность распределения. Данные в каждой из k групп должны происходить из нормально распределённой генеральной совокупности. Это допущение критично: критерий крайне чувствителен к его нарушению (см. ниже).
Независимость наблюдений как внутри групп, так и между группами.
Равенство объёмов выборок (сбалансированный дизайн): все k групп должны иметь одинаковое число наблюдений n. Именно это требование отличает критерий Хартли от более гибкого критерия Бартлетта.

Ограничения и чувствительность

Простота критерия Хартли имеет свою цену — ряд существенных ограничений:

Чувствительность к нарушению нормальности. Как показали работы Бокса и последующие исследования, при отклонении распределения данных от нормального (особенно при наличии тяжёлых хвостов или асимметрии) реальный уровень значимости критерия может сильно отличаться от номинального — тест либо чрезмерно часто отвергает верную нулевую гипотезу, либо, наоборот, теряет мощность [6]. Это делает критерий ненадёжным при работе с реальными данными, где строгая нормальность — скорее исключение, чем правило.
Непригодность для несбалансированных данных. Классическая процедура и таблицы критических значений построены в предположении равных n во всех группах. При разных объёмах выборок применение критерия Хартли в его исходном виде некорректно; требуются модификации или переход к другим тестам.
Учёт только крайних значений. Статистика использует лишь максимальную и минимальную дисперсии, полностью игнорируя информацию об остальных k − 2 группах, что снижает эффективность теста при большом числе групп.
Ограниченная табличная база. Точной аналитической формулы для распределения $F_{\max}$ не существует, расчёт p-значения возможен только по таблицам или с помощью специализированного ПО, что затрудняет использование при нестандартных k и ν.

Альтернативные тесты

В связи с указанными ограничениями критерия Хартли в современной практике анализа данных широко используются более устойчивые к нарушению нормальности альтернативы:

Критерий Левене (Levene's test) — основан на дисперсионном анализе абсолютных отклонений наблюдений от среднего значения группы; значительно менее чувствителен к отклонениям от нормальности, чем критерии Хартли и Бартлетта [7].
Критерий Брауна — Форсайта (Brown–Forsythe test) — модификация критерия Левене, в которой отклонения вычисляются от медианы группы, а не от среднего; обладает повышенной устойчивостью при асимметричных распределениях и распределениях с тяжёлыми хвостами и на сегодняшний день считается одним из наиболее рекомендуемых тестов на однородность дисперсий [8].
Тест О’Брайена (O'Brien's test) — обобщённая процедура, использующая специально сконструированные преобразования наблюдений, что позволяет гибко контролировать баланс между устойчивостью к выбросам и мощностью критерия [9].
Критерий Бартлетта — точен при строгом соблюдении нормальности и позволяет работать с неравными объёмами выборок, но, как и критерий Хартли, крайне чувствителен к её нарушению [3].

Практические рекомендации

Критерий Хартли целесообразно использовать, когда: (1) дизайн эксперимента строго сбалансирован (равные n во всех группах); (2) имеются достаточные основания полагать нормальность распределения данных (например, подтверждённая тестами Шапиро — Уилка или визуальным анализом Q-Q графиков); (3) требуется быстрая «ручная» оценка без специализированного ПО.
Если объёмы групп различаются, нормальность вызывает сомнения, либо число групп велико, предпочтение следует отдавать критерию Брауна — Форсайта или Левене — они дают более надёжные выводы в широком диапазоне реальных распределений и являются стандартом де-факто в большинстве современных статистических пакетов (R, SPSS, Python/SciPy и др.).
В любом случае результат проверки однородности дисперсий стоит интерпретировать как дополнительный диагностический сигнал, а не как безусловное основание для отказа от ANOVA: сам дисперсионный анализ относительно устойчив (робастен) к умеренной гетероскедастичности при равных и достаточно больших объёмах групп.

См. также

Литература

[1] Hartley, H. O. (1950). "The Maximum F-Ratio as a Short-cut Test for Heterogeneity of Variance". Biometrika, 37(3/4), 308–312.

[2] Cochran, W. G. (1941). "The distribution of the largest of a set of estimated variances as a fraction of their total". Annals of Eugenics, 11, 47–52.

[3] Bartlett, M. S. (1937). "Properties of Sufficiency and Statistical Tests". Proceedings of the Royal Society A, 160, 268–282.

[4] David, H. A. (1952). "Upper 5 and 1% points of the maximum F-ratio". Biometrika, 39(3/4), 422–424.

[5] Pearson, E. S., & Hartley, H. O. (1970). Biometrika Tables for Statisticians, Vol. 1, 3rd ed. Cambridge University Press.

[6] Box, G. E. P. (1953). "Non-Normality and Tests on Variances". Biometrika, 40(3/4), 318–335.

[7] Levene, H. (1960). "Robust tests for equality of variances". In Contributions to Probability and Statistics. Stanford University Press.

[8] Brown, M. B., & Forsythe, A. B. (1974). "Robust tests for the equality of variances". Journal of the American Statistical Association, 69(346), 364–367.

[9] O'Brien, R. G. (1979). "A general ANOVA method for robust tests of additive models for variances". Journal of the American Statistical Association, 74(368), 877–880.

Ссылки

О применении и мощности критериев однородности дисперсий Фишера, Бартлетта, Кокрена, Хартли, Левене на сайте Новосибирского государственного технического университета

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%A5%D0%B0%D1%80%D1%82%D0%BB%D0%B8»

Категория: Прикладная статистика