Критерий Мак-Нимара
Материал из MachineLearning.
(Новая: {{UnderConstruction|~~~~}} '''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анали...) |
|||
Строка 1: | Строка 1: | ||
{{UnderConstruction|[[Участник:Borman|Михаил Борисов]] 14:16, 3 декабря 2013 (MSK)}} | {{UnderConstruction|[[Участник:Borman|Михаил Борисов]] 14:16, 3 декабря 2013 (MSK)}} | ||
- | '''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анализа [[ | + | '''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анализа [[Таблица сопряженности|таблиц сопряженности]] размером 2x2 (для дихотомического признака). В отличие от [[Таблица сопряженности#Критерий "хи-квадрат" для анализа таблиц сопряженности|критерия "хи-квадрат"]], критерий Мак-Немара применяется, когда условие независимости наблюдений не выполняется, но, напротив, учет признака выполняется на одних и тех же субъектах. |
== Определение == | == Определение == | ||
- | + | Рассмотрим ''n'' субъектов, для каждого из которых было проведено 2 теста: | |
+ | |||
{| class="wikitable" style="text-align:center" | {| class="wikitable" style="text-align:center" | ||
|- | |- | ||
- | | || | + | | || Тест 2 положительный || Тест 2 отрицательный || Сумма в строке |
|- | |- | ||
- | | | + | | Тест 1 положительный || ''a'' || ''b'' || ''a'' + ''b'' |
|- | |- | ||
- | | | + | | Тест 1 отрицательный || ''c'' || ''d'' || ''c'' + ''d'' |
|- | |- | ||
- | | | + | | Сумма в столбце || ''a'' + ''c'' || ''b'' + ''d'' || ''n'' |
- | |} | + | |} |
- | + | ||
- | + | [[Нулевая гипотеза]] утверждает, что маргинальные распределения для всех исходов совпадают: | |
- | ::<tex> | + | ::<tex>p_a + p_b = p_a + p_c</tex> |
- | + | ::<tex>p_c + p_d = p_b + p_d</tex> | |
- | + | ||
- | + | ||
- | + | ||
- | </tex> | + | |
- | + | Заметим, что корректность этих равенств не зависит от <tex>p_a</tex> и <tex>p_b</tex>. После сокращения, получаем оригинальную формулировку нулевой и альтернативной гипотез: | |
- | + | ::<tex>H_0~: \quad p_b = p_c</tex> | |
+ | ::<tex>H_1~: \quad p_b \ne p_c</tex> | ||
- | + | Оригинальная форма [[Статистический критерий|статистического критерия]] Мак-Немара такова: | |
- | + | ::<tex>\chi^2 = {(b-c)^2 \over b+c}.</tex> | |
+ | |||
+ | Применение [[Коррекция Йейтса|коррекции Йейтса]] для повышения качества качества критерия на выборках с низкочастотными событиями приводит к следующей формуле: | ||
::<tex>\chi^2 = {(|b-c|-0.5)^2 \over b+c}.</tex> | ::<tex>\chi^2 = {(|b-c|-0.5)^2 \over b+c}.</tex> | ||
- | + | На практике <ref>Например, по умолчанию в функции <code>mcnemar.test</code> в R</ref>, однако, обычно применяется коррекция Эдвардса: | |
- | <ref | + | |
- | + | ||
::<tex>\chi^2 = {(|b-c|-1)^2 \over b+c}.</tex> | ::<tex>\chi^2 = {(|b-c|-1)^2 \over b+c}.</tex> | ||
+ | |||
+ | При условии выполнения нулевой гипотезы, для достаточно больших выборок (''b + c > 25'') <tex>\chi^2</tex> имеет хи-квадрат распределение с одной степенью свободы. | ||
+ | Для маленьких выборок (''b + c <= 25'') применяют точный критерий Мак-Немара, который является [[Критерий знаков|критерием знаков]] для ''b'' относительно биномиального распределения с параметрами ''n = b + c, p = 1/2''. | ||
== Пример == | == Пример == | ||
Строка 47: | Строка 48: | ||
* MATLAB: встроенной реализации нет, есть [http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=mcnemar реализации на File Exchange]. | * MATLAB: встроенной реализации нет, есть [http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=mcnemar реализации на File Exchange]. | ||
- | * R: | + | * R: функция [http://stat.ethz.ch/R-manual/R-patched/library/stats/html/mcnemar.test.html <code>mcnemar.test</code>] в стандартном пакете <code>stats</code> и <code>mcnemar.exact</code> в пакете <code>exact2x2</code>. |
- | * Python: в библиотеках не реализован. | + | * Python: в библиотеках не реализован, однако [http://code.google.com/p/hydrat/source/browse/src/hydrat/result/stats.py#3 можно найти готовые реализации] |
== Ссылки == | == Ссылки == | ||
* [http://en.wikipedia.org/wiki/McNemar%27s_test EnWiki: McNemar's test] | * [http://en.wikipedia.org/wiki/McNemar%27s_test EnWiki: McNemar's test] | ||
- | * McNemar, Quinn (June 18, 1947). "Note on the sampling error of the difference between correlated proportions or percentages". Psychometrika 12 (2): 153–157. http://dx.doi.org/10.1007% | + | * McNemar, Quinn (June 18, 1947). [http://dx.doi.org/10.1007%2FBF02295996 "Note on the sampling error of the difference between correlated proportions or percentages"]. Psychometrika 12 (2): 153–157. |
- | * Fay, Michael P | + | * Yates, F (1934). [http://www.jstor.org/pss/2983604 "Contingency table involving small numbers and the χ2 test"]. Supplement to the Journal of the Royal Statistical Society 1(2), 217–235. |
+ | * Edwards, A (1948). [http://dx.doi.org/10.1007%2FBF02289261"Note on the "correction for continuity" in testing the significance of the difference between correlated proportions"]. Psychometrika 13: 185–187. | ||
+ | * Fay, Michael P. [http://cran.rstudio.com/web/packages/exact2x2/vignettes/exactMcNemar.pdf "Exact McNemar’s Test and Matching Confidence Intervals"]. (2011). | ||
+ | |||
+ | == Сноски == | ||
+ | <references/> |
Версия 21:36, 3 декабря 2013
Статья в настоящий момент дорабатывается. Михаил Борисов 14:16, 3 декабря 2013 (MSK) |
Критерий Мак-Нимара (также, К. Мак-Немара, англ. McNemar's test) используется для анализа таблиц сопряженности размером 2x2 (для дихотомического признака). В отличие от критерия "хи-квадрат", критерий Мак-Немара применяется, когда условие независимости наблюдений не выполняется, но, напротив, учет признака выполняется на одних и тех же субъектах.
Содержание |
Определение
Рассмотрим n субъектов, для каждого из которых было проведено 2 теста:
Тест 2 положительный | Тест 2 отрицательный | Сумма в строке | |
Тест 1 положительный | a | b | a + b |
Тест 1 отрицательный | c | d | c + d |
Сумма в столбце | a + c | b + d | n |
Нулевая гипотеза утверждает, что маргинальные распределения для всех исходов совпадают:
Заметим, что корректность этих равенств не зависит от и . После сокращения, получаем оригинальную формулировку нулевой и альтернативной гипотез:
Оригинальная форма статистического критерия Мак-Немара такова:
Применение коррекции Йейтса для повышения качества качества критерия на выборках с низкочастотными событиями приводит к следующей формуле:
На практике [1], однако, обычно применяется коррекция Эдвардса:
При условии выполнения нулевой гипотезы, для достаточно больших выборок (b + c > 25) имеет хи-квадрат распределение с одной степенью свободы. Для маленьких выборок (b + c <= 25) применяют точный критерий Мак-Немара, который является критерием знаков для b относительно биномиального распределения с параметрами n = b + c, p = 1/2.
Пример
Реализации
- MATLAB: встроенной реализации нет, есть реализации на File Exchange.
- R: функция
mcnemar.test
в стандартном пакетеstats
иmcnemar.exact
в пакетеexact2x2
. - Python: в библиотеках не реализован, однако можно найти готовые реализации
Ссылки
- EnWiki: McNemar's test
- McNemar, Quinn (June 18, 1947). "Note on the sampling error of the difference between correlated proportions or percentages". Psychometrika 12 (2): 153–157.
- Yates, F (1934). "Contingency table involving small numbers and the χ2 test". Supplement to the Journal of the Royal Statistical Society 1(2), 217–235.
- Edwards, A (1948). "Note on the "correction for continuity" in testing the significance of the difference between correlated proportions". Psychometrika 13: 185–187.
- Fay, Michael P. "Exact McNemar’s Test and Matching Confidence Intervals". (2011).