Критерий Мак-Нимара

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: {{UnderConstruction|~~~~}} '''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анали...)
Строка 1: Строка 1:
{{UnderConstruction|[[Участник:Borman|Михаил Борисов]] 14:16, 3 декабря 2013 (MSK)}}
{{UnderConstruction|[[Участник:Borman|Михаил Борисов]] 14:16, 3 декабря 2013 (MSK)}}
-
'''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анализа [[Таблица_сопряженности|таблиц сопряженности]] размером 2x2 (для дихотомического признака). В отличие от [[Таблица сопряженности#Критерий "хи-квадрат" для анализа таблиц сопряженности|критерия "хи-квадрат"]], критерий Мак-Немара применяется, когда условие независимости наблюдений не выполняется, но, напротив, учет признака выполняется на одних и тех же субъектах.
+
'''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анализа [[Таблица сопряженности|таблиц сопряженности]] размером 2x2 (для дихотомического признака). В отличие от [[Таблица сопряженности#Критерий "хи-квадрат" для анализа таблиц сопряженности|критерия "хи-квадрат"]], критерий Мак-Немара применяется, когда условие независимости наблюдений не выполняется, но, напротив, учет признака выполняется на одних и тех же субъектах.
== Определение ==
== Определение ==
-
<center>
+
Рассмотрим ''n'' субъектов, для каждого из которых было проведено 2 теста:
 +
 
{| class="wikitable" style="text-align:center"
{| class="wikitable" style="text-align:center"
|-
|-
-
| || Test 2 positive || Test 2 negative || Row total
+
| || Тест 2 положительный || Тест 2 отрицательный || Сумма в строке
|-
|-
-
| Test 1 positive || ''a'' || ''b'' || ''a'' + ''b''
+
| Тест 1 положительный || ''a'' || ''b'' || ''a'' + ''b''
|-
|-
-
| Test 1 negative || ''c'' || ''d'' || ''c'' + ''d''
+
| Тест 1 отрицательный || ''c'' || ''d'' || ''c'' + ''d''
|-
|-
-
| Column total || ''a'' + ''c'' || ''b'' + ''d'' || ''n''
+
| Сумма в столбце || ''a'' + ''c'' || ''b'' + ''d'' || ''n''
-
|}</center>
+
|}
-
The [[null hypothesis]] of marginal homogeneity states that the two marginal probabilities for each outcome are the same, i.e. ''p''<sub>''a''</sub>&nbsp;+&nbsp;''p''<sub>''b''</sub>&nbsp;=&nbsp;''p''<sub>''a''</sub>&nbsp;+&nbsp;''p''<sub>''c''</sub> and ''p''<sub>''c''</sub>&nbsp;+&nbsp;''p''<sub>''d''</sub>&nbsp;=&nbsp;''p''<sub>''b''</sub>&nbsp;+&nbsp;''p''<sub>''d''</sub>.
+
-
Thus the null and alternative hypotheses are<ref name=McNemar1947/>
+
[[Нулевая гипотеза]] утверждает, что маргинальные распределения для всех исходов совпадают:
-
::<tex>
+
::<tex>p_a + p_b = p_a + p_c</tex>
-
\begin{align}
+
::<tex>p_c + p_d = p_b + p_d</tex>
-
H_0 & :~p_b=p_c \\
+
-
H_1 & :~p_b \ne p_c
+
-
\end{align}
+
-
</tex>
+
-
Here ''p''<sub>''a''</sub>, etc., denote the theoretical probability of occurrences in cells with the corresponding label.
+
Заметим, что корректность этих равенств не зависит от <tex>p_a</tex> и <tex>p_b</tex>. После сокращения, получаем оригинальную формулировку нулевой и альтернативной гипотез:
-
The McNemar [[test statistic]] is:
+
::<tex>H_0~: \quad p_b = p_c</tex>
 +
::<tex>H_1~: \quad p_b \ne p_c</tex>
-
:<tex>\chi^2 = {(b-c)^2 \over b+c}.</tex>
+
Оригинальная форма [[Статистический критерий|статистического критерия]] Мак-Немара такова:
-
The statistic with [[Yates's correction for continuity]]<ref>Yates, F (1934). Contingency table involving small numbers and the χ<sup>2</sup> test. ''Supplement to the Journal of the Royal Statistical Society 1''(2), 217–235.[http://www.jstor.org/pss/2983604 JSTOR Archive for the journal]</ref> is given by:{{Citation needed|date=October 2011}}
+
::<tex>\chi^2 = {(b-c)^2 \over b+c}.</tex>
 +
 
 +
Применение [[Коррекция Йейтса|коррекции Йейтса]] для повышения качества качества критерия на выборках с низкочастотными событиями приводит к следующей формуле:
::<tex>\chi^2 = {(|b-c|-0.5)^2 \over b+c}.</tex>
::<tex>\chi^2 = {(|b-c|-0.5)^2 \over b+c}.</tex>
-
An alternative correction of 1 instead of 0.5 is attributed to Edwards
+
На практике <ref>Например, по умолчанию в функции <code>mcnemar.test</code> в R</ref>, однако, обычно применяется коррекция Эдвардса:
-
<ref name=Edwards1948>{{Cite journal| volume = 13| pages = 185–187| last = Edwards| first = A| title = Note on the "correction for continuity" in testing the significance of the difference between correlated proportions| journal = Psychometrika| date = 1948}}</ref>
+
 
-
by Fleiss,<ref name=Fleiss1981>{{cite book | year=1981 | author=Fleiss, J. L. | title=Statistical methods for rates and proportions |page=114 |edition=2nd |publisher= [[John Wiley & Sons]] |location=New York |isbn=0-471-06428-9 }}</ref> resulting in a similar equation:
+
::<tex>\chi^2 = {(|b-c|-1)^2 \over b+c}.</tex>
::<tex>\chi^2 = {(|b-c|-1)^2 \over b+c}.</tex>
 +
 +
При условии выполнения нулевой гипотезы, для достаточно больших выборок (''b + c > 25'') <tex>\chi^2</tex> имеет хи-квадрат распределение с одной степенью свободы.
 +
Для маленьких выборок (''b + c <= 25'') применяют точный критерий Мак-Немара, который является [[Критерий знаков|критерием знаков]] для ''b'' относительно биномиального распределения с параметрами ''n = b + c, p = 1/2''.
== Пример ==
== Пример ==
Строка 47: Строка 48:
* MATLAB: встроенной реализации нет, есть [http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=mcnemar реализации на File Exchange].
* MATLAB: встроенной реализации нет, есть [http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=mcnemar реализации на File Exchange].
-
* R: функции <code>mcnemar.test</code> и <code>mcnemar.exact</code>.
+
* R: функция [http://stat.ethz.ch/R-manual/R-patched/library/stats/html/mcnemar.test.html <code>mcnemar.test</code>] в стандартном пакете <code>stats</code> и <code>mcnemar.exact</code> в пакете <code>exact2x2</code>.
-
* Python: в библиотеках не реализован.
+
* Python: в библиотеках не реализован, однако [http://code.google.com/p/hydrat/source/browse/src/hydrat/result/stats.py#3 можно найти готовые реализации]
== Ссылки ==
== Ссылки ==
* [http://en.wikipedia.org/wiki/McNemar%27s_test EnWiki: McNemar's test]
* [http://en.wikipedia.org/wiki/McNemar%27s_test EnWiki: McNemar's test]
-
* McNemar, Quinn (June 18, 1947). "Note on the sampling error of the difference between correlated proportions or percentages". Psychometrika 12 (2): 153–157. http://dx.doi.org/10.1007%2FBF02295996
+
* McNemar, Quinn (June 18, 1947). [http://dx.doi.org/10.1007%2FBF02295996 "Note on the sampling error of the difference between correlated proportions or percentages"]. Psychometrika 12 (2): 153–157.
-
* Fay, Michael P. "Exact McNemar’s Test and Matching Confidence Intervals." (2011). [http://cran.rstudio.com/web/packages/exact2x2/vignettes/exactMcNemar.pdf PDF]
+
* Yates, F (1934). [http://www.jstor.org/pss/2983604 "Contingency table involving small numbers and the χ2 test"]. Supplement to the Journal of the Royal Statistical Society 1(2), 217–235.
 +
* Edwards, A (1948). [http://dx.doi.org/10.1007%2FBF02289261"Note on the "correction for continuity" in testing the significance of the difference between correlated proportions"]. Psychometrika 13: 185–187.
 +
* Fay, Michael P. [http://cran.rstudio.com/web/packages/exact2x2/vignettes/exactMcNemar.pdf "Exact McNemar’s Test and Matching Confidence Intervals"]. (2011).
 +
 
 +
== Сноски ==
 +
<references/>

Версия 21:36, 3 декабря 2013

Статья в настоящий момент дорабатывается.
Михаил Борисов 14:16, 3 декабря 2013 (MSK)


Критерий Мак-Нимара (также, К. Мак-Немара, англ. McNemar's test) используется для анализа таблиц сопряженности размером 2x2 (для дихотомического признака). В отличие от критерия "хи-квадрат", критерий Мак-Немара применяется, когда условие независимости наблюдений не выполняется, но, напротив, учет признака выполняется на одних и тех же субъектах.

Содержание

Определение

Рассмотрим n субъектов, для каждого из которых было проведено 2 теста:

Тест 2 положительный Тест 2 отрицательный Сумма в строке
Тест 1 положительный a b a + b
Тест 1 отрицательный c d c + d
Сумма в столбце a + c b + d n

Нулевая гипотеза утверждает, что маргинальные распределения для всех исходов совпадают:

p_a + p_b = p_a + p_c
p_c + p_d = p_b + p_d

Заметим, что корректность этих равенств не зависит от p_a и p_b. После сокращения, получаем оригинальную формулировку нулевой и альтернативной гипотез:

H_0~: \quad p_b = p_c
H_1~: \quad p_b \ne p_c

Оригинальная форма статистического критерия Мак-Немара такова:

\chi^2 = {(b-c)^2 \over b+c}.

Применение коррекции Йейтса для повышения качества качества критерия на выборках с низкочастотными событиями приводит к следующей формуле:

\chi^2 = {(|b-c|-0.5)^2 \over b+c}.

На практике [1], однако, обычно применяется коррекция Эдвардса:

\chi^2 = {(|b-c|-1)^2 \over b+c}.

При условии выполнения нулевой гипотезы, для достаточно больших выборок (b + c > 25) \chi^2 имеет хи-квадрат распределение с одной степенью свободы. Для маленьких выборок (b + c <= 25) применяют точный критерий Мак-Немара, который является критерием знаков для b относительно биномиального распределения с параметрами n = b + c, p = 1/2.

Пример

Реализации

Ссылки

Сноски

Личные инструменты