Корреляция Мэтьюса

Материал из MachineLearning.

Перейти к: навигация, поиск

Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение на интервале [-1, 1]. Значение 1 соответствует идеальному предсказанию, 0 — ситуации случайного предсказания, -1 — полностью противоположному предсказанию. В литературе так же известна как \phi–коэффициент.

Содержание

Определение

Пусть D — бинарный вектор, соответствующий истинной классификации, а M — предсказание некоторого алгоритма. Обозначим за  \overline{M} отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.

 M  \overline{M}
 D TP FN
\overline{D} FP TN

Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [1].

Тогда корреляция Мэтьюса определяется следующей формулой:

 C(D,M) = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FT)(TP + FP)(TN + FP)(TN + FN)  } } .

Можно записать формулу в более удобном виде, если ввести ряд обозначений:

 N = TN + TP + FN + FP ,
 S = \frac{ TP + FN }{N} ,
 P = \frac{ TP + FP }{N} ,
  C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}} .

Связь со статистикой хи-квадрат

Корреляция Мэтьюса связана со статистикой хи-квадрат для таблицы сопряжённости 2\times2:

 C^2(D,M)= \frac{\chi^2}{N} .

Пример

Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. TP = 2,\; FN = 2,\; FP = 1,\; TN = 1. Тогда  C(D,M) = 0 .

Ссылки

Личные инструменты