Корреляция Мэтьюса

Материал из MachineLearning.

Версия от 04:39, 3 декабря 2013; Riabenko (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение на интервале [-1, 1]. Значение 1 соответствует идеальному предсказанию, 0 — ситуации случайного предсказания, -1 — полностью противоположному предсказанию. В литературе так же известна как $\phi$ –коэффициент.

Определение

Пусть $D$ — бинарный вектор, соответствующий истинной классификации, а $M$ — предсказание некоторого алгоритма. Обозначим за $\overline{M}$ отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.

	$M$	$\overline{M}$
$D$	TP	FN
$\overline{D}$	FP	TN

Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [1].

Тогда корреляция Мэтьюса определяется следующей формулой:

$C(D,M) = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FT)(TP + FP)(TN + FP)(TN + FN) } }$ .

Можно записать формулу в более удобном виде, если ввести ряд обозначений:

$N = TN + TP + FN + FP$ ,

$S = \frac{ TP + FN }{N}$ ,

$P = \frac{ TP + FP }{N}$ ,

$C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}}$ .

Связь со статистикой хи-квадрат

Корреляция Мэтьюса связана со статистикой хи-квадрат для таблицы сопряжённости $2\times2$ :

$C^2(D,M)= \frac{\chi^2}{N}$ .

Пример

Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. $TP = 2,\; FN = 2,\; FP = 1,\; TN = 1.$ Тогда $C(D,M) = 0$ .

Ссылки

Matthews, B.W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochimica et Biophysica Acta (BBA) - Protein Structure, 405(2), 442-451. http://dx.doi.org/10.1016/0005-2795(75)90109-9.
Baldi, P., Brunak, S., Chauvin, Y., Andersen, C.A.F., Nielsen, H. (2000). Assessing the accuracy of prediction algorithms for classification: an overview. Bioinformatics, 16(5), 412-424. http://dx.doi.org/10.1093/bioinformatics/16.5.412
Реализация в Matlab.
Реализация в R (пакет ROCR, функция perfomance).

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D1%80%D1%80%D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D1%8F_%D0%9C%D1%8D%D1%82%D1%8C%D1%8E%D1%81%D0%B0»

Категории: Корреляционный анализ | Прикладная статистика | Энциклопедия анализа данных

Корреляция Мэтьюса

Материал из MachineLearning.

Содержание

Определение

Связь со статистикой хи-квадрат

Пример

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты