Корреляция Мэтьюса

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 1: Строка 1:
-
Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение [-1, 1]. Результат 1 соответствует идеальному предсказанию, 0 - ситуации случайного предсказания, -1 - полностью противоположному предсказанию. В литературе так же известна как <tex> \phi </tex>-коэффициент.
+
'''Корреляция Мэтьюса''' используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение на интервале [-1, 1]. Значение 1 соответствует идеальному предсказанию, 0 ситуации случайного предсказания, -1 полностью противоположному предсказанию. В литературе так же известна как <tex>\phi</tex>–коэффициент.
== Определение ==
== Определение ==
-
Пусть <tex> D </tex> - бинарный вектор, соответствующий истинной классификации, а <tex> M </tex> - предсказание некоторого алгоритма. Обозначим за <tex> \overline{M} </tex> отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.
+
Пусть <tex>D</tex> бинарный вектор, соответствующий истинной классификации, а <tex>M</tex> предсказание некоторого алгоритма. Обозначим за <tex> \overline{M} </tex> отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.
-
{| class="wikitable"
+
::{| class="wikitable"
|-
|-
!
!
Строка 22: Строка 22:
Тогда корреляция Мэтьюса определяется следующей формулой:
Тогда корреляция Мэтьюса определяется следующей формулой:
-
<tex> C(D,M) = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FT)(TP + FP)(TN + FP)(TN + FN) } } </tex>.
+
::<tex> C(D,M) = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FT)(TP + FP)(TN + FP)(TN + FN) } } </tex>.
-
Можно записать формулу в более удобном виде, если ввести ряд обозначений.
+
Можно записать формулу в более удобном виде, если ввести ряд обозначений:
-
<tex> N = TN + TP + FN + FP </tex>
+
::<tex> N = TN + TP + FN + FP </tex>,
-
<tex> S = \frac{ TP + FN }{N} </tex>
+
::<tex> S = \frac{ TP + FN }{N} </tex>,
-
<tex> P = \frac{ TP + FP }{N} </tex>
+
::<tex> P = \frac{ TP + FP }{N} </tex>,
-
<tex> C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}} </tex>
+
::<tex> C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}} </tex>.
-
== Связь с хи-квадрат ==
+
== Связь со статистикой хи-квадрат ==
-
Корреляция Мэтьюса связана со статистикой хи-квадрат:
+
Корреляция Мэтьюса связана со статистикой хи-квадрат для [[Таблица сопряженности|таблицы сопряжённости]] <tex>2\times2</tex>:
-
<tex> C^2(D,M)= \frac{\chi^2}{N} </tex>
+
::<tex> C^2(D,M)= \frac{\chi^2}{N} </tex>.
== Пример ==
== Пример ==
 +
Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. <tex>TP = 2,\; FN = 2,\; FP = 1,\; TN = 1.</tex> Тогда <tex> C(D,M) = 0 </tex>.
-
Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. <tex>TP = 2, FN = 2, FP = 1, TN = 1.</tex> Тогда <tex> C(D,M) = 0 </tex>.
+
== Ссылки ==
 +
* Matthews, B.W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochimica et Biophysica Acta (BBA) - Protein Structure, 405(2), 442-451. http://dx.doi.org/10.1016/0005-2795(75)90109-9.
 +
* Baldi, P., Brunak, S., Chauvin, Y., Andersen, C.A.F., Nielsen, H. (2000). Assessing the accuracy of prediction algorithms for classification: an overview. Bioinformatics, 16(5), 412-424. http://dx.doi.org/10.1093/bioinformatics/16.5.412
 +
* [http://www.mathworks.com/matlabcentral/fileexchange/44064-matthews-correlation-coefficient Реализация в Matlab].
 +
* [http://cran.r-project.org/web/packages/ROCR/index.html Реализация в R] (пакет ROCR, функция perfomance).
-
== Источники ==
+
[[Категория:Корреляционный анализ]]
-
 
+
[[Категория:Прикладная статистика]]
-
Первый раз иформация появилась в статье "Comparison of the predicted and observed secondary structure of T4 phage lysozyme" в журнале "Biochim. Biophys. Acta 1975" , автор Matthews.
+
[[Категория:Энциклопедия анализа данных]]
-
 
+
-
Определение: [http://bioinformatics.oxfordjournals.org/content/16/5/412.full.pdf+html Assessing the accuracy of prediction algorithms for classification: an overview.]
+
-
 
+
-
Реализации: [http://www.mathworks.com/matlabcentral/fileexchange/44064-matthews-correlation-coefficient Matlab] [http://rocr.bioinf.mpi-sb.mpg.de R (phi)]
+

Версия 04:39, 3 декабря 2013

Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение на интервале [-1, 1]. Значение 1 соответствует идеальному предсказанию, 0 — ситуации случайного предсказания, -1 — полностью противоположному предсказанию. В литературе так же известна как \phi–коэффициент.

Содержание

Определение

Пусть D — бинарный вектор, соответствующий истинной классификации, а M — предсказание некоторого алгоритма. Обозначим за  \overline{M} отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.

 M  \overline{M}
 D TP FN
\overline{D} FP TN

Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [1].

Тогда корреляция Мэтьюса определяется следующей формулой:

 C(D,M) = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FT)(TP + FP)(TN + FP)(TN + FN)  } } .

Можно записать формулу в более удобном виде, если ввести ряд обозначений:

 N = TN + TP + FN + FP ,
 S = \frac{ TP + FN }{N} ,
 P = \frac{ TP + FP }{N} ,
  C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}} .

Связь со статистикой хи-квадрат

Корреляция Мэтьюса связана со статистикой хи-квадрат для таблицы сопряжённости 2\times2:

 C^2(D,M)= \frac{\chi^2}{N} .

Пример

Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. TP = 2,\; FN = 2,\; FP = 1,\; TN = 1. Тогда  C(D,M) = 0 .

Ссылки

Личные инструменты