Корреляция Мэтьюса
Материал из MachineLearning.
(Новая: Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. О...) |
|||
Строка 1: | Строка 1: | ||
Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение [-1, 1]. Результат 1 соответствует идеальному предсказанию, 0 - ситуации случайного предсказания, -1 - полностью противоположному предсказанию. В литературе так же известна как <tex> \phi </tex>-коэффициент. | Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение [-1, 1]. Результат 1 соответствует идеальному предсказанию, 0 - ситуации случайного предсказания, -1 - полностью противоположному предсказанию. В литературе так же известна как <tex> \phi </tex>-коэффициент. | ||
+ | |||
+ | == Определение == | ||
Пусть <tex> D </tex> - бинарный вектор, соответствующий истинной классификации, а <tex> M </tex> - предсказание некоторого алгоритма. Обозначим за <tex> \overline{M} </tex> отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов. | Пусть <tex> D </tex> - бинарный вектор, соответствующий истинной классификации, а <tex> M </tex> - предсказание некоторого алгоритма. Обозначим за <tex> \overline{M} </tex> отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов. | ||
Строка 16: | Строка 18: | ||
| TN | | TN | ||
|} | |} | ||
- | Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации. | + | Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [http://en.wikipedia.org/wiki/Template:SensSpecPPVNPV]. |
Тогда корреляция Мэтьюса определяется следующей формулой: | Тогда корреляция Мэтьюса определяется следующей формулой: | ||
Строка 31: | Строка 33: | ||
<tex> C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}} </tex> | <tex> C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}} </tex> | ||
+ | |||
+ | == Связь с хи-квадрат == | ||
Корреляция Мэтьюса связана со статистикой хи-квадрат: | Корреляция Мэтьюса связана со статистикой хи-квадрат: | ||
Строка 36: | Строка 40: | ||
<tex> C^2(D,M)= \frac{\chi^2}{N} </tex> | <tex> C^2(D,M)= \frac{\chi^2}{N} </tex> | ||
- | Пример | + | == Пример == |
+ | |||
+ | Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. <tex>TP = 2, FN = 2, FP = 1, TN = 1.</tex> Тогда <tex> C(D,M) = 0 </tex>. | ||
+ | |||
+ | == Источники == | ||
Первый раз иформация появилась в статье "Comparison of the predicted and observed secondary structure of T4 phage lysozyme" в журнале "Biochim. Biophys. Acta 1975" , автор Matthews. | Первый раз иформация появилась в статье "Comparison of the predicted and observed secondary structure of T4 phage lysozyme" в журнале "Biochim. Biophys. Acta 1975" , автор Matthews. | ||
- | + | Определение: [http://bioinformatics.oxfordjournals.org/content/16/5/412.full.pdf+html Assessing the accuracy of prediction algorithms for classification: an overview.] | |
Реализации: [http://www.mathworks.com/matlabcentral/fileexchange/44064-matthews-correlation-coefficient Matlab] [http://rocr.bioinf.mpi-sb.mpg.de R (phi)] | Реализации: [http://www.mathworks.com/matlabcentral/fileexchange/44064-matthews-correlation-coefficient Matlab] [http://rocr.bioinf.mpi-sb.mpg.de R (phi)] |
Версия 00:01, 3 декабря 2013
Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение [-1, 1]. Результат 1 соответствует идеальному предсказанию, 0 - ситуации случайного предсказания, -1 - полностью противоположному предсказанию. В литературе так же известна как -коэффициент.
Содержание |
Определение
Пусть - бинарный вектор, соответствующий истинной классификации, а - предсказание некоторого алгоритма. Обозначим за отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.
TP | FN | |
FP | TN |
Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [1].
Тогда корреляция Мэтьюса определяется следующей формулой:
.
Можно записать формулу в более удобном виде, если ввести ряд обозначений.
Связь с хи-квадрат
Корреляция Мэтьюса связана со статистикой хи-квадрат:
Пример
Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. Тогда .
Источники
Первый раз иформация появилась в статье "Comparison of the predicted and observed secondary structure of T4 phage lysozyme" в журнале "Biochim. Biophys. Acta 1975" , автор Matthews.
Определение: Assessing the accuracy of prediction algorithms for classification: an overview.