Логистическая регрессия
Материал из MachineLearning.
|
Логистическая регрессия (Logistic regression) — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
Определения
Пусть объекты описываются n числовыми признаками
.
Тогда пространство признаковых описаний объектов есть
.
Пусть
— конечное множество номеров (имён, меток) классов.
Пусть задана обучающая выборка пар «объект, ответ»
.
Случай двух классов
Положим .
В логистической регрессии строится линейный алгоритм классификации
вида
где
— вес
-го признака,
— порог принятия решения,
— вектор весов,
— скалярное произведение признакового описания объекта на вектор весов.
Предполагается, что искусственно введён «константный» нулевой признак:
.
Задача обучения линейного классификатора заключается в том, чтобы по выборке
настроить вектор весов
.
В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида:
После того, как решение найдено,
становится возможным не только вычислять классификацию
для проивольного объекта
,
но и оценивать апостериорные вероятности его принадлежности классам:
где — сигмоидная функция.
Во многих приложениях апостериорные вероятности необходимы для оценивания рисков,
связанных с возможными ошибками классификации.
Обоснования
С точки зрения минимизации эмпирического риска
Введём понятие отступа (margin) объекта
Отступ можно понимать как «степень погруженности» объекта в свой класс.
Чем меньше значение отступа , тем ближе объект подходит к границе классов.
Отступ
отрицателен тогда и только тогда, когда
алгоритм
допускает ошибку на объекте
.
Число ошибок классификации можно записать через отступы:
Под знаком суммы стоит пороговая функция потерь, поэтому данный функционал не является ни выпуклым, ни даже непрерывным, и минимизировать его неудобно. Идея заключается в том, чтобы заменить пороговую функцию потерь непрерывной оценкой сверху:
В результате такой замены и получается функционал (1).
С точки зрения байесовской классификации
Наиболее строгое обоснование логистической регрессии опирается на следующую теорему.
Теорема. Пусть:
- функции правдоподобия (плотности распределения) классов
принадлежат экспонентному семейству плотностей
где
— произвольные функции;
- функции правдоподобия имеют равные знаения параметра разброса
и отличаются только значениями параметра сдвига
;
- среди признаков есть константа, скажем,
.
Тогда
- линейный классификатор является оптимальным байесовским классификатором;
- апостериорные вероятности классов оценивается по формуле (2);
- минимизация функционала (1) эквивалентна максимизации правдоподобия выборки.
Таким образом, оценки апостериорных вероятностей (2) являются точными
только при довольно сильных теоретико-вероятностных предположениях.
На практике гарантировать выполнение этих условий вряд ли возможно.
Поэтому трактовать выходы сигмоидных функций как вероятности следует с большой осторожностью.
На самом деле они дают лишь оценку удалённости объекта от границы классов,
нормированную так, чтобы она принимала значения из отрезка .
Методы настройки весов
Градиентный метод первого порядка
Метод второго порядка IRLS
Метод Ньютона-Раффсона является градиентным методом оптимизации второго порядка. Его применение для минимизации (1) приводит к методу наименьших квадратов с итеративным пересчетом весов IRLS.
Связь с другими методами обучения
- Логистическая регрессия является частным случаем обобщённой линейной модели регрессии.
- На каждом шаге метода IRLS решается стандартная задача наименьших квадратов для многомерной линейной регрессии.
- Градиентный метод минимизации первого порядка является сглаженным вариантом правила Хэбба, предназначенного для обучения однослойного персептрона.
- Линейный дискриминант Фишера (ЛДФ) и логистическая регрессия исходят из байесовского решающего правила и принципа максимума правдоподобия, однако результат получается разный. В ЛДФ приходится оценивать
параметров, в логистической регрессии — только
. ЛДФ решает вспомогательную задачу восстановления плотностей распределения классов, предполагая к тому же, что плотности нормальны. Логистическая регрессия не пытается восстанавливать плотности классов и опирается на более слабые предположения о виде плотностей. С точки зрения принципа Оккама «не размножать сущности без необходимости» логистическая регрессия явно предпочтительнее, поскольку ЛДФ вводит избыточную сущность — плотности распределения классов, и сводит задачу классификации к более сложной задаче восстановления плотностей.
Литература
- Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
- Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)
- David W. Hosmer, Stanley Lemeshow. Applied Logistic Regression, 2nd ed. New York, Chichester, Wiley. 2002. 392 P. ISBN 0-471-35632-8.