Логистическая регрессия
Материал из MachineLearning.
| 
 | 
Логистическая регрессия (Logistic regression) — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
Определения
Пусть объекты описываются n числовыми признаками 
.
Тогда пространство признаковых описаний объектов есть 
. 
Пусть 
 — конечное множество номеров (имён, меток) классов.
Пусть задана обучающая выборка пар «объект, ответ» 
.
Случай двух классов
Положим . 
В логистической регрессии строится линейный алгоритм классификации 
 вида
где 
 — вес 
-го признака, 
 — порог принятия решения,
 — вектор весов,
 — скалярное произведение признакового описания объекта на вектор весов. 
Предполагается, что искусственно введён «константный» нулевой признак: 
.
Задача обучения линейного классификатора заключается в том, чтобы по выборке 
настроить вектор весов 
.
В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида:
После того, как решение  найдено, 
становится возможным не только вычислять классификацию 
 
для произвольного объекта 
, 
но и оценивать апостериорные вероятности его принадлежности классам:
где  — сигмоидная функция.
Во многих приложениях апостериорные вероятности необходимы для оценивания рисков, 
связанных с возможными ошибками классификации.
Обоснования
С точки зрения минимизации эмпирического риска
Введём понятие отступа (margin) объекта
Отступ можно понимать как «степень погруженности» объекта в свой класс.
Чем меньше значение отступа , тем ближе объект подходит к границе классов.
Отступ 
 отрицателен тогда и только тогда, когда 
алгоритм 
 допускает ошибку на объекте 
. 
Число ошибок классификации можно записать через отступы:
Под знаком суммы стоит пороговая функция потерь, поэтому данный функционал не является ни выпуклым, ни даже непрерывным, и минимизировать его неудобно. Идея заключается в том, чтобы заменить пороговую функцию потерь непрерывной оценкой сверху:
В результате такой замены и получается функционал (1).
С точки зрения байесовской классификации
Наиболее строгое обоснование логистической регрессии опирается на следующую теорему.
Теорема. Пусть:
-  функции правдоподобия (плотности распределения) классов принадлежат экспонентному семейству плотностей где — произвольные функции; 
-  функции правдоподобия имеют равные знаения параметра разброса и отличаются только значениями параметра сдвига ; 
-  среди признаков есть константа, скажем, . 
Тогда
- линейный классификатор является оптимальным байесовским классификатором;
- апостериорные вероятности классов оценивается по формуле (2);
- минимизация функционала (1) эквивалентна максимизации правдоподобия выборки.
Таким образом, оценки апостериорных вероятностей (2) являются точными 
только при довольно сильных теоретико-вероятностных предположениях.
На практике гарантировать выполнение этих условий вряд ли возможно.
Поэтому трактовать выходы сигмоидных функций как вероятности следует с большой осторожностью.
На самом деле они дают лишь оценку удалённости объекта от границы классов,
нормированную так, чтобы она принимала значения из отрезка .
Методы настройки весов
Градиентный метод первого порядка
Метод второго порядка IRLS
Метод Ньютона-Раффсона является градиентным методом оптимизации второго порядка. Его применение для минимизации (1) приводит к методу наименьших квадратов с итеративным пересчетом весов IRLS.
Связь с другими методами обучения
- Логистическая регрессия является частным случаем обобщённой линейной модели регрессии.
- На каждом шаге метода IRLS решается стандартная задача наименьших квадратов для многомерной линейной регрессии.
- Градиентный метод минимизации первого порядка является сглаженным вариантом правила Хэбба, предназначенного для обучения однослойного персептрона.
-  Линейный дискриминант Фишера (ЛДФ) и логистическая регрессия исходят из байесовского решающего правила и принципа максимума правдоподобия, однако результат получается разный. В ЛДФ приходится оценивать параметров, в логистической регрессии — только . ЛДФ решает вспомогательную задачу восстановления плотностей распределения классов, предполагая к тому же, что плотности нормальны. Логистическая регрессия не пытается восстанавливать плотности классов и опирается на более слабые предположения о виде плотностей. С точки зрения принципа Оккама «не размножать сущности без необходимости» логистическая регрессия явно предпочтительнее, поскольку ЛДФ вводит избыточную сущность — плотности распределения классов, и сводит задачу классификации к более сложной задаче восстановления плотностей. 
Литература
- Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
- Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)
- David W. Hosmer, Stanley Lemeshow. Applied Logistic Regression, 2nd ed. New York, Chichester, Wiley. 2002. 392 P. ISBN 0-471-35632-8.

