Обсуждение:Логистическая регрессия

Материал из MachineLearning.

(Различия между версиями)

Версия 15:07, 1 июля 2026

Возможно стоит так же описать функционал для оптимизации, который возникает при использовании метода наибольшего правдоподобия?

Михаил, да, согласен, был вы Вам признателен. --Strijov 00:39, 2 марта 2015 (MSK)

Изначальная версия статьи

Содержание

1 Изначальная версия статьи
2 Определения
- 2.1 Случай двух классов
3 Обоснования
- 3.1 С точки зрения минимизации эмпирического риска
- 3.2 С точки зрения байесовской классификации
4 Методы настройки весов
- 4.1 Градиентный метод первого порядка
- 4.2 Метод второго порядка IRLS
5 Связь с другими методами обучения
6 Литература
7 Ссылки

Логистическая регрессия (Logistic regression) — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.

Определения

Пусть объекты описываются n числовыми признаками $f_j:\: X\to\mathbb{R},\; j=1,\ldots,n$ . Тогда пространство признаковых описаний объектов есть $X=\mathbb{R}^n$ . Пусть $Y$ — конечное множество номеров (имён, меток) классов.

Пусть задана обучающая выборка пар «объект, ответ» $X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}$ .

Случай двух классов

Положим $Y=\{-1,+1\}$ . В логистической регрессии строится линейный алгоритм классификации $a:\; X\to Y$ вида

$a(x,w) = \mathrm{sign}\left( \sum_{j=1}^n w_j f_j(x) - w_0 \right) = \mathrm{sign}\langle x,w \rangle,$

где $w_j$ — вес $j$ -го признака, $w_0$ — порог принятия решения, $w=(w_0,w_1,\ldots,w_n)$ — вектор весов, $\langle x,w \rangle$ — скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён «константный» нулевой признак: $f_{0}(x)=-1$ .

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$ . В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида:

(1)

$Q(w) = \sum_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}.$

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$ , но и оценивать апостериорные вероятности его принадлежности классам:

(2)

$\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y,$

где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция. Во многих приложениях апостериорные вероятности необходимы для оценивания рисков, связанных с возможными ошибками классификации.

Обоснования

С точки зрения минимизации эмпирического риска

Введём понятие отступа (margin) объекта

$M(x_i) = y_i \langle x_i,w \rangle.$

Отступ можно понимать как «степень погруженности» объекта в свой класс. Чем меньше значение отступа $M(x_i)$ , тем ближе объект подходит к границе классов. Отступ $M(x_i)$ отрицателен тогда и только тогда, когда алгоритм $a(x,w)$ допускает ошибку на объекте $x_i$ . Число ошибок классификации можно записать через отступы:

$Q_0(w) = \sum_{i=1}^m \bigl[ M(x_i) < 0 \bigr].$

Под знаком суммы стоит пороговая функция потерь, поэтому данный функционал не является ни выпуклым, ни даже непрерывным, и минимизировать его неудобно. Идея заключается в том, чтобы заменить пороговую функцию потерь непрерывной оценкой сверху:

$[M<0] \leq \log_2 \left( 1 + e^{-M} \right).$

В результате такой замены и получается функционал (1).

С точки зрения байесовской классификации

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему.

Теорема. Пусть:

функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right),$ где $a,\, b\, d$ — произвольные функции;
функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$ ;
среди признаков есть константа, скажем, $f_0(x) = -1$ .

Тогда

линейный классификатор является оптимальным байесовским классификатором;
апостериорные вероятности классов оценивается по формуле (2);
минимизация функционала (1) эквивалентна максимизации правдоподобия выборки.

Таким образом, оценки апостериорных вероятностей (2) являются точными только при довольно сильных теоретико-вероятностных предположениях. На практике гарантировать выполнение этих условий вряд ли возможно. Поэтому трактовать выходы сигмоидных функций как вероятности следует с большой осторожностью. На самом деле они дают лишь оценку удалённости объекта от границы классов, нормированную так, чтобы она принимала значения из отрезка $[0,1]$ .

Методы настройки весов

Градиентный метод первого порядка

Метод второго порядка IRLS

Метод Ньютона-Раффсона является градиентным методом оптимизации второго порядка. Его применение для минимизации (1) приводит к методу наименьших квадратов с итеративным пересчетом весов IRLS.

Связь с другими методами обучения

Логистическая регрессия является частным случаем обобщённой линейной модели регрессии.
На каждом шаге метода IRLS решается стандартная задача наименьших квадратов для многомерной линейной регрессии.
Градиентный метод минимизации первого порядка является сглаженным вариантом правила Хэбба, предназначенного для обучения однослойного персептрона.
Линейный дискриминант Фишера (ЛДФ) и логистическая регрессия исходят из байесовского решающего правила и принципа максимума правдоподобия, однако результат получается разный. В ЛДФ приходится оценивать $n(n+1)/2$ параметров, в логистической регрессии — только $n$ . ЛДФ решает вспомогательную задачу восстановления плотностей распределения классов, предполагая к тому же, что плотности нормальны. Логистическая регрессия не пытается восстанавливать плотности классов и опирается на более слабые предположения о виде плотностей. С точки зрения принципа Оккама «не размножать сущности без необходимости» логистическая регрессия явно предпочтительнее, поскольку ЛДФ вводит избыточную сущность — плотности распределения классов, и сводит задачу классификации к более сложной задаче восстановления плотностей.

Литература

Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)
David W. Hosmer, Stanley Lemeshow. Applied Logistic Regression, 2nd ed. New York, Chichester, Wiley. 2002. 392 P. ISBN 0-471-35632-8.

Ссылки

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5:%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F»

Категории: Незавершённые статьи | Линейные классификаторы | Машинное обучение | Классификация | Бинарные классификаторы

@@ Строка 1: / Строка 1: @@
 Возможно стоит так же описать функционал для оптимизации, который возникает при использовании метода наибольшего правдоподобия?
 : Михаил, да, согласен, был вы Вам признателен. --[[Участник:Strijov|Strijov]] 00:39, 2 марта 2015 (MSK)
+== Изначальная версия статьи ==
+{{TOCright}}
+'''Логистическая регрессия''' (Logistic regression) — метод построения [[Линейный классификатор|линейного классификатора]], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
+== Определения ==
+Пусть объекты описываются ''n'' числовыми признаками
+<tex>f_j:\: X\to\mathbb{R},\; j=1,\ldots,n</tex>.
+Тогда пространство признаковых описаний объектов есть <tex>X=\mathbb{R}^n</tex>.
+Пусть <tex>Y</tex> — конечное множество номеров (имён, меток) классов.
+Пусть задана [[обучающая выборка]] пар «объект, ответ»
+<tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}</tex>.
+=== Случай двух классов ===
+Положим <tex>Y=\{-1,+1\}</tex>.
+В&nbsp;логистической регрессии строится линейный алгоритм классификации <tex>a:\; X\to Y</tex> вида
+::<tex>a(x,w) = \mathrm{sign}\left( \sum_{j=1}^n w_j f_j(x) - w_0 \right) = \mathrm{sign}\langle x,w \rangle,</tex>
+где
+<tex>w_j</tex> — вес <tex>j</tex>-го признака,
+<tex>w_0</tex> — порог принятия решения,
+<tex>w=(w_0,w_1,\ldots,w_n)</tex> — вектор весов,
+<tex>\langle x,w \rangle</tex> — скалярное произведение признакового описания объекта на вектор весов.
+Предполагается, что искусственно введён «константный» нулевой признак: <tex>f_{0}(x)=-1</tex>.
+Задача обучения линейного классификатора заключается в том, чтобы по выборке
+<tex>X^m</tex>
+настроить вектор весов <tex>w</tex>.
+В&nbsp;логистической регрессии для этого решается задача [[минимизация эмпирического риска|минимизации эмпирического риска]] с&nbsp;функцией потерь специального вида:
+{{eqno|1}}
+::<tex>Q(w) = \sum_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}.</tex>
+После того, как решение <tex>w</tex> найдено,
+становится возможным не только вычислять классификацию <tex>a(x) = \mathrm{sign}\langle x,w \rangle</tex>
+для произвольного объекта <tex>x</tex>,
+но и оценивать апостериорные вероятности его принадлежности классам:
+{{eqno|2}}
+::<tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y,</tex>
+где <tex>\sigma(z) = \frac1{1+e^{-z}}</tex> — [[сигмоидная функция]].
+Во многих приложениях апостериорные вероятности необходимы для оценивания рисков,
+связанных с возможными ошибками классификации.
+== Обоснования ==
+=== С точки зрения минимизации эмпирического риска ===
+Введём понятие ''[[отступ]]а'' (margin) объекта
+::<tex>M(x_i) = y_i \langle x_i,w \rangle.</tex>
+Отступ можно понимать как «степень погруженности» объекта в свой класс.
+Чем меньше значение отступа <tex>M(x_i)</tex>, тем ближе объект подходит к границе классов.
+Отступ <tex>M(x_i)</tex> отрицателен тогда и только тогда, когда
+алгоритм <tex>a(x,w)</tex> допускает ошибку на объекте&nbsp;<tex>x_i</tex>.
+Число ошибок классификации можно записать через отступы:
+::<tex>Q_0(w) = \sum_{i=1}^m \bigl[ M(x_i) < 0 \bigr].</tex>
+Под знаком суммы стоит пороговая функция потерь,
+поэтому данный функционал не является ни выпуклым, ни даже непрерывным,
+и минимизировать его неудобно.
+Идея заключается в том, чтобы заменить пороговую функцию потерь непрерывной оценкой сверху:
+::<tex>[M<0] \leq \log_2 \left( 1 + e^{-M} \right).</tex>
+В результате такой замены и получается функционал {{eqref|1}}.
+=== С точки зрения байесовской классификации ===
+Наиболее строгое обоснование логистической регрессии опирается на следующую теорему.
+'''Теорема.'''
+Пусть:
+* функции правдоподобия (плотности распределения) классов <tex>p_y(x)</tex> принадлежат [[экспонентное семейство плотностей|экспонентному семейству плотностей]] <tex>p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right),</tex> где <tex>a,\, b\, d</tex> — произвольные функции;
+* функции правдоподобия имеют равные знаения ''параметра разброса'' <tex>\delta</tex> и отличаются только значениями ''параметра сдвига'' <tex>\theta_y</tex>;
+* среди признаков есть константа, скажем, <tex>f_0(x) = -1</tex>.
+Тогда
+* линейный классификатор является [[байесовский классификатор|оптимальным байесовским классификатором]];
+* апостериорные вероятности классов оценивается по формуле {{eqref|2}};
+* минимизация функционала {{eqref|1}} эквивалентна [[принцип максимума правдоподобия|максимизации правдоподобия]] выборки.
+Таким образом, оценки апостериорных вероятностей {{eqref|2}} являются точными
+только при довольно сильных теоретико-вероятностных предположениях.
+На&nbsp;практике гарантировать выполнение этих условий вряд&nbsp;ли возможно.
+Поэтому трактовать выходы сигмоидных функций как вероятности следует с&nbsp;большой осторожностью.
+На&nbsp;самом деле они дают лишь оценку удалённости объекта от&nbsp;границы классов,
+нормированную так, чтобы она принимала значения из&nbsp;отрезка&nbsp;<tex>[0,1]</tex>.
+== Методы настройки весов ==
+=== Градиентный метод первого порядка ===
+=== Метод второго порядка IRLS ===
+Метод Ньютона-Раффсона является градиентным методом оптимизации второго порядка.
+Его применение для минимизации {{eqref|1}} приводит к [[Метод наименьших квадратов с итеративным пересчетом весов|методу наименьших квадратов с итеративным пересчетом весов]] IRLS.
+== Связь с другими методами обучения ==
+* Логистическая регрессия является частным случаем [[Обобщённая линейная модель|обобщённой линейной модели]] регрессии.
+* На каждом шаге метода IRLS решается стандартная задача наименьших квадратов для многомерной линейной регрессии.
+* Градиентный метод минимизации первого порядка является сглаженным вариантом [[правило Хэбба|правила Хэбба]], предназначенного для обучения [[однослойный персептрон|однослойного персептрона]].
+* [[Линейный дискриминант Фишера]] (ЛДФ) и логистическая регрессия исходят из [[байесовский классификатор|байесовского решающего правила]] и принципа максимума правдоподобия, однако результат получается разный. В&nbsp;ЛДФ приходится оценивать <tex>n(n+1)/2</tex> параметров, в&nbsp;логистической регрессии — только&nbsp;<tex>n</tex>. ЛДФ решает вспомогательную задачу восстановления плотностей распределения классов, предполагая к&nbsp;тому&nbsp;же, что плотности нормальны. Логистическая регрессия не&nbsp;пытается восстанавливать плотности классов и&nbsp;опирается на&nbsp;более слабые предположения о&nbsp;виде плотностей. С&nbsp;точки зрения [[Бритва Оккама|принципа Оккама]] «не&nbsp;размножать сущности без необходимости»     логистическая регрессия явно предпочтительнее, поскольку ЛДФ&nbsp;вводит избыточную сущность — плотности распределения классов, и&nbsp;сводит задачу классификации к&nbsp;более сложной задаче восстановления плотностей.
+== Литература ==
+# ''Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
+# {{П:Hastie 2001 The Elements of Statistical Learning}}
+# ''David W. Hosmer'', ''Stanley Lemeshow''. [http://eu.wiley.com/WileyCDA/WileyTitle/productCd-0471356328.html Applied Logistic Regression], 2nd ed. New York, Chichester, Wiley. 2002. 392 P. ISBN 0-471-35632-8.
+== Ссылки ==
+# [[Машинное обучение (курс лекций, К.В.Воронцов)]]
+# [[Логистическая регрессия (пример)]]
+{{Stub}}
+[[Категория:Линейные классификаторы]]
+[[Категория:Машинное обучение]]
+[[Категория:Классификация]]
+[[Категория:Бинарные классификаторы]]