Обсуждение:Логистическая регрессия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Изначальная версия статьи: Новая тема)
Строка 1: Строка 1:
Возможно стоит так же описать функционал для оптимизации, который возникает при использовании метода наибольшего правдоподобия?
Возможно стоит так же описать функционал для оптимизации, который возникает при использовании метода наибольшего правдоподобия?
: Михаил, да, согласен, был вы Вам признателен. --[[Участник:Strijov|Strijov]] 00:39, 2 марта 2015 (MSK)
: Михаил, да, согласен, был вы Вам признателен. --[[Участник:Strijov|Strijov]] 00:39, 2 марта 2015 (MSK)
 +
 +
== Изначальная версия статьи ==
 +
 +
{{TOCright}}
 +
'''Логистическая регрессия''' (Logistic regression) — метод построения [[Линейный классификатор|линейного классификатора]], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
 +
 +
== Определения ==
 +
 +
Пусть объекты описываются ''n'' числовыми признаками
 +
<tex>f_j:\: X\to\mathbb{R},\; j=1,\ldots,n</tex>.
 +
Тогда пространство признаковых описаний объектов есть <tex>X=\mathbb{R}^n</tex>.
 +
Пусть <tex>Y</tex> — конечное множество номеров (имён, меток) классов.
 +
 +
Пусть задана [[обучающая выборка]] пар «объект, ответ»
 +
<tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}</tex>.
 +
 +
=== Случай двух классов ===
 +
Положим <tex>Y=\{-1,+1\}</tex>.
 +
В&nbsp;логистической регрессии строится линейный алгоритм классификации <tex>a:\; X\to Y</tex> вида
 +
::<tex>a(x,w) = \mathrm{sign}\left( \sum_{j=1}^n w_j f_j(x) - w_0 \right) = \mathrm{sign}\langle x,w \rangle,</tex>
 +
где
 +
<tex>w_j</tex> — вес <tex>j</tex>-го признака,
 +
<tex>w_0</tex> — порог принятия решения,
 +
<tex>w=(w_0,w_1,\ldots,w_n)</tex> — вектор весов,
 +
<tex>\langle x,w \rangle</tex> — скалярное произведение признакового описания объекта на вектор весов.
 +
Предполагается, что искусственно введён «константный» нулевой признак: <tex>f_{0}(x)=-1</tex>.
 +
 +
Задача обучения линейного классификатора заключается в том, чтобы по выборке
 +
<tex>X^m</tex>
 +
настроить вектор весов <tex>w</tex>.
 +
В&nbsp;логистической регрессии для этого решается задача [[минимизация эмпирического риска|минимизации эмпирического риска]] с&nbsp;функцией потерь специального вида:
 +
{{eqno|1}}
 +
::<tex>Q(w) = \sum_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}.</tex>
 +
 +
После того, как решение <tex>w</tex> найдено,
 +
становится возможным не только вычислять классификацию <tex>a(x) = \mathrm{sign}\langle x,w \rangle</tex>
 +
для произвольного объекта <tex>x</tex>,
 +
но и оценивать апостериорные вероятности его принадлежности классам:
 +
{{eqno|2}}
 +
::<tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y,</tex>
 +
где <tex>\sigma(z) = \frac1{1+e^{-z}}</tex> — [[сигмоидная функция]].
 +
Во многих приложениях апостериорные вероятности необходимы для оценивания рисков,
 +
связанных с возможными ошибками классификации.
 +
 +
== Обоснования ==
 +
 +
=== С точки зрения минимизации эмпирического риска ===
 +
Введём понятие ''[[отступ]]а'' (margin) объекта
 +
::<tex>M(x_i) = y_i \langle x_i,w \rangle.</tex>
 +
Отступ можно понимать как «степень погруженности» объекта в свой класс.
 +
Чем меньше значение отступа <tex>M(x_i)</tex>, тем ближе объект подходит к границе классов.
 +
Отступ <tex>M(x_i)</tex> отрицателен тогда и только тогда, когда
 +
алгоритм <tex>a(x,w)</tex> допускает ошибку на объекте&nbsp;<tex>x_i</tex>.
 +
Число ошибок классификации можно записать через отступы:
 +
::<tex>Q_0(w) = \sum_{i=1}^m \bigl[ M(x_i) < 0 \bigr].</tex>
 +
Под знаком суммы стоит пороговая функция потерь,
 +
поэтому данный функционал не является ни выпуклым, ни даже непрерывным,
 +
и минимизировать его неудобно.
 +
Идея заключается в том, чтобы заменить пороговую функцию потерь непрерывной оценкой сверху:
 +
::<tex>[M<0] \leq \log_2 \left( 1 + e^{-M} \right).</tex>
 +
В результате такой замены и получается функционал {{eqref|1}}.
 +
 +
=== С точки зрения байесовской классификации ===
 +
Наиболее строгое обоснование логистической регрессии опирается на следующую теорему.
 +
 +
'''Теорема.'''
 +
Пусть:
 +
* функции правдоподобия (плотности распределения) классов <tex>p_y(x)</tex> принадлежат [[экспонентное семейство плотностей|экспонентному семейству плотностей]] <tex>p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right),</tex> где <tex>a,\, b\, d</tex> — произвольные функции;
 +
* функции правдоподобия имеют равные знаения ''параметра разброса'' <tex>\delta</tex> и отличаются только значениями ''параметра сдвига'' <tex>\theta_y</tex>;
 +
* среди признаков есть константа, скажем, <tex>f_0(x) = -1</tex>.
 +
 +
Тогда
 +
* линейный классификатор является [[байесовский классификатор|оптимальным байесовским классификатором]];
 +
* апостериорные вероятности классов оценивается по формуле {{eqref|2}};
 +
* минимизация функционала {{eqref|1}} эквивалентна [[принцип максимума правдоподобия|максимизации правдоподобия]] выборки.
 +
 +
Таким образом, оценки апостериорных вероятностей {{eqref|2}} являются точными
 +
только при довольно сильных теоретико-вероятностных предположениях.
 +
На&nbsp;практике гарантировать выполнение этих условий вряд&nbsp;ли возможно.
 +
Поэтому трактовать выходы сигмоидных функций как вероятности следует с&nbsp;большой осторожностью.
 +
На&nbsp;самом деле они дают лишь оценку удалённости объекта от&nbsp;границы классов,
 +
нормированную так, чтобы она принимала значения из&nbsp;отрезка&nbsp;<tex>[0,1]</tex>.
 +
 +
== Методы настройки весов ==
 +
 +
=== Градиентный метод первого порядка ===
 +
 +
=== Метод второго порядка IRLS ===
 +
Метод Ньютона-Раффсона является градиентным методом оптимизации второго порядка.
 +
Его применение для минимизации {{eqref|1}} приводит к [[Метод наименьших квадратов с итеративным пересчетом весов|методу наименьших квадратов с итеративным пересчетом весов]] IRLS.
 +
 +
== Связь с другими методами обучения ==
 +
* Логистическая регрессия является частным случаем [[Обобщённая линейная модель|обобщённой линейной модели]] регрессии.
 +
* На каждом шаге метода IRLS решается стандартная задача наименьших квадратов для многомерной линейной регрессии.
 +
* Градиентный метод минимизации первого порядка является сглаженным вариантом [[правило Хэбба|правила Хэбба]], предназначенного для обучения [[однослойный персептрон|однослойного персептрона]].
 +
* [[Линейный дискриминант Фишера]] (ЛДФ) и логистическая регрессия исходят из [[байесовский классификатор|байесовского решающего правила]] и принципа максимума правдоподобия, однако результат получается разный. В&nbsp;ЛДФ приходится оценивать <tex>n(n+1)/2</tex> параметров, в&nbsp;логистической регрессии — только&nbsp;<tex>n</tex>. ЛДФ решает вспомогательную задачу восстановления плотностей распределения классов, предполагая к&nbsp;тому&nbsp;же, что плотности нормальны. Логистическая регрессия не&nbsp;пытается восстанавливать плотности классов и&nbsp;опирается на&nbsp;более слабые предположения о&nbsp;виде плотностей. С&nbsp;точки зрения [[Бритва Оккама|принципа Оккама]] «не&nbsp;размножать сущности без необходимости» логистическая регрессия явно предпочтительнее, поскольку ЛДФ&nbsp;вводит избыточную сущность — плотности распределения классов, и&nbsp;сводит задачу классификации к&nbsp;более сложной задаче восстановления плотностей.
 +
 +
== Литература ==
 +
# ''Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
 +
# {{П:Hastie 2001 The Elements of Statistical Learning}}
 +
# ''David W. Hosmer'', ''Stanley Lemeshow''. [http://eu.wiley.com/WileyCDA/WileyTitle/productCd-0471356328.html Applied Logistic Regression], 2nd ed. New York, Chichester, Wiley. 2002. 392 P. ISBN 0-471-35632-8.
 +
 +
== Ссылки ==
 +
# [[Машинное обучение (курс лекций, К.В.Воронцов)]]
 +
# [[Логистическая регрессия (пример)]]
 +
 +
{{Stub}}
 +
[[Категория:Линейные классификаторы]]
 +
[[Категория:Машинное обучение]]
 +
[[Категория:Классификация]]
 +
[[Категория:Бинарные классификаторы]]

Версия 15:07, 1 июля 2026

Возможно стоит так же описать функционал для оптимизации, который возникает при использовании метода наибольшего правдоподобия?

Михаил, да, согласен, был вы Вам признателен. --Strijov 00:39, 2 марта 2015 (MSK)

Изначальная версия статьи

Содержание

Логистическая регрессия (Logistic regression) — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.

Определения

Пусть объекты описываются n числовыми признаками f_j:\: X\to\mathbb{R},\; j=1,\ldots,n. Тогда пространство признаковых описаний объектов есть X=\mathbb{R}^n. Пусть Y — конечное множество номеров (имён, меток) классов.

Пусть задана обучающая выборка пар «объект, ответ» X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.

Случай двух классов

Положим Y=\{-1,+1\}. В логистической регрессии строится линейный алгоритм классификации a:\; X\to Y вида

a(x,w) = \mathrm{sign}\left( \sum_{j=1}^n w_j f_j(x) - w_0 \right) = \mathrm{sign}\langle x,w \rangle,

где w_j — вес j-го признака, w_0 — порог принятия решения, w=(w_0,w_1,\ldots,w_n) — вектор весов, \langle x,w \rangle — скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён «константный» нулевой признак: f_{0}(x)=-1.

Задача обучения линейного классификатора заключается в том, чтобы по выборке X^m настроить вектор весов w. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида:

(1)
Q(w) = \sum_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}.

После того, как решение w найдено, становится возможным не только вычислять классификацию a(x) = \mathrm{sign}\langle x,w \rangle для произвольного объекта x, но и оценивать апостериорные вероятности его принадлежности классам:

(2)
\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y,

где \sigma(z) = \frac1{1+e^{-z}}сигмоидная функция. Во многих приложениях апостериорные вероятности необходимы для оценивания рисков, связанных с возможными ошибками классификации.

Обоснования

С точки зрения минимизации эмпирического риска

Введём понятие отступа (margin) объекта

M(x_i) = y_i \langle x_i,w \rangle.

Отступ можно понимать как «степень погруженности» объекта в свой класс. Чем меньше значение отступа M(x_i), тем ближе объект подходит к границе классов. Отступ M(x_i) отрицателен тогда и только тогда, когда алгоритм a(x,w) допускает ошибку на объекте x_i. Число ошибок классификации можно записать через отступы:

Q_0(w) = \sum_{i=1}^m \bigl[ M(x_i) < 0 \bigr].

Под знаком суммы стоит пороговая функция потерь, поэтому данный функционал не является ни выпуклым, ни даже непрерывным, и минимизировать его неудобно. Идея заключается в том, чтобы заменить пороговую функцию потерь непрерывной оценкой сверху:

[M<0] \leq \log_2 \left( 1 + e^{-M} \right).

В результате такой замены и получается функционал (1).

С точки зрения байесовской классификации

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему.

Теорема. Пусть:

  • функции правдоподобия (плотности распределения) классов p_y(x) принадлежат экспонентному семейству плотностей p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right), где a,\, b\, d — произвольные функции;
  • функции правдоподобия имеют равные знаения параметра разброса \delta и отличаются только значениями параметра сдвига \theta_y;
  • среди признаков есть константа, скажем, f_0(x) = -1.

Тогда

Таким образом, оценки апостериорных вероятностей (2) являются точными только при довольно сильных теоретико-вероятностных предположениях. На практике гарантировать выполнение этих условий вряд ли возможно. Поэтому трактовать выходы сигмоидных функций как вероятности следует с большой осторожностью. На самом деле они дают лишь оценку удалённости объекта от границы классов, нормированную так, чтобы она принимала значения из отрезка [0,1].

Методы настройки весов

Градиентный метод первого порядка

Метод второго порядка IRLS

Метод Ньютона-Раффсона является градиентным методом оптимизации второго порядка. Его применение для минимизации (1) приводит к методу наименьших квадратов с итеративным пересчетом весов IRLS.

Связь с другими методами обучения

  • Логистическая регрессия является частным случаем обобщённой линейной модели регрессии.
  • На каждом шаге метода IRLS решается стандартная задача наименьших квадратов для многомерной линейной регрессии.
  • Градиентный метод минимизации первого порядка является сглаженным вариантом правила Хэбба, предназначенного для обучения однослойного персептрона.
  • Линейный дискриминант Фишера (ЛДФ) и логистическая регрессия исходят из байесовского решающего правила и принципа максимума правдоподобия, однако результат получается разный. В ЛДФ приходится оценивать n(n+1)/2 параметров, в логистической регрессии — только n. ЛДФ решает вспомогательную задачу восстановления плотностей распределения классов, предполагая к тому же, что плотности нормальны. Логистическая регрессия не пытается восстанавливать плотности классов и опирается на более слабые предположения о виде плотностей. С точки зрения принципа Оккама «не размножать сущности без необходимости» логистическая регрессия явно предпочтительнее, поскольку ЛДФ вводит избыточную сущность — плотности распределения классов, и сводит задачу классификации к более сложной задаче восстановления плотностей.

Литература

  1. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
  2. Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p.  (подробнее)
  3. David W. Hosmer, Stanley Lemeshow. Applied Logistic Regression, 2nd ed. New York, Chichester, Wiley. 2002. 392 P. ISBN 0-471-35632-8.

Ссылки

  1. Машинное обучение (курс лекций, К.В.Воронцов)
  2. Логистическая регрессия (пример)
Личные инструменты