Принцип максимума правдоподобия

Материал из MachineLearning.

Версия от 18:06, 18 июня 2026; Artem Abdulmanov (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Artem Abdulmanov 22:06, 18 июня 2026 (MSD)

Промпт приводится полностью в Обсуждение:Принцип максимума правдоподобия


Содержание

Введение

Оценка максимального правдоподобия (англ. Maximum Likelihood Estimation, MLE) — это фундаментальный метод математической статистики и машинного обучения, предназначенный для оценки неизвестных параметров вероятностного распределения по имеющейся выборке данных. Суть решаемой проблемы заключается в поиске такого набора параметров, при котором вероятность совместного появления наблюдаемых данных (выборки) становится максимально возможной. В машинном обучении данный принцип лежит в основе вывода большинства классических функций потерь.

Мотивировка и историческая справка

До начала XX века в статистике доминировали методы, основанные на концепции «обратной вероятности» (inverse probability), сильно зависящие от априорных допущений исследователя. Предпосылки к созданию более объективного метода были заложены в фундаментальных работах выдающегося британского статистика Рональда Фишера[1]. В своих статьях 1912 и 1922 годов Фишер ввёл чёткое концептуальное разделение между вероятностью (которая применяется к будущим, ещё не наступившим событиям) и правдоподобием (которое применяется к уже наблюдаемым данным для оценки гипотез о параметрах). Фишер математически обосновал, что максимизация функции правдоподобия даёт асимптотически эффективные и состоятельные оценки параметров.

Математический аппарат

Пусть имеется выборка X = (x_1, x_2, \dots, x_n), состоящая из независимых и одинаково распределённых (i.i.d.) случайных величин, извлечённых из неизвестного распределения, которое моделируется функцией плотности вероятности (или функцией массы вероятности для дискретного случая) p(x | \theta), где \theta — вектор неизвестных параметров.

Поскольку наблюдения независимы, совместная вероятность появления всей выборки X равна произведению вероятностей каждого отдельного наблюдения. Эта функция, рассматриваемая как функция от параметров \theta при фиксированных данных X, называется функцией правдоподобия (Likelihood function):

 L(\theta | X) = \prod_{i=1}^n p(x_i | \theta)

На практике работать с произведением большого числа малых вероятностей неудобно из-за риска арифметического переполнения снизу (underflow) в вычислительных системах. Кроме того, производная произведения сложна для вычислений. Поскольку логарифм является монотонно возрастающей функцией, максимизация функции правдоподобия эквивалентна максимизации её логарифма. Переход к логарифмической функции правдоподобия (Log-Likelihood) заменяет произведение суммой:

 \ell(\theta | X) = \log L(\theta | X) = \sum_{i=1}^n \log p(x_i | \theta)

Задача оценки максимального правдоподобия сводится к поиску такого вектора \hat{\theta}_{MLE}, который доставляет максимум функции \ell(\theta | X):

 \hat{\theta}_{MLE} = \arg\max_{\theta} \ell(\theta | X)

Аналитическое решение (при условии дифференцируемости функции) находится путём решения системы уравнений, вытекающей из условия первого порядка (приравнивание первых производных по параметрам к нулю):

 \frac{\partial \ell(\theta | X)}{\partial \theta} = 0

Найденная точка является максимумом, если матрица Гессе отрицательно определена.

Асимптотические свойства

Одним из важнейших теоретических свойств оценки максимального правдоподобия является её асимптотическая нормальность. Данная теорема утверждает, что при выполнении определённых условий регулярности (в частности, требований к дифференцируемости функции правдоподобия) и неограниченном увеличении объёма выборки n, распределение оценки стремится к многомерному нормальному распределению.

Математически это означает, что оценка сходится к истинному значению параметра \theta_0, а её ковариационная матрица определяется информацией Фишера:

 \sqrt{n}(\hat{\theta}_n - \theta_0) \stackrel{d}{\longrightarrow} \mathcal{N}(0, I^{-1}(\theta_0))

Где  \stackrel{d}{\longrightarrow} обозначает сходимость по распределению, \mathcal{N} — нормальное распределение, а I(\theta_0) — матрица информации Фишера для одного наблюдения, вычисленная в истинной точке.

С практической точки зрения это означает, что при достаточно больших выборках оценка максимального правдоподобия является асимптотически эффективной — её дисперсия достигает нижней границы в неравенстве Рао — Крамера, то есть она обладает минимально возможной ошибкой среди всех состоятельных оценок. В машинном обучении и статистике это свойство широко применяется для аналитического построения доверительных интервалов параметров моделей (например, весов в логистической регрессии) и проверки статистических гипотез с помощью критерия Вальда (Wald test).

Сравнение с аналогами

Метод максимального правдоподобия часто сравнивают с другими подходами к оценке параметров:

 \hat{\theta}_{MAP} = \arg\max_{\theta} p(\theta | X) = \arg\max_{\theta} p(X | \theta) p(\theta)

Если априорное распределение параметров p(\theta) является константой (равномерное распределение), слагаемое \log p(\theta) не зависит от \theta, и задача поиска MAP строго вырождается в задачу поиска MLE. Таким образом, MLE является частным случаем байесовского вывода с неинформативным (равномерным) априорным распределением[1].

Связь с машинным обучением и схема обучения

Многие известные функции потерь в ML являются прямым следствием принципа максимума правдоподобия[1].

Для задачи регрессии: Если мы предполагаем, что целевая переменная y_i генерируется детерминированной моделью f_\theta(x_i) с добавлением гауссовского шума \epsilon \sim \mathcal{N}(0, \sigma^2), то правдоподобие одного наблюдения равно плотности нормального распределения. Максимизация логарифма такого правдоподобия математически сводится к минимизации суммы квадратов разностей:

 \arg\max_{\theta} \sum_{i=1}^n \log \left( \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - f_\theta(x_i))^2}{2\sigma^2}\right) \right) \equiv \arg\min_{\theta} \sum_{i=1}^n (y_i - f_\theta(x_i))^2

Таким образом, минимизация среднеквадратичной ошибки (MSE) строго эквивалентна оценке максимального правдоподобия при допущении о нормальном распределении шума.

Для задачи классификации: Если целевая метка распределена по закону Бернулли (бинарная классификация) или категориальному закону (многоклассовая классификация), то логарифмическая функция правдоподобия принимает вид функции перекрёстной энтропии (Кросс-энтропия).

С точки зрения численной оптимизации (например, стохастического градиентного спуска), градиенты функции логарифмического правдоподобия обладают хорошими свойствами сходимости, особенно в комбинации с экспоненциальными семействами распределений и функцией Softmax.

В машинном обучении, вместо максимизации правдоподобия, принято минимизировать отрицательное логарифмическое правдоподобие (Negative Log-Likelihood, NLL), так как оптимизаторы глубокого обучения по умолчанию настроены на минимизацию функций потерь.

Современные подходы и State-of-the-Art (SOTA)

На переднем крае науки принцип правдоподобия является ядром для обучения глубоких генеративных моделей:

См. также

Примечания


Литература

  • Fisher R. A. On the mathematical foundations of theoretical statistics // Philosophical Transactions of the Royal Society of London. Series A. — 1922. — С. 309-368.
  • Бишоп К. М. Распознавание образов и машинное обучение. — М.: Вильямс, 2008.
  • Гудфеллоу И., Бенджио И., Курвилль А. Глубокое обучение. — М.: ДМК Пресс, 2017.
Личные инструменты