Байесовский вывод
Материал из MachineLearning.
(→Вычислительные методы) |
|||
| Строка 71: | Строка 71: | ||
== Вычислительные методы == | == Вычислительные методы == | ||
| - | В общем случае вычисление [[апостериорное распределение|апостериорного распределения]], [[маргинальное правдоподобие|маргинального правдоподобия]] и [[ | + | В общем случае вычисление [[апостериорное распределение|апостериорного распределения]], [[маргинальное правдоподобие|маргинального правдоподобия]] и [[прогностическое распределение|прогностического распределения]] требует вычисления многомерных интегралов, которые обычно не имеют аналитического решения. Для приближённого байесовского вывода применяются два основных класса методов: методы Монте-Карло в цепях Маркова и вариационный вывод. |
=== Методы Монте-Карло в цепях Маркова === | === Методы Монте-Карло в цепях Маркова === | ||
| Строка 114: | Строка 114: | ||
* [[Наивный байесовский классификатор]] | * [[Наивный байесовский классификатор]] | ||
* [[Байесовская сеть]] | * [[Байесовская сеть]] | ||
| + | * [[Регуляризация]] | ||
== Примечания == | == Примечания == | ||
Версия 15:21, 30 июня 2026
|
Байе́совский вы́вод (англ. Bayesian inference) — метод статистического вывода, в котором теорема Байеса используется для пересмотра вероятности гипотезы по мере поступления новых свидетельств. Байесовский вывод составляет фундаментальную основу байесовской статистики и играет ключевую роль в современном машинном обучении, позволяя строить вероятностные модели, которые явно учитывают неопределённость параметров и прогнозов.
В машинном обучении байесовский вывод даёт стройный математический аппарат для решения задач обучения с учителем и без учителя, позволяя естественным образом объединять данные с экспертными знаниями, выполнять регуляризацию, осуществлять сравнение моделей (англ. model comparison) и выдавать не только точечные прогнозы, но и меры неопределённости, критически важные в ответственных приложениях — от медицинской диагностики до беспилотных автомобилей.
История
Корни байесовского вывода восходят к работе Томаса Байеса (1702–1761), опубликованной посмертно в 1763 году под редакцией Ричарда Прайса[1]. В этой работе был сформулирован частный случай теоремы, ныне носящей его имя. Независимо и в гораздо более общей форме теорему Байеса переоткрыл и систематически применил Пьер-Симон Лаплас в 1774 году, который использовал её для решения задач небесной механики, демографии и юриспруденции[1]. Лаплас заложил основы того, что сегодня называется байесовским выводом: он явно вводил равномерное априорное распределение (принцип недостаточного основания) и вычислял апостериорные вероятности.
На протяжении XIX и начала XX века байесовские идеи использовались многими учёными, однако к 1920‑м годам доминирующим стал частотный подход, развитый Рональдом Фишером, Ежи Нейманом и Эгоном Пирсоном, который критиковал субъективность выбора априорного распределения. Возрождение байесовского вывода началось в середине XX века благодаря работам Гарольда Джеффриса (объективное байесовское оценивание), Джимми Сэвиджа (аксиоматизация субъективной вероятностей) и Денниса Линдли. Мощный импульс развитию дало появление вычислительных методов MCMC (англ. Markov chain Monte Carlo) в 1980–1990‑х годах, которые сделали возможным численный расчёт апостериорных распределений для сложных многопараметрических моделей[1]. В XXI веке байесовский вывод стал одним из столпов машинного обучения, а новые приближённые методы, такие как вариационный байесовский вывод (англ. variational Bayesian inference), позволили масштабировать его на огромные наборы данных и глубокие нейронные сети[1].
Основная идея
В байесовском подходе параметры рассматриваются как случайные величины с заданным априорным распределением (англ. prior distribution), отражающим знания или предположения до наблюдения данных. После получения данных априорное распределение обновляется до апостериорного распределения (англ. posterior distribution) по формуле Байеса:
где
-
— Априорное распределение — отражает информацию о параметрах до наблюдения данных. Может быть информативным (выражающим реальные экспертные знания), слабоинформативным или объективным (например, равномерное распределение, априорное распределение Джеффриса).
-
— Функция правдоподобия — описывает вероятность получить наблюдаемые данные при фиксированном значении параметра. Является связующим звеном между моделью и данными.
-
— Маргинальное правдоподобие — среднее значение правдоподобия по априорному распределению. Эта величина не зависит от
и используется для нормализации, а также для сравнения моделей (см. байесовский фактор).
-
— Апостериорное распределение — итоговое представление о параметрах после учёта данных. Из него выводятся все байесовские оценки и прогнозы.
-
— Прогностическое распределение (англ. posterior predictive distribution) — распределение будущих наблюдений, усреднённое по всей апостериорной неопределённости параметров.
Если априорное распределение выбрано из сопряжённого семейства (англ. conjugate prior) к функции правдоподобия, то апостериорное распределение принадлежит тому же семейству, и обновление параметров сводится к простым алгебраическим действиям.
Пример (подбрасывание монеты). Пусть результатами являются независимые бернуллиевские случайные величины с неизвестной вероятностью орла . Выберем априорное Бета-распределение
. После наблюдения
бросков, в которых выпало
орлов, апостериорное распределение также будет бета-распределением:
Это наглядно показывает, как данные последовательно «обновляют» наши представления.
Байесовское оценивание и решающие правила
В байесовском выводе оценкой параметра часто служат характеристики апостериорного распределения: апостериорное среднее (минимизирует квадратичную функцию потерь), апостериорная мода (MAP-оценка, от англ. maximum a posteriori estimation, максимизирует произведение правдоподобия и априорного) или апостериорная медиана (минимизирует абсолютную функцию потерь). В отличие от единичной MAP-оценки, полный байесовский подход использует всё апостериорное распределение для принятия решений и формирования прогнозов, что позволяет автоматически учитывать неопределённость.
Байесовский вывод в статистике
В классической статистике байесовский вывод предлагает альтернативный взгляд на задачи оценивания, проверки гипотез и сравнения моделей.
Интервальное оценивание
Вместо доверительного интервала (частотного) байесовский подход оперирует надёжным интервалом (англ. credible interval). Надёжный интервал уровня — это такой интервал
, что вероятность попадания параметра в него по апостериорному распределению равна
:
. Эта интерпретация непосредственно соответствует интуитивному пониманию «интервала неопределённости» и не требует ссылок на гипотетические повторные выборки.
Проверка гипотез и байесовский фактор
Сравнение двух конкурирующих моделей и
проводится с помощью байесовского фактора (англ. Bayes factor):
Байесовский фактор показывает, во сколько раз данные более вероятны при одной модели по сравнению с другой, и автоматически включает штраф за сложность модели (см. Бритва Оккама). Например, при сравнении полиномиальных регрессий разной степени байесовский фактор часто отдаёт предпочтение более простой модели, если усложнение не приводит к существенному росту правдоподобия[1].
Байесовский вывод в машинном обучении
Байесовский вывод применяется в машинном обучении для построения вероятностных моделей, оценки неопределённости, выбора моделей и оптимизации. Современные методы различаются как по типу используемых моделей, так и по способам приближённого вычисления апостериорного распределения.
Вероятностные модели
Наивный байесовский классификатор
Методы приближённого вывода
Вариационный байесовский вывод
Марковские цепи Монте-Карло (MCMC)
Приложения
Вычислительные методы
В общем случае вычисление апостериорного распределения, маргинального правдоподобия и прогностического распределения требует вычисления многомерных интегралов, которые обычно не имеют аналитического решения. Для приближённого байесовского вывода применяются два основных класса методов: методы Монте-Карло в цепях Маркова и вариационный вывод.
Методы Монте-Карло в цепях Маркова
Методы Монте-Карло в цепях Маркова (Шаблон:Lang-en, MCMC) строят марковскую цепь, стационарное распределение которой совпадает с целевым апостериорным распределением . После достижения стационарности выборка из цепи используется для оценки математических ожиданий, доверительных характеристик и прогностических распределений.
К наиболее распространённым алгоритмам относятся алгоритм Метрополиса — Гастингса, семплирование Гиббса, гамильтонов метод Монте-Карло (HMC) и алгоритм No-U-Turn Sampler (NUTS). Последние особенно эффективны для многомерных моделей и реализованы в вероятностных языках программирования Stan и PyMC.[1]
MCMC-методы асимптотически сходятся к точному апостериорному распределению, однако их вычислительная стоимость может быть высокой для моделей с большим числом параметров или объёмом данных.
Вариационный вывод
Вариационный байесовский вывод заменяет задачу вычисления апостериорного распределения задачей оптимизации в параметризованном семействе распределений. По сравнению с MCMC он обеспечивает существенно более высокую скорость вычислений ценой появления систематической ошибки аппроксимации.
Для масштабирования на большие наборы данных применяется стохастический вариационный вывод, использующий мини-пакеты данных и методы стохастической оптимизации.[1] Вариационный вывод широко используется в современных байесовских моделях, включая вариационные автоэнкодеры и байесовские нейронные сети.
Связь с другими подходами
Байесовский вывод имеет глубокие связи с методами машинного обучения, формально не позиционируемыми как байесовские.
- Регуляризация. Максимизация апостериорной вероятности (MAP) в модели линейной регрессии с гауссовым априорным распределением на веса
в точности эквивалентна минимизации суммы квадратов ошибок с L2-регуляризацией (гребневая регрессия). Лапласовское априорное распределение приводит к L1-регуляризации (Lasso), поощряющей разреженные решения. Таким образом, многие классические приёмы машинного обучения допускают байесовскую интерпретацию[1].
- Эмпирический байесовский подход (англ. empirical Bayes) оценивает параметры априорного распределения по самим данным, максимизируя маргинальное правдоподобие, и занимает промежуточное положение между частотной и полностью байесовской парадигмой.
- Частотный вывод получает точечные оценки (например, метод максимального правдоподобия) и доверительные интервалы; в пределе больших выборок, при слабых априорных предположениях, байесовские и частотные выводы часто сближаются в силу теоремы Бернштейна — фон Мизеса (англ. Bernstein–von Mises theorem).
Критика и ограничения
Основной предмет критики байесовского вывода — неизбежная субъективность выбора априорного распределения. В ответ разработаны методологии объективных байесовских априорных (Джеффриса, референсные априорные, англ. reference priors), однако в многомерных задачах их выбор неоднозначен[1].
Второе важное ограничение — вычислительная сложность. Несмотря на революцию MCMC и вариационных методов, полный байесовский анализ современных глубоких нейронных сетей с миллионами параметров остаётся дорогостоящим и часто заменяется точечными оценками с приближённой оценкой неопределённости. Активные исследования в области байесовского глубокого обучения (англ. Bayesian deep learning) направлены на преодоление этого разрыва, разрабатывая такие методы, как MC Dropout, стохастические веса и глубокая композиция случайных процессов[1].
Несмотря на эти вызовы, байесовский вывод продолжает оставаться «золотым стандартом» статистического рассуждения в условиях неопределённости, предоставляя как теоретическую основу для обучения, так и практически востребованные инструменты для анализа данных.
См. также
- Теорема Байеса
- Байесовская статистика
- Априорное распределение
- Сопряжённое априорное распределение
- Маргинальное правдоподобие
- Байесовский фактор
- Вариационный байесовский вывод
- Метод Монте-Карло в цепях Маркова
- Байесовская оптимизация
- Байесовская нейронная сеть
- Наивный байесовский классификатор
- Байесовская сеть
- Регуляризация
Примечания
Литература
- Gelman A., Carlin J. B., Stern H. S., Dunson D. B., Vehtari A., Rubin D. B. Bayesian Data Analysis. — 3rd ed. — CRC Press, 2013. — ISBN 978-1439840955.
- Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006. — ISBN 978-0387310732.
- Murphy K. P. Machine Learning: A Probabilistic Perspective. — MIT Press, 2012. — ISBN 978-0262018029.
- MacKay D. J. C. Information Theory, Inference, and Learning Algorithms. — Cambridge University Press, 2003. — ISBN 978-0521642989.
- Robert C. P. The Bayesian Choice. — 2nd ed. — Springer, 2007. — ISBN 978-0387715988.
- Bernardo J. M., Smith A. F. M. Bayesian Theory. — Wiley, 2009. — ISBN 978-0471494645.
- Kingma D. P., Welling M. Auto-Encoding Variational Bayes // International Conference on Learning Representations (ICLR). — 2014. — arXiv:1312.6114.
- Blundell C., Cornebise J., Kavukcuoglu K., Wierstra D. Weight Uncertainty in Neural Networks // International Conference on Machine Learning (ICML). — 2015. — arXiv:1505.05424.
- Hoffman M. D., Blei D. M., Wang C., Paisley J. Stochastic Variational Inference // Journal of Machine Learning Research. — 2013. — Vol. 14. — P. 1303–1347.
- Snoek J., Larochelle H., Adams R. P. Practical Bayesian Optimization of Machine Learning Algorithms // Advances in Neural Information Processing Systems (NIPS). — 2012. — arXiv:1206.2944.
- Gal Y., Ghahramani Z. Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning // International Conference on Machine Learning (ICML). — 2016. — arXiv:1506.02142.
- Garnelo M., Schwarz J., Rosenbaum D., Viola F., Rezende D. J. et al. Neural Processes // ICML Workshop on Theoretical Foundations and Applications of Deep Generative Models. — 2018. — arXiv:1807.01622.
- Wilson A. G., Izmailov P. Bayesian Deep Learning and a Probabilistic Perspective of Generalization // Advances in Neural Information Processing Systems (NeurIPS). — 2020. — arXiv:2002.08791.

