Байесовский вывод

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 28: Строка 28:
Это наглядно показывает, как данные последовательно «обновляют» наши представления.
Это наглядно показывает, как данные последовательно «обновляют» наши представления.
-
'''Байесовское оценивание и решающие правила '''
+
=== Байесовское оценивание и решающие правила ===
 +
 
В байесовском выводе оценкой параметра часто служат характеристики апостериорного распределения: [[Апостериорное математическое ожидание|апостериорное среднее]] (минимизирует квадратичную функцию потерь), [[Апостериорная мода|апостериорная мода]] (MAP-оценка, от англ. maximum a posteriori estimation, максимизирует произведение правдоподобия и априорного) или апостериорная медиана (минимизирует абсолютную функцию потерь). В отличие от единичной MAP-оценки, полный байесовский подход использует всё апостериорное распределение для принятия решений и формирования прогнозов, что позволяет автоматически учитывать неопределённость.
В байесовском выводе оценкой параметра часто служат характеристики апостериорного распределения: [[Апостериорное математическое ожидание|апостериорное среднее]] (минимизирует квадратичную функцию потерь), [[Апостериорная мода|апостериорная мода]] (MAP-оценка, от англ. maximum a posteriori estimation, максимизирует произведение правдоподобия и априорного) или апостериорная медиана (минимизирует абсолютную функцию потерь). В отличие от единичной MAP-оценки, полный байесовский подход использует всё апостериорное распределение для принятия решений и формирования прогнозов, что позволяет автоматически учитывать неопределённость.
Строка 43: Строка 44:
== Байесовский вывод в машинном обучении ==
== Байесовский вывод в машинном обучении ==
-
В машинном обучении байесовский подход обеспечивает единообразный вероятностный язык для формулировки и решения широкого спектра задач. Вместо поиска единственного «наилучшего» набора параметров, байесовские методы либо находят апостериорное распределение, либо приближают его. Это позволяет бороться с [[Переобучение|переобучением]], выдавать калиброванные вероятности и объединять разнородные источники информации.
 
-
=== Наивный байесовский классификатор ===
+
Байесовский вывод применяется в машинном обучении для построения вероятностных моделей, оценки неопределённости, выбора моделей и оптимизации. Современные методы различаются как по типу используемых моделей, так и по способам приближённого вычисления апостериорного распределения.
-
[[Наивный байесовский классификатор]] (англ. naïve Bayes classifier) — один из простейших и наиболее известных примеров. Он основан на «наивном» предположении об условной независимости признаков <tex>x_j</tex> при заданном классе <tex>C_k</tex>:
+
 
-
<tex>p(C_k \mid \mathbf{x}) \propto p(C_k) \prod_{j} p(x_j \mid C_k).</tex>
+
=== Вероятностные модели ===
-
Несмотря на грубость предположения, на практике такой классификатор часто работает хорошо, особенно в задачах [[Классификация текстов|классификации текстов]] и [[Фильтрация спама|фильтрации спама]], где важна скорость и интерпретируемость<ref>Murphy K. P. Machine Learning: A Probabilistic Perspective. — MIT Press, 2012. — Гл. 3.5.</ref>.
+
 
 +
[[Наивный байесовский классификатор]]
 +
 
 +
[[Байесовская сеть]]
 +
 
 +
[[Гауссовский процесс]]
 +
 
 +
[[Байесовская нейронная сеть]]
 +
 
 +
=== Методы приближённого вывода ===
-
=== Байесовские сети ===
+
[[Вариационный байесовский вывод]]
-
[[Байесовская сеть]] (англ. Bayesian network) — это направленный [[вероятностная графическая модель|графическая модель]] (англ. probabilistic graphical model), представляющая условные независимости между переменными с помощью [[Ориентированный ациклический граф|ориентированного ациклического графа]]. Узлы соответствуют случайным переменным, а дуги кодируют прямые вероятностные зависимости. Байесовские сети позволяют компактно описывать совместное распределение большого числа переменных и эффективно проводить вероятностный вывод (например, диагностику заболеваний по симптомам или прогнозирование в [[Экспертная система|экспертных системах]])<ref>Pearl J. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. — Morgan Kaufmann, 1988.</ref>.
+
-
=== Гауссовские процессы и байесовская оптимизация ===
+
[[Марковские цепи Монте-Карло]] (MCMC)
-
[[Гауссовский процесс]] (ГП, англ. Gaussian process) задаёт априорное распределение непосредственно в пространстве функций и широко используется для задач [[Регрессионный анализ|регрессии]] и [[Классификация|классификации]]. Апостериорный гауссовский процесс даёт не только предсказание среднего значения, но и аналитическую оценку неопределённости прогноза в каждой точке. Это свойство легло в основу [[Байесовская оптимизация|байесовской оптимизации]] (англ. Bayesian optimization) — эффективного метода глобальной оптимизации дорогостоящих «чёрных ящиков», например, для подбора [[Гиперпараметр (машинное обучение)|гиперпараметров]] нейронных сетей<ref>Snoek J., Larochelle H., Adams R. P. Practical Bayesian Optimization of Machine Learning Algorithms // Advances in Neural Information Processing Systems (NIPS). — 2012. — arXiv:1206.2944.</ref>. Байесовская оптимизация итеративно строит суррогатную гауссовскую модель целевой функции и выбирает следующие точки для проверки, максимизируя функцию приобретения (expected improvement, probability of improvement и др.), что позволяет находить оптимум за удивительно малое число итераций.
+
-
=== Байесовские нейронные сети ===
+
=== Приложения ===
-
В [[Байесовская нейронная сеть|байесовских нейронных сетях]] (англ. Bayesian neural networks) веса и смещения рассматриваются как случайные величины с априорным распределением (часто гауссовским), а обучение сводится к нахождению апостериорного распределения весов <tex>p(\mathbf{w} \mid \mathcal{D})</tex>. При прогнозировании выполняется усреднение по апостериорному ансамблю моделей, что естественно противостоит переобучению и позволяет оценивать [[Эпистемическая неопределённость|эпистемическую неопределённость]] (англ. epistemic uncertainty) предсказаний. Прямой расчёт апостериорного распределения в глубоких сетях невозможен, поэтому используют приближённые методы: вариационный вывод (Bayes by Backprop<ref name="blundell2015">Blundell C., Cornebise J., Kavukcuoglu K., Wierstra D. Weight Uncertainty in Neural Networks // International Conference on Machine Learning (ICML). — 2015. — arXiv:1505.05424.</ref>), [[MC Dropout]] (где применение Dropout во время тестирования аппроксимирует байесовское усреднение)<ref>Gal Y., Ghahramani Z. Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning // International Conference on Machine Learning (ICML). — 2016. — arXiv:1506.02142.</ref> или стохастические MCMC-методы. Актуальные исследования расширяют байесовское глубокое обучение на большие архитектуры и задачи, включая [[нейронные процессы]] (англ. neural processes)<ref name="garnelo2018">Garnelo M., Schwarz J., Rosenbaum D., Viola F., Rezende D. J., et al. Neural Processes // ICML Workshop on Theoretical Foundations and Applications of Deep Generative Models. — 2018. — arXiv:1807.01622.</ref>, объединяющие свойства гауссовских процессов и нейросетей.
+
-
=== Вариационный вывод и вариационные автоэнкодеры ===
+
[[Байесовская оптимизация]]
-
[[Вариационный байесовский вывод]] (англ. variational Bayesian inference, VI) превращает задачу нахождения апостериорного распределения в оптимизационную задачу. Вводится параметризованное семейство распределений <tex>q_\phi(\theta)</tex>, и параметры <tex>\phi</tex> оптимизируются так, чтобы минимизировать [[Расстояние Кульбака — Лейблера|KL-расстояние]] <tex>D_{KL}(q_\phi(\theta) \parallel p(\theta \mid \mathcal{D}))</tex>. Это эквивалентно максимизации вариационной нижней оценки (англ. evidence lower bound, ELBO):
+
-
<tex>\mathcal{L}(\phi) = \mathbb{E}_{q_\phi(\theta)}[\log p(\mathcal{D} \mid \theta)] - D_{KL}(q_\phi(\theta) \parallel p(\theta)).</tex>
+
-
Ярким примером применения VI в глубоком обучении служит [[Вариационный автоэнкодер|вариационный автоэнкодер]] (VAE, англ. variational autoencoder)<ref name="kingma2014"/>, который одновременно обучает генеративную модель <tex>p(\mathbf{x} \mid \mathbf{z})</tex> и аппроксимацию апостериорного распределения латентных переменных <tex>q(\mathbf{z} \mid \mathbf{x})</tex> с помощью нейронных сетей. VAE и его многочисленные модификации лежат в основе современных [[Генеративное глубокое обучение|генеративных моделей]] изображений, текста и молекул.
+
[[Вариационный автоэнкодер]]
== Вычислительные методы ==
== Вычислительные методы ==

Версия 15:09, 30 июня 2026

Содержание

Байе́совский вы́вод (англ. Bayesian inference) — метод статистического вывода, в котором теорема Байеса используется для пересмотра вероятности гипотезы по мере поступления новых свидетельств. Байесовский вывод составляет фундаментальную основу байесовской статистики и играет ключевую роль в современном машинном обучении, позволяя строить вероятностные модели, которые явно учитывают неопределённость параметров и прогнозов.

В машинном обучении байесовский вывод даёт стройный математический аппарат для решения задач обучения с учителем и без учителя, позволяя естественным образом объединять данные с экспертными знаниями, выполнять регуляризацию, осуществлять сравнение моделей (англ. model comparison) и выдавать не только точечные прогнозы, но и меры неопределённости, критически важные в ответственных приложениях — от медицинской диагностики до беспилотных автомобилей.

История

Корни байесовского вывода восходят к работе Томаса Байеса (1702–1761), опубликованной посмертно в 1763 году под редакцией Ричарда Прайса[1]. В этой работе был сформулирован частный случай теоремы, ныне носящей его имя. Независимо и в гораздо более общей форме теорему Байеса переоткрыл и систематически применил Пьер-Симон Лаплас в 1774 году, который использовал её для решения задач небесной механики, демографии и юриспруденции[1]. Лаплас заложил основы того, что сегодня называется байесовским выводом: он явно вводил равномерное априорное распределение (принцип недостаточного основания) и вычислял апостериорные вероятности.

На протяжении XIX и начала XX века байесовские идеи использовались многими учёными, однако к 1920‑м годам доминирующим стал частотный подход, развитый Рональдом Фишером, Ежи Нейманом и Эгоном Пирсоном, который критиковал субъективность выбора априорного распределения. Возрождение байесовского вывода началось в середине XX века благодаря работам Гарольда Джеффриса (объективное байесовское оценивание), Джимми Сэвиджа (аксиоматизация субъективной вероятностей) и Денниса Линдли. Мощный импульс развитию дало появление вычислительных методов MCMC (англ. Markov chain Monte Carlo) в 1980–1990‑х годах, которые сделали возможным численный расчёт апостериорных распределений для сложных многопараметрических моделей[1]. В XXI веке байесовский вывод стал одним из столпов машинного обучения, а новые приближённые методы, такие как вариационный байесовский вывод (англ. variational Bayesian inference), позволили масштабировать его на огромные наборы данных и глубокие нейронные сети[1].

Основная идея

В байесовском подходе параметры рассматриваются как случайные величины с заданным априорным распределением (англ. prior distribution), отражающим знания или предположения до наблюдения данных. После получения данных \mathcal{D} априорное распределение обновляется до апостериорного распределения (англ. posterior distribution) по формуле Байеса:

p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) \, p(\theta)}{p(\mathcal{D})},

где

  • p(\theta)Априорное распределение — отражает информацию о параметрах до наблюдения данных. Может быть информативным (выражающим реальные экспертные знания), слабоинформативным или объективным (например, равномерное распределение, априорное распределение Джеффриса).
  • p(\mathcal{D} \mid \theta)Функция правдоподобия — описывает вероятность получить наблюдаемые данные при фиксированном значении параметра. Является связующим звеном между моделью и данными.
  • p(\mathcal{D})Маргинальное правдоподобие — среднее значение правдоподобия по априорному распределению. Эта величина не зависит от \theta и используется для нормализации, а также для сравнения моделей (см. байесовский фактор).
  • p(\theta \mid \mathcal{D})Апостериорное распределение — итоговое представление о параметрах после учёта данных. Из него выводятся все байесовские оценки и прогнозы.
  • p(\tilde{x} \mid \mathcal{D}) = \int p(\tilde{x} \mid \theta) p(\theta \mid \mathcal{D}) d\thetaПрогностическое распределение (англ. posterior predictive distribution) — распределение будущих наблюдений, усреднённое по всей апостериорной неопределённости параметров.

Если априорное распределение выбрано из сопряжённого семейства (англ. conjugate prior) к функции правдоподобия, то апостериорное распределение принадлежит тому же семейству, и обновление параметров сводится к простым алгебраическим действиям.

Пример (подбрасывание монеты). Пусть результатами являются независимые бернуллиевские случайные величины с неизвестной вероятностью орла \theta \in [0,1]. Выберем априорное Бета-распределение \text{Beta}(\alpha, \beta). После наблюдения n бросков, в которых выпало h орлов, апостериорное распределение также будет бета-распределением: p(\theta \mid \mathcal{D}) = \text{Beta}(\alpha + h, \beta + n - h). Это наглядно показывает, как данные последовательно «обновляют» наши представления.

Байесовское оценивание и решающие правила

В байесовском выводе оценкой параметра часто служат характеристики апостериорного распределения: апостериорное среднее (минимизирует квадратичную функцию потерь), апостериорная мода (MAP-оценка, от англ. maximum a posteriori estimation, максимизирует произведение правдоподобия и априорного) или апостериорная медиана (минимизирует абсолютную функцию потерь). В отличие от единичной MAP-оценки, полный байесовский подход использует всё апостериорное распределение для принятия решений и формирования прогнозов, что позволяет автоматически учитывать неопределённость.

Байесовский вывод в статистике

В классической статистике байесовский вывод предлагает альтернативный взгляд на задачи оценивания, проверки гипотез и сравнения моделей.

Интервальное оценивание

Вместо доверительного интервала (частотного) байесовский подход оперирует надёжным интервалом (англ. credible interval). Надёжный интервал уровня (1 - \alpha) — это такой интервал [a,b], что вероятность попадания параметра в него по апостериорному распределению равна 1 - \alpha: P(a \le \theta \le b \mid \mathcal{D}) = 1 - \alpha. Эта интерпретация непосредственно соответствует интуитивному пониманию «интервала неопределённости» и не требует ссылок на гипотетические повторные выборки.

Проверка гипотез и байесовский фактор

Сравнение двух конкурирующих моделей M_1 и M_2 проводится с помощью байесовского фактора (англ. Bayes factor): B_{12} = \frac{p(\mathcal{D} \mid M_1)}{p(\mathcal{D} \mid M_2)}. Байесовский фактор показывает, во сколько раз данные более вероятны при одной модели по сравнению с другой, и автоматически включает штраф за сложность модели (см. Бритва Оккама). Например, при сравнении полиномиальных регрессий разной степени байесовский фактор часто отдаёт предпочтение более простой модели, если усложнение не приводит к существенному росту правдоподобия[1].

Байесовский вывод в машинном обучении

Байесовский вывод применяется в машинном обучении для построения вероятностных моделей, оценки неопределённости, выбора моделей и оптимизации. Современные методы различаются как по типу используемых моделей, так и по способам приближённого вычисления апостериорного распределения.

Вероятностные модели

Наивный байесовский классификатор

Байесовская сеть

Гауссовский процесс

Байесовская нейронная сеть

Методы приближённого вывода

Вариационный байесовский вывод

Марковские цепи Монте-Карло (MCMC)

Приложения

Байесовская оптимизация

Вариационный автоэнкодер

Вычислительные методы

Главным вычислительным вызовом байесовского вывода является необходимость вычислять многомерные интегралы — маргинальное правдоподобие, прогностические распределения, апостериорные моменты. Для этой цели разработано два магистральных класса методов.

Методы Монте-Карло в цепях Маркова (MCMC)

Семейство MCMC-методов (англ. Markov chain Monte Carlo) строит марковскую цепь, стационарное распределение которой совпадает с искомым апостериорным распределением p(\theta \mid \mathcal{D}). Наиболее известны алгоритм Метрополиса — Гастингса и семплирование Гиббса (англ. Gibbs sampling). Современные версии, такие как гамильтонов Монте-Карло (HMC) и No-U-Turn Sampler (NUTS), эффективно исследуют сложные многомерные распределения и реализованы в вероятностных языках программирования Stan и PyMC[1]. MCMC обеспечивает асимптотически точные результаты, но может требовать значительных вычислительных ресурсов для «больших данных».

Вариационный вывод и масштабируемые приближения

Вариационный вывод, описанный выше, жертвует асимптотической точностью в пользу скорости и масштабируемости. Стохастический вариационный вывод (англ. stochastic variational inference, SVI) использует мини-пакеты данных и методы стохастического градиентного спуска, что позволяет применять байесовские модели к наборам данных из миллионов наблюдений[1]. Комбинация вариационного вывода с ренормализационными трюками (англ. reparameterization trick) лежит в основе VAE и масштабируемых байесовских нейронных сетей.

Связь с другими подходами

Байесовский вывод имеет глубокие связи с методами машинного обучения, формально не позиционируемыми как байесовские.

  • Регуляризация. Максимизация апостериорной вероятности (MAP) в модели линейной регрессии с гауссовым априорным распределением на веса p(\mathbf{w}) = \mathcal{N}(0, \lambda^{-1} \mathbf{I}) в точности эквивалентна минимизации суммы квадратов ошибок с L2-регуляризацией (гребневая регрессия). Лапласовское априорное распределение приводит к L1-регуляризации (Lasso), поощряющей разреженные решения. Таким образом, многие классические приёмы машинного обучения допускают байесовскую интерпретацию[1].
  • Эмпирический байесовский подход (англ. empirical Bayes) оценивает параметры априорного распределения по самим данным, максимизируя маргинальное правдоподобие, и занимает промежуточное положение между частотной и полностью байесовской парадигмой.
  • Частотный вывод получает точечные оценки (например, метод максимального правдоподобия) и доверительные интервалы; в пределе больших выборок, при слабых априорных предположениях, байесовские и частотные выводы часто сближаются в силу теоремы Бернштейна — фон Мизеса (англ. Bernstein–von Mises theorem).

Критика и ограничения

Основной предмет критики байесовского вывода — неизбежная субъективность выбора априорного распределения. В ответ разработаны методологии объективных байесовских априорных (Джеффриса, референсные априорные, англ. reference priors), однако в многомерных задачах их выбор неоднозначен[1].

Второе важное ограничение — вычислительная сложность. Несмотря на революцию MCMC и вариационных методов, полный байесовский анализ современных глубоких нейронных сетей с миллионами параметров остаётся дорогостоящим и часто заменяется точечными оценками с приближённой оценкой неопределённости. Активные исследования в области байесовского глубокого обучения (англ. Bayesian deep learning) направлены на преодоление этого разрыва, разрабатывая такие методы, как MC Dropout, стохастические веса и глубокая композиция случайных процессов[1].

Несмотря на эти вызовы, байесовский вывод продолжает оставаться «золотым стандартом» статистического рассуждения в условиях неопределённости, предоставляя как теоретическую основу для обучения, так и практически востребованные инструменты для анализа данных.

См. также

Примечания

Литература

  • Gelman A., Carlin J. B., Stern H. S., Dunson D. B., Vehtari A., Rubin D. B. Bayesian Data Analysis. — 3rd ed. — CRC Press, 2013. — ISBN 978-1439840955.
  • Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006. — ISBN 978-0387310732.
  • Murphy K. P. Machine Learning: A Probabilistic Perspective. — MIT Press, 2012. — ISBN 978-0262018029.
  • MacKay D. J. C. Information Theory, Inference, and Learning Algorithms. — Cambridge University Press, 2003. — ISBN 978-0521642989.
  • Robert C. P. The Bayesian Choice. — 2nd ed. — Springer, 2007. — ISBN 978-0387715988.
  • Bernardo J. M., Smith A. F. M. Bayesian Theory. — Wiley, 2009. — ISBN 978-0471494645.
  • Kingma D. P., Welling M. Auto-Encoding Variational Bayes // International Conference on Learning Representations (ICLR). — 2014. — arXiv:1312.6114.
  • Blundell C., Cornebise J., Kavukcuoglu K., Wierstra D. Weight Uncertainty in Neural Networks // International Conference on Machine Learning (ICML). — 2015. — arXiv:1505.05424.
  • Hoffman M. D., Blei D. M., Wang C., Paisley J. Stochastic Variational Inference // Journal of Machine Learning Research. — 2013. — Vol. 14. — P. 1303–1347.
  • Snoek J., Larochelle H., Adams R. P. Practical Bayesian Optimization of Machine Learning Algorithms // Advances in Neural Information Processing Systems (NIPS). — 2012. — arXiv:1206.2944.
  • Gal Y., Ghahramani Z. Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning // International Conference on Machine Learning (ICML). — 2016. — arXiv:1506.02142.
  • Garnelo M., Schwarz J., Rosenbaum D., Viola F., Rezende D. J. et al. Neural Processes // ICML Workshop on Theoretical Foundations and Applications of Deep Generative Models. — 2018. — arXiv:1807.01622.
  • Wilson A. G., Izmailov P. Bayesian Deep Learning and a Probabilistic Perspective of Generalization // Advances in Neural Information Processing Systems (NeurIPS). — 2020. — arXiv:2002.08791.
Личные инструменты