Байесовский вывод
Материал из MachineLearning.
| (5 промежуточных версий не показаны.) | |||
| Строка 1: | Строка 1: | ||
| - | {{well|Статья написана с использованием LLM '''DeepSeek-V4''' и проверена участником [[Участник:Dan-Кhaiaa Lakpazhap | + | {{well|Статья написана с использованием LLM '''DeepSeek-V4''' и проверена участником [[Участник:Dan-Кhaiaa Lakpazhap]] 18:29, 30 июня 2026 (MSD). |
| - | ]] | + | Промпт приводится полностью в [[Обсуждение:Байесовский вывод]]. |
| - | Промпт приводится полностью в [[Обсуждение: | + | |
}} | }} | ||
{{TOCright}} | {{TOCright}} | ||
| - | '''Байе́совский вы́вод''' (англ. Bayesian inference) — метод [[Статистический вывод|статистического вывода]], в котором [[теорема Байеса]] используется для пересмотра вероятности гипотезы по мере поступления новых свидетельств. Байесовский вывод составляет фундаментальную основу [[Байесовская статистика|байесовской статистики]] и играет ключевую роль в современном [[Машинное обучение|машинном обучении]], позволяя строить вероятностные модели, которые явно учитывают неопределённость параметров и прогнозов. | + | '''Байе́совский вы́вод''' (англ. ''Bayesian inference'') — метод [[Статистический вывод|статистического вывода]], в котором [[теорема Байеса]] используется для пересмотра вероятности гипотезы по мере поступления новых свидетельств. Байесовский вывод составляет фундаментальную основу [[Байесовская статистика|байесовской статистики]] и играет ключевую роль в современном [[Машинное обучение|машинном обучении]], позволяя строить вероятностные модели, которые явно учитывают неопределённость параметров и прогнозов. |
| - | В машинном обучении байесовский вывод даёт стройный математический аппарат для решения задач [[Обучение с учителем|обучения с учителем]] и [[Обучение без учителя|без учителя]], позволяя естественным образом объединять данные с экспертными знаниями, выполнять [[Регуляризация (математика)|регуляризацию]], | + | В машинном обучении байесовский вывод даёт стройный математический аппарат для решения задач [[Обучение с учителем|обучения с учителем]] и [[Обучение без учителя|без учителя]], позволяя естественным образом объединять данные с экспертными знаниями, выполнять [[Регуляризация (математика)|регуляризацию]], проводить сравнение моделей (англ. ''model comparison'') с помощью [[Байесовский фактор|байесовского фактора]] и выдавать не только точечные прогнозы, но и меры неопределённости, критически важные в ответственных приложениях — от [[Медицинская диагностика|медицинской диагностики]] до [[Беспилотный автомобиль|беспилотных автомобилей]]. |
== История == | == История == | ||
| - | Корни байесовского вывода восходят к работе [[Байес, Томас|Томаса Байеса]] ( | + | Корни байесовского вывода восходят к работе [[Байес, Томас|Томаса Байеса]] (1702—1761), опубликованной посмертно в 1763 году под редакцией Ричарда Прайса<ref name="bayes1763">{{статья |автор=Bayes T. |заглавие=An Essay towards solving a Problem in the Doctrine of Chances |издание=Philosophical Transactions of the Royal Society of London |год=1763 |том=53 |страницы=370—418}}</ref>. В этой работе был сформулирован частный случай теоремы, ныне носящей его имя. Независимо и в гораздо более общей форме теорему Байеса переоткрыл и систематически применил [[Лаплас, Пьер-Симон|Пьер-Симон Лаплас]] в 1774 году, использовавший её для решения задач небесной механики, демографии и юриспруденции<ref name="laplace1774">{{статья |автор=Laplace P. S. |заглавие=Mémoire sur la probabilité des causes par les événements |издание=Mémoires de l’Académie royale des Sciences de Paris (Savants étrangers) |год=1774 |том=6 |страницы=621—656}}</ref>. Лаплас заложил основы того, что сегодня называется байесовским выводом: он явно вводил равномерное априорное распределение (принцип недостаточного основания) и вычислял апостериорные вероятности. |
| - | На протяжении XIX и начала XX века байесовские идеи использовались многими учёными, однако к 1920‑м годам доминирующим стал [[Частотная вероятность|частотный подход]], развитый [[Фишер, Роналд Эйлмер|Рональдом Фишером]], [[Нейман, Ежи|Ежи Нейманом]] и [[Пирсон, Эгон Шарп|Эгоном Пирсоном]], | + | На протяжении XIX и начала XX века байесовские идеи использовались многими учёными, однако к 1920‑м годам доминирующим стал [[Частотная вероятность|частотный подход]], развитый [[Фишер, Роналд Эйлмер|Рональдом Фишером]], [[Нейман, Ежи|Ежи Нейманом]] и [[Пирсон, Эгон Шарп|Эгоном Пирсоном]], критиковавшими субъективность выбора априорного распределения. Возрождение байесовского вывода началось в середине XX века благодаря работам [[Джеффрис, Гарольд|Гарольда Джеффриса]] (объективное байесовское оценивание), [[Сэвидж, Леонард Джимми|Джимми Сэвиджа]] (аксиоматизация субъективной вероятности) и [[Линдли, Деннис Виктор|Денниса Линдли]]. Мощный импульс развитию дало появление вычислительных методов [[Метод Монте-Карло в цепях Маркова|MCMC]] (англ. ''Markov chain Monte Carlo'') в 1980—1990‑х годах, сделавших возможным численный расчёт апостериорных распределений для сложных многопараметрических моделей<ref name="gelfand1990">{{статья |автор=Gelfand A. E., Smith A. F. M. |заглавие=Sampling-Based Approaches to Calculating Marginal Densities |издание=Journal of the American Statistical Association |год=1990 |том=85 |номер=410 |страницы=398—409}}</ref>. В XXI веке байесовский вывод стал одним из столпов машинного обучения, а новые приближённые методы, такие как [[вариационный байесовский вывод]] (англ. ''variational Bayesian inference''), позволили масштабировать его на огромные наборы данных и [[глубокая нейронная сеть|глубокие нейронные сети]]<ref name="kingma2014">{{статья |автор=Kingma D. P., Welling M. |заглавие=Auto-Encoding Variational Bayes |издание=International Conference on Learning Representations (ICLR) |год=2014 |ссылка=https://arxiv.org/abs/1312.6114}}</ref>. |
== Основная идея == | == Основная идея == | ||
| - | В байесовском подходе параметры рассматриваются как [[Случайная величина|случайные величины]] с заданным [[Априорное распределение|априорным распределением]] (англ. prior distribution), отражающим знания или предположения до наблюдения данных. После получения данных <tex>\mathcal{D}</tex> априорное распределение обновляется до [[Апостериорное распределение|апостериорного распределения]] (англ. posterior distribution) по формуле Байеса: | + | В байесовском подходе параметры рассматриваются как [[Случайная величина|случайные величины]] с заданным [[Априорное распределение|априорным распределением]] (англ. ''prior distribution''), отражающим знания или предположения до наблюдения данных. После получения данных <tex>\mathcal{D}</tex> априорное распределение обновляется до [[Апостериорное распределение|апостериорного распределения]] (англ. ''posterior distribution'') по формуле Байеса: |
<tex>p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) \, p(\theta)}{p(\mathcal{D})},</tex> | <tex>p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) \, p(\theta)}{p(\mathcal{D})},</tex> | ||
| - | где | + | где: |
| - | * <tex>p(\theta)</tex> — '' | + | * <tex>p(\theta)</tex> — ''априорное распределение'' — отражает информацию о параметрах до наблюдения данных. Может быть информативным (выражающим реальные экспертные знания), слабоинформативным или объективным (например, равномерное распределение, [[априорное распределение Джеффриса]]). |
| - | * <tex>p(\mathcal{D} \mid \theta)</tex> — '' | + | * <tex>p(\mathcal{D} \mid \theta)</tex> — ''функция правдоподобия'' — описывает вероятность получить наблюдаемые данные при фиксированном значении параметра, являясь связующим звеном между моделью и данными. |
| - | * <tex>p(\mathcal{D})</tex> — '' | + | * <tex>p(\mathcal{D}) = \int p(\mathcal{D} \mid \theta) p(\theta) d\theta</tex> — ''маргинальное правдоподобие'' (англ. ''marginal likelihood'', или ''evidence'') — среднее значение правдоподобия по априорному распределению. Эта величина не зависит от <tex>\theta</tex> и используется для нормализации, а также для сравнения моделей (см. [[байесовский фактор]]). |
| - | * <tex>p(\theta \mid \mathcal{D})</tex> — '' | + | * <tex>p(\theta \mid \mathcal{D})</tex> — ''апостериорное распределение'' — итоговое представление о параметрах после учёта данных. Из него выводятся все байесовские оценки и прогнозы. |
| - | + | ||
| - | Если априорное распределение выбрано из [[Сопряжённое априорное распределение|сопряжённого семейства]] (англ. conjugate prior) к функции правдоподобия, то апостериорное распределение принадлежит тому же семейству, и обновление параметров сводится к простым алгебраическим действиям. | + | Прогноз для новых наблюдений <tex>\tilde{x}</tex> вычисляется через ''прогностическое распределение'' (англ. ''posterior predictive distribution''): |
| + | |||
| + | <tex>p(\tilde{x} \mid \mathcal{D}) = \int p(\tilde{x} \mid \theta) \, p(\theta \mid \mathcal{D}) \, d\theta,</tex> | ||
| + | |||
| + | которое в отличие от подстановки точечной оценки автоматически усредняет неопределённость по всем правдоподобным значениям параметров. | ||
| + | |||
| + | Если априорное распределение выбрано из [[Сопряжённое априорное распределение|сопряжённого семейства]] (англ. ''conjugate prior'') к функции правдоподобия, то апостериорное распределение принадлежит тому же семейству, и обновление параметров сводится к простым алгебраическим действиям. | ||
| + | |||
| + | ''Пример (подбрасывание монеты).'' Пусть результатами являются независимые [[Распределение Бернулли|бернуллиевские]] случайные величины с неизвестной вероятностью орла <tex>\theta \in [0,1]</tex>. Выберем априорное [[Бета-распределение]] <tex>\mathrm{Beta}(\alpha, \beta)</tex>. После наблюдения <tex>n</tex> бросков, в которых выпало <tex>h</tex> орлов, апостериорное распределение также будет бета-распределением: | ||
| + | |||
| + | <tex>p(\theta \mid \mathcal{D}) = \mathrm{Beta}(\alpha + h, \beta + n - h).</tex> | ||
| - | |||
| - | |||
Это наглядно показывает, как данные последовательно «обновляют» наши представления. | Это наглядно показывает, как данные последовательно «обновляют» наши представления. | ||
=== Байесовское оценивание и решающие правила === | === Байесовское оценивание и решающие правила === | ||
| - | В байесовском выводе оценкой параметра часто служат характеристики апостериорного распределения: | + | В байесовском выводе оценкой параметра часто служат характеристики апостериорного распределения: апостериорное среднее (минимизирует квадратичную функцию потерь), [[Максимум апостериорной вероятности|MAP-оценка]] (англ. ''maximum a posteriori estimation'') — точка максимума апостериорной плотности, или апостериорная медиана (минимизирует абсолютную функцию потерь). В отличие от единичной MAP-оценки, полный байесовский подход использует всё апостериорное распределение для принятия решений и формирования прогнозов, что позволяет автоматически учитывать неопределённость. |
== Байесовский вывод в статистике == | == Байесовский вывод в статистике == | ||
| Строка 40: | Строка 46: | ||
=== Интервальное оценивание === | === Интервальное оценивание === | ||
| - | Вместо [[Доверительный интервал|доверительного интервала]] | + | Вместо частотного [[Доверительный интервал|доверительного интервала]] байесовский подход оперирует ''байесовским доверительным интервалом'', или ''надёжным интервалом'' (англ. ''credible interval''). Интервал уровня <tex>(1 - \alpha)</tex> — это такой <tex>[a,b]</tex>, что вероятность попадания параметра в него по апостериорному распределению равна <tex>1 - \alpha</tex>: |
| + | |||
| + | <tex>P(a \le \theta \le b \mid \mathcal{D}) = 1 - \alpha.</tex> | ||
| + | |||
| + | Эта интерпретация непосредственно соответствует интуитивному пониманию «интервала неопределённости» и не требует ссылок на гипотетические повторные выборки. | ||
=== Проверка гипотез и байесовский фактор === | === Проверка гипотез и байесовский фактор === | ||
| - | Сравнение двух конкурирующих моделей <tex>M_1</tex> и <tex>M_2</tex> проводится с помощью [[Байесовский фактор|байесовского фактора]] (англ. Bayes factor): | + | Сравнение двух конкурирующих моделей <tex>M_1</tex> и <tex>M_2</tex> проводится с помощью [[Байесовский фактор|байесовского фактора]] (англ. ''Bayes factor''): |
| + | |||
<tex>B_{12} = \frac{p(\mathcal{D} \mid M_1)}{p(\mathcal{D} \mid M_2)}.</tex> | <tex>B_{12} = \frac{p(\mathcal{D} \mid M_1)}{p(\mathcal{D} \mid M_2)}.</tex> | ||
| - | Байесовский фактор показывает, во сколько раз данные более вероятны при одной модели по сравнению с другой, и автоматически включает штраф за сложность модели (см. [[Бритва Оккама]]). Например, при сравнении полиномиальных регрессий разной степени байесовский фактор часто отдаёт предпочтение более простой модели, если усложнение не приводит к существенному росту правдоподобия<ref>Kass R. E., Raftery A. E. Bayes Factors | + | |
| + | Байесовский фактор показывает, во сколько раз данные более вероятны при одной модели по сравнению с другой, и автоматически включает штраф за сложность модели (см. [[Бритва Оккама]]). Например, при сравнении полиномиальных регрессий разной степени байесовский фактор часто отдаёт предпочтение более простой модели, если усложнение не приводит к существенному росту правдоподобия<ref name="kass1995">{{статья |автор=Kass R. E., Raftery A. E. |заглавие=Bayes Factors |издание=Journal of the American Statistical Association |год=1995 |том=90 |номер=430 |страницы=773—795}}</ref>. | ||
== Байесовский вывод в машинном обучении == | == Байесовский вывод в машинном обучении == | ||
| - | Байесовский вывод применяется в машинном обучении для построения вероятностных моделей, оценки неопределённости, выбора моделей и оптимизации. Современные методы различаются как по типу используемых моделей, так и по способам приближённого вычисления апостериорного распределения. | + | Байесовский вывод применяется в машинном обучении для построения вероятностных моделей, оценки неопределённости, выбора моделей и оптимизации [[гиперпараметр|гиперпараметров]]. Современные методы различаются как по типу используемых моделей, так и по способам приближённого вычисления апостериорного распределения. |
=== Вероятностные модели === | === Вероятностные модели === | ||
| - | + | * [[Наивный байесовский классификатор]] — простая, но эффективная модель классификации, основанная на предположении условной независимости признаков. | |
| - | [[Наивный байесовский классификатор]] | + | * [[Байесовская сеть]] — направленное графическое представление совместного распределения большого числа переменных. |
| - | + | * [[Гауссовский процесс]] — непараметрическое байесовское распределение над функциями, применяемое в регрессии и [[Байесовская оптимизация|байесовской оптимизации]]. | |
| - | [[Байесовская сеть]] | + | * [[Байесовская нейронная сеть]] — нейронная сеть, веса которой рассматриваются как случайные величины с апостериорным распределением. |
| - | + | ||
| - | [[Гауссовский процесс]] | + | |
| - | + | ||
| - | [[Байесовская нейронная сеть]] | + | |
=== Методы приближённого вывода === | === Методы приближённого вывода === | ||
| - | + | * [[Метод Монте-Карло в цепях Маркова]] (MCMC). | |
| - | + | * [[Вариационный байесовский вывод]]. | |
| - | + | ||
| - | [[ | + | |
=== Приложения === | === Приложения === | ||
| - | + | * [[Байесовская оптимизация]] — поиск экстремума дорогостоящих функций (в частности, подбор гиперпараметров алгоритмов машинного обучения). | |
| - | [[Байесовская оптимизация]] | + | * [[Вариационный автокодировщик]] — генеративная модель, объединяющая идеи вариационного вывода и глубокого обучения<ref name="kingma2014" />. |
| - | + | ||
| - | [[Вариационный | + | |
== Вычислительные методы == | == Вычислительные методы == | ||
| - | В общем случае вычисление [[апостериорное распределение|апостериорного распределения]], [[маргинальное правдоподобие|маргинального правдоподобия]] и | + | В общем случае вычисление [[апостериорное распределение|апостериорного распределения]], [[маргинальное правдоподобие|маргинального правдоподобия]] и прогностического распределения требует вычисления многомерных интегралов, не имеющих, как правило, аналитического решения. Для приближённого байесовского вывода применяются два основных класса методов: методы Монте-Карло в цепях Маркова и вариационный вывод. |
=== Методы Монте-Карло в цепях Маркова === | === Методы Монте-Карло в цепях Маркова === | ||
| - | [[Метод Монте-Карло в цепях Маркова|Методы Монте-Карло в цепях Маркова]] ( | + | [[Метод Монте-Карло в цепях Маркова|Методы Монте-Карло в цепях Маркова]] (англ. ''Markov chain Monte Carlo'', MCMC) строят [[Цепь Маркова|марковскую цепь]], стационарное распределение которой совпадает с целевым апостериорным распределением <tex>p(\theta \mid \mathcal{D})</tex>. После достижения стационарности выборка из цепи используется для оценки математических ожиданий, квантилей и прогностических распределений. |
| - | К наиболее распространённым алгоритмам относятся [[алгоритм Метрополиса — Гастингса]], [[ | + | К наиболее распространённым алгоритмам относятся [[алгоритм Метрополиса — Гастингса]], [[сэмплирование по Гиббсу]], [[Гамильтонов метод Монте-Карло|гамильтонов метод Монте-Карло]] (HMC) и алгоритм No-U-Turn Sampler (NUTS). Последние два особенно эффективны для многомерных моделей и реализованы в вероятностных языках программирования [[Stan]] и [[PyMC]]<ref name="hoffman2014">{{статья |автор=Hoffman M. D., Gelman A. |заглавие=The No-U-Turn Sampler: Adaptively Setting Path Lengths in Hamiltonian Monte Carlo |издание=Journal of Machine Learning Research |год=2014 |том=15 |страницы=1593—1623 |ссылка=https://jmlr.org/papers/v15/hoffman14a.html}}</ref>. |
| - | MCMC-методы асимптотически сходятся к точному апостериорному распределению, однако их вычислительная стоимость может быть высокой для моделей с большим числом параметров или объёмом данных. | + | MCMC-методы асимптотически сходятся к точному апостериорному распределению, однако их вычислительная стоимость может быть высокой для моделей с большим числом параметров или большим объёмом данных. |
=== Вариационный вывод === | === Вариационный вывод === | ||
| - | [[Вариационный байесовский вывод]] заменяет задачу вычисления апостериорного распределения задачей оптимизации в параметризованном семействе распределений. По сравнению с MCMC он обеспечивает существенно более высокую скорость вычислений ценой появления систематической ошибки аппроксимации. | + | [[Вариационный байесовский вывод]] заменяет задачу вычисления апостериорного распределения задачей оптимизации в параметризованном семействе распределений <tex>q_\phi(\theta)</tex>, минимизируя [[Расстояние Кульбака — Лейблера|расстояние Кульбака — Лейблера]] <tex>\mathrm{KL}(q_\phi(\theta) \,\|\, p(\theta \mid \mathcal{D}))</tex>. По сравнению с MCMC он обеспечивает существенно более высокую скорость вычислений ценой появления систематической ошибки аппроксимации. |
| - | Для масштабирования на большие наборы данных применяется | + | Для масштабирования на большие наборы данных применяется стохастический вариационный вывод (англ. ''stochastic variational inference''), использующий мини-пакеты данных и методы [[Стохастический градиентный спуск|стохастической оптимизации]]<ref name="hoffman2013">{{статья |автор=Hoffman M. D., Blei D. M., Wang C., Paisley J. |заглавие=Stochastic Variational Inference |издание=Journal of Machine Learning Research |год=2013 |том=14 |страницы=1303—1347 |ссылка=https://jmlr.org/papers/v14/hoffman13a.html}}</ref>. Вариационный вывод широко используется в современных байесовских моделях, включая [[вариационный автокодировщик|вариационные автокодировщики]] и [[байесовская нейронная сеть|байесовские нейронные сети]]. |
== Связь с другими подходами == | == Связь с другими подходами == | ||
Байесовский вывод имеет глубокие связи с методами машинного обучения, формально не позиционируемыми как байесовские. | Байесовский вывод имеет глубокие связи с методами машинного обучения, формально не позиционируемыми как байесовские. | ||
| - | * '''Регуляризация'''. Максимизация апостериорной вероятности (MAP) в модели линейной регрессии с гауссовым априорным распределением на веса <tex>p(\mathbf{w}) = \mathcal{N}(0, \lambda^{-1} \mathbf{I})</tex> в точности эквивалентна минимизации суммы квадратов ошибок с | + | * '''Регуляризация'''. Максимизация апостериорной вероятности (MAP) в модели линейной регрессии с гауссовым априорным распределением на веса <tex>p(\mathbf{w}) = \mathcal{N}(0, \lambda^{-1} \mathbf{I})</tex> в точности эквивалентна минимизации суммы квадратов ошибок с <tex>L_2</tex>-регуляризацией ([[гребневая регрессия]]). Лапласовское априорное распределение приводит к [[Лассо (статистика)|<tex>L_1</tex>-регуляризации]] (Lasso), поощряющей разреженные решения. Таким образом, многие классические приёмы машинного обучения допускают байесовскую интерпретацию<ref name="bishop2006">{{книга |автор=Bishop C. M. |заглавие=Pattern Recognition and Machine Learning |издательство=Springer |год=2006 |isbn=978-0387310732}}</ref>. |
| - | * '''Эмпирический байесовский подход''' (англ. empirical Bayes) оценивает параметры априорного распределения по самим данным, максимизируя маргинальное правдоподобие, и занимает промежуточное положение между частотной и полностью байесовской | + | * '''Эмпирический байесовский подход''' (англ. ''empirical Bayes'') оценивает параметры априорного распределения по самим данным, максимизируя маргинальное правдоподобие, и занимает промежуточное положение между частотной и полностью байесовской парадигмами. |
| - | * '''Частотный вывод''' получает точечные оценки (например, [[метод максимального правдоподобия]]) и доверительные интервалы; в пределе больших выборок, при слабых априорных предположениях, байесовские и частотные выводы часто сближаются в силу [[Теорема Бернштейна — фон Мизеса|теоремы Бернштейна — фон Мизеса]] (англ. | + | * '''Частотный вывод''' получает точечные оценки (например, [[метод максимального правдоподобия]]) и доверительные интервалы; в пределе больших выборок, при слабых априорных предположениях, байесовские и частотные выводы часто сближаются в силу [[Теорема Бернштейна — фон Мизеса|теоремы Бернштейна — фон Мизеса]] (англ. ''Bernstein—von Mises theorem''). |
== Критика и ограничения == | == Критика и ограничения == | ||
| - | Основной предмет критики байесовского вывода — неизбежная субъективность выбора априорного распределения. В ответ разработаны методологии объективных байесовских априорных (Джеффриса, референсные априорные, англ. reference priors), однако в многомерных задачах их выбор неоднозначен<ref>Bernardo J. M., Smith A. F. M. Bayesian Theory | + | Основной предмет критики байесовского вывода — неизбежная субъективность выбора априорного распределения. В ответ разработаны методологии объективных байесовских априорных (Джеффриса, референсные априорные, англ. ''reference priors''), однако в многомерных задачах их выбор неоднозначен<ref name="bernardo2009">{{книга |автор=Bernardo J. M., Smith A. F. M. |заглавие=Bayesian Theory |издательство=Wiley |год=2009 |isbn=978-0471494645}}</ref>. |
| - | Второе важное ограничение — вычислительная сложность. Несмотря на революцию MCMC и вариационных методов, полный байесовский анализ современных глубоких нейронных сетей с миллионами параметров остаётся дорогостоящим и часто заменяется точечными оценками с приближённой оценкой неопределённости. Активные исследования в области | + | Второе важное ограничение — вычислительная сложность. Несмотря на революцию MCMC и вариационных методов, полный байесовский анализ современных глубоких нейронных сетей с миллионами параметров остаётся дорогостоящим и часто заменяется точечными оценками с приближённой оценкой неопределённости. Активные исследования в области байесовского глубокого обучения (англ. ''Bayesian deep learning'') направлены на преодоление этого разрыва, разрабатывая такие методы, как MC Dropout, стохастические веса и глубокие [[Гауссовский процесс|гауссовские процессы]]<ref name="wilson2020">{{статья |автор=Wilson A. G., Izmailov P. |заглавие=Bayesian Deep Learning and a Probabilistic Perspective of Generalization |издание=Advances in Neural Information Processing Systems (NeurIPS) |год=2020 |ссылка=https://arxiv.org/abs/2002.08791}}</ref>. |
Несмотря на эти вызовы, байесовский вывод продолжает оставаться «золотым стандартом» статистического рассуждения в условиях неопределённости, предоставляя как теоретическую основу для обучения, так и практически востребованные инструменты для анализа данных. | Несмотря на эти вызовы, байесовский вывод продолжает оставаться «золотым стандартом» статистического рассуждения в условиях неопределённости, предоставляя как теоретическую основу для обучения, так и практически востребованные инструменты для анализа данных. | ||
| Строка 118: | Строка 122: | ||
* [[Наивный байесовский классификатор]] | * [[Наивный байесовский классификатор]] | ||
* [[Байесовская сеть]] | * [[Байесовская сеть]] | ||
| - | * [[Регуляризация]] | + | * [[Регуляризация (математика)|Регуляризация]] |
== Примечания == | == Примечания == | ||
| Строка 125: | Строка 129: | ||
== Литература == | == Литература == | ||
| - | * {{книга | + | * {{книга |автор=Gelman A., Carlin J. B., Stern H. S., Dunson D. B., Vehtari A., Rubin D. B. |заглавие=Bayesian Data Analysis |издание=3rd ed. |издательство=CRC Press |год=2013 |isbn=978-1439840955}} |
| - | + | * {{книга |автор=Bishop C. M. |заглавие=Pattern Recognition and Machine Learning |издательство=Springer |год=2006 |isbn=978-0387310732}} | |
| - | + | * {{книга |автор=Murphy K. P. |заглавие=Machine Learning: A Probabilistic Perspective |издательство=MIT Press |год=2012 |isbn=978-0262018029}} | |
| - | + | * {{книга |автор=MacKay D. J. C. |заглавие=Information Theory, Inference, and Learning Algorithms |издательство=Cambridge University Press |год=2003 |isbn=978-0521642989}} | |
| - | + | * {{книга |автор=Robert C. P. |заглавие=The Bayesian Choice |издание=2nd ed. |издательство=Springer |год=2007 |isbn=978-0387715988}} | |
| - | + | * {{книга |автор=Bernardo J. M., Smith A. F. M. |заглавие=Bayesian Theory |издательство=Wiley |год=2009 |isbn=978-0471494645}} | |
| - | + | * {{статья |автор=Kingma D. P., Welling M. |заглавие=Auto-Encoding Variational Bayes |издание=International Conference on Learning Representations (ICLR) |год=2014 |ссылка=https://arxiv.org/abs/1312.6114}} | |
| - | }} | + | * {{статья |автор=Blundell C., Cornebise J., Kavukcuoglu K., Wierstra D. |заглавие=Weight Uncertainty in Neural Networks |издание=International Conference on Machine Learning (ICML) |год=2015 |ссылка=https://arxiv.org/abs/1505.05424}} |
| + | * {{статья |автор=Hoffman M. D., Blei D. M., Wang C., Paisley J. |заглавие=Stochastic Variational Inference |издание=Journal of Machine Learning Research |год=2013 |том=14 |страницы=1303—1347 |ссылка=https://jmlr.org/papers/v14/hoffman13a.html}} | ||
| + | * {{статья |автор=Snoek J., Larochelle H., Adams R. P. |заглавие=Practical Bayesian Optimization of Machine Learning Algorithms |издание=Advances in Neural Information Processing Systems (NeurIPS) |год=2012 |ссылка=https://arxiv.org/abs/1206.2944}} | ||
| + | * {{статья |автор=Gal Y., Ghahramani Z. |заглавие=Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning |издание=International Conference on Machine Learning (ICML) |год=2016 |ссылка=https://arxiv.org/abs/1506.02142}} | ||
| + | * {{статья |автор=Garnelo M., Schwarz J., Rosenbaum D., Viola F., Rezende D. J. et al. |заглавие=Neural Processes |издание=ICML Workshop on Theoretical Foundations and Applications of Deep Generative Models |год=2018 |ссылка=https://arxiv.org/abs/1807.01622}} | ||
| + | * {{статья |автор=Wilson A. G., Izmailov P. |заглавие=Bayesian Deep Learning and a Probabilistic Perspective of Generalization |издание=Advances in Neural Information Processing Systems (NeurIPS) |год=2020 |ссылка=https://arxiv.org/abs/2002.08791}} | ||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
[[Категория:Машинное обучение]] | [[Категория:Машинное обучение]] | ||
[[Категория:Теория вероятностей]] | [[Категория:Теория вероятностей]] | ||
[[Категория:Математическая статистика]] | [[Категория:Математическая статистика]] | ||
Текущая версия
| | Статья написана с использованием LLM DeepSeek-V4 и проверена участником Участник:Dan-Кhaiaa Lakpazhap 18:29, 30 июня 2026 (MSD).
Промпт приводится полностью в Обсуждение:Байесовский вывод. |
|
Байе́совский вы́вод (англ. Bayesian inference) — метод статистического вывода, в котором теорема Байеса используется для пересмотра вероятности гипотезы по мере поступления новых свидетельств. Байесовский вывод составляет фундаментальную основу байесовской статистики и играет ключевую роль в современном машинном обучении, позволяя строить вероятностные модели, которые явно учитывают неопределённость параметров и прогнозов.
В машинном обучении байесовский вывод даёт стройный математический аппарат для решения задач обучения с учителем и без учителя, позволяя естественным образом объединять данные с экспертными знаниями, выполнять регуляризацию, проводить сравнение моделей (англ. model comparison) с помощью байесовского фактора и выдавать не только точечные прогнозы, но и меры неопределённости, критически важные в ответственных приложениях — от медицинской диагностики до беспилотных автомобилей.
История
Корни байесовского вывода восходят к работе Томаса Байеса (1702—1761), опубликованной посмертно в 1763 году под редакцией Ричарда Прайса[1]. В этой работе был сформулирован частный случай теоремы, ныне носящей его имя. Независимо и в гораздо более общей форме теорему Байеса переоткрыл и систематически применил Пьер-Симон Лаплас в 1774 году, использовавший её для решения задач небесной механики, демографии и юриспруденции[1]. Лаплас заложил основы того, что сегодня называется байесовским выводом: он явно вводил равномерное априорное распределение (принцип недостаточного основания) и вычислял апостериорные вероятности.
На протяжении XIX и начала XX века байесовские идеи использовались многими учёными, однако к 1920‑м годам доминирующим стал частотный подход, развитый Рональдом Фишером, Ежи Нейманом и Эгоном Пирсоном, критиковавшими субъективность выбора априорного распределения. Возрождение байесовского вывода началось в середине XX века благодаря работам Гарольда Джеффриса (объективное байесовское оценивание), Джимми Сэвиджа (аксиоматизация субъективной вероятности) и Денниса Линдли. Мощный импульс развитию дало появление вычислительных методов MCMC (англ. Markov chain Monte Carlo) в 1980—1990‑х годах, сделавших возможным численный расчёт апостериорных распределений для сложных многопараметрических моделей[1]. В XXI веке байесовский вывод стал одним из столпов машинного обучения, а новые приближённые методы, такие как вариационный байесовский вывод (англ. variational Bayesian inference), позволили масштабировать его на огромные наборы данных и глубокие нейронные сети[1].
Основная идея
В байесовском подходе параметры рассматриваются как случайные величины с заданным априорным распределением (англ. prior distribution), отражающим знания или предположения до наблюдения данных. После получения данных априорное распределение обновляется до апостериорного распределения (англ. posterior distribution) по формуле Байеса:
где:
-
— априорное распределение — отражает информацию о параметрах до наблюдения данных. Может быть информативным (выражающим реальные экспертные знания), слабоинформативным или объективным (например, равномерное распределение, априорное распределение Джеффриса).
-
— функция правдоподобия — описывает вероятность получить наблюдаемые данные при фиксированном значении параметра, являясь связующим звеном между моделью и данными.
-
— маргинальное правдоподобие (англ. marginal likelihood, или evidence) — среднее значение правдоподобия по априорному распределению. Эта величина не зависит от
и используется для нормализации, а также для сравнения моделей (см. байесовский фактор).
-
— апостериорное распределение — итоговое представление о параметрах после учёта данных. Из него выводятся все байесовские оценки и прогнозы.
Прогноз для новых наблюдений вычисляется через прогностическое распределение (англ. posterior predictive distribution):
которое в отличие от подстановки точечной оценки автоматически усредняет неопределённость по всем правдоподобным значениям параметров.
Если априорное распределение выбрано из сопряжённого семейства (англ. conjugate prior) к функции правдоподобия, то апостериорное распределение принадлежит тому же семейству, и обновление параметров сводится к простым алгебраическим действиям.
Пример (подбрасывание монеты). Пусть результатами являются независимые бернуллиевские случайные величины с неизвестной вероятностью орла . Выберем априорное Бета-распределение
. После наблюдения
бросков, в которых выпало
орлов, апостериорное распределение также будет бета-распределением:
Это наглядно показывает, как данные последовательно «обновляют» наши представления.
Байесовское оценивание и решающие правила
В байесовском выводе оценкой параметра часто служат характеристики апостериорного распределения: апостериорное среднее (минимизирует квадратичную функцию потерь), MAP-оценка (англ. maximum a posteriori estimation) — точка максимума апостериорной плотности, или апостериорная медиана (минимизирует абсолютную функцию потерь). В отличие от единичной MAP-оценки, полный байесовский подход использует всё апостериорное распределение для принятия решений и формирования прогнозов, что позволяет автоматически учитывать неопределённость.
Байесовский вывод в статистике
В классической статистике байесовский вывод предлагает альтернативный взгляд на задачи оценивания, проверки гипотез и сравнения моделей.
Интервальное оценивание
Вместо частотного доверительного интервала байесовский подход оперирует байесовским доверительным интервалом, или надёжным интервалом (англ. credible interval). Интервал уровня — это такой
, что вероятность попадания параметра в него по апостериорному распределению равна
:
Эта интерпретация непосредственно соответствует интуитивному пониманию «интервала неопределённости» и не требует ссылок на гипотетические повторные выборки.
Проверка гипотез и байесовский фактор
Сравнение двух конкурирующих моделей и
проводится с помощью байесовского фактора (англ. Bayes factor):
Байесовский фактор показывает, во сколько раз данные более вероятны при одной модели по сравнению с другой, и автоматически включает штраф за сложность модели (см. Бритва Оккама). Например, при сравнении полиномиальных регрессий разной степени байесовский фактор часто отдаёт предпочтение более простой модели, если усложнение не приводит к существенному росту правдоподобия[1].
Байесовский вывод в машинном обучении
Байесовский вывод применяется в машинном обучении для построения вероятностных моделей, оценки неопределённости, выбора моделей и оптимизации гиперпараметров. Современные методы различаются как по типу используемых моделей, так и по способам приближённого вычисления апостериорного распределения.
Вероятностные модели
- Наивный байесовский классификатор — простая, но эффективная модель классификации, основанная на предположении условной независимости признаков.
- Байесовская сеть — направленное графическое представление совместного распределения большого числа переменных.
- Гауссовский процесс — непараметрическое байесовское распределение над функциями, применяемое в регрессии и байесовской оптимизации.
- Байесовская нейронная сеть — нейронная сеть, веса которой рассматриваются как случайные величины с апостериорным распределением.
Методы приближённого вывода
Приложения
- Байесовская оптимизация — поиск экстремума дорогостоящих функций (в частности, подбор гиперпараметров алгоритмов машинного обучения).
- Вариационный автокодировщик — генеративная модель, объединяющая идеи вариационного вывода и глубокого обучения[1].
Вычислительные методы
В общем случае вычисление апостериорного распределения, маргинального правдоподобия и прогностического распределения требует вычисления многомерных интегралов, не имеющих, как правило, аналитического решения. Для приближённого байесовского вывода применяются два основных класса методов: методы Монте-Карло в цепях Маркова и вариационный вывод.
Методы Монте-Карло в цепях Маркова
Методы Монте-Карло в цепях Маркова (англ. Markov chain Monte Carlo, MCMC) строят марковскую цепь, стационарное распределение которой совпадает с целевым апостериорным распределением . После достижения стационарности выборка из цепи используется для оценки математических ожиданий, квантилей и прогностических распределений.
К наиболее распространённым алгоритмам относятся алгоритм Метрополиса — Гастингса, сэмплирование по Гиббсу, гамильтонов метод Монте-Карло (HMC) и алгоритм No-U-Turn Sampler (NUTS). Последние два особенно эффективны для многомерных моделей и реализованы в вероятностных языках программирования Stan и PyMC[1].
MCMC-методы асимптотически сходятся к точному апостериорному распределению, однако их вычислительная стоимость может быть высокой для моделей с большим числом параметров или большим объёмом данных.
Вариационный вывод
Вариационный байесовский вывод заменяет задачу вычисления апостериорного распределения задачей оптимизации в параметризованном семействе распределений , минимизируя расстояние Кульбака — Лейблера
. По сравнению с MCMC он обеспечивает существенно более высокую скорость вычислений ценой появления систематической ошибки аппроксимации.
Для масштабирования на большие наборы данных применяется стохастический вариационный вывод (англ. stochastic variational inference), использующий мини-пакеты данных и методы стохастической оптимизации[1]. Вариационный вывод широко используется в современных байесовских моделях, включая вариационные автокодировщики и байесовские нейронные сети.
Связь с другими подходами
Байесовский вывод имеет глубокие связи с методами машинного обучения, формально не позиционируемыми как байесовские.
- Регуляризация. Максимизация апостериорной вероятности (MAP) в модели линейной регрессии с гауссовым априорным распределением на веса
в точности эквивалентна минимизации суммы квадратов ошибок с
-регуляризацией (гребневая регрессия). Лапласовское априорное распределение приводит к
-регуляризации (Lasso), поощряющей разреженные решения. Таким образом, многие классические приёмы машинного обучения допускают байесовскую интерпретацию[1].
- Эмпирический байесовский подход (англ. empirical Bayes) оценивает параметры априорного распределения по самим данным, максимизируя маргинальное правдоподобие, и занимает промежуточное положение между частотной и полностью байесовской парадигмами.
- Частотный вывод получает точечные оценки (например, метод максимального правдоподобия) и доверительные интервалы; в пределе больших выборок, при слабых априорных предположениях, байесовские и частотные выводы часто сближаются в силу теоремы Бернштейна — фон Мизеса (англ. Bernstein—von Mises theorem).
Критика и ограничения
Основной предмет критики байесовского вывода — неизбежная субъективность выбора априорного распределения. В ответ разработаны методологии объективных байесовских априорных (Джеффриса, референсные априорные, англ. reference priors), однако в многомерных задачах их выбор неоднозначен[1].
Второе важное ограничение — вычислительная сложность. Несмотря на революцию MCMC и вариационных методов, полный байесовский анализ современных глубоких нейронных сетей с миллионами параметров остаётся дорогостоящим и часто заменяется точечными оценками с приближённой оценкой неопределённости. Активные исследования в области байесовского глубокого обучения (англ. Bayesian deep learning) направлены на преодоление этого разрыва, разрабатывая такие методы, как MC Dropout, стохастические веса и глубокие гауссовские процессы[1].
Несмотря на эти вызовы, байесовский вывод продолжает оставаться «золотым стандартом» статистического рассуждения в условиях неопределённости, предоставляя как теоретическую основу для обучения, так и практически востребованные инструменты для анализа данных.
См. также
- Теорема Байеса
- Байесовская статистика
- Априорное распределение
- Сопряжённое априорное распределение
- Маргинальное правдоподобие
- Байесовский фактор
- Вариационный байесовский вывод
- Метод Монте-Карло в цепях Маркова
- Байесовская оптимизация
- Байесовская нейронная сеть
- Наивный байесовский классификатор
- Байесовская сеть
- Регуляризация
Примечания
Литература
- Gelman A., Carlin J. B., Stern H. S., Dunson D. B., Vehtari A., Rubin D. B. Bayesian Data Analysis. — 3rd ed.. — CRC Press, 2013. — ISBN 978-1439840955
- Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006. — ISBN 978-0387310732
- Murphy K. P. Machine Learning: A Probabilistic Perspective. — MIT Press, 2012. — ISBN 978-0262018029
- MacKay D. J. C. Information Theory, Inference, and Learning Algorithms. — Cambridge University Press, 2003. — ISBN 978-0521642989
- Robert C. P. The Bayesian Choice. — 2nd ed.. — Springer, 2007. — ISBN 978-0387715988
- Bernardo J. M., Smith A. F. M. Bayesian Theory. — Wiley, 2009. — ISBN 978-0471494645
- Kingma D. P., Welling M. Auto-Encoding Variational Bayes // International Conference on Learning Representations (ICLR). — 2014.
- Blundell C., Cornebise J., Kavukcuoglu K., Wierstra D. Weight Uncertainty in Neural Networks // International Conference on Machine Learning (ICML). — 2015.
- Hoffman M. D., Blei D. M., Wang C., Paisley J. Stochastic Variational Inference // Journal of Machine Learning Research. — 2013. — Т. 14. — С. 1303—1347.
- Snoek J., Larochelle H., Adams R. P. Practical Bayesian Optimization of Machine Learning Algorithms // Advances in Neural Information Processing Systems (NeurIPS). — 2012.
- Gal Y., Ghahramani Z. Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning // International Conference on Machine Learning (ICML). — 2016.
- Garnelo M., Schwarz J., Rosenbaum D., Viola F., Rezende D. J. et al. Neural Processes // ICML Workshop on Theoretical Foundations and Applications of Deep Generative Models. — 2018.
- Wilson A. G., Izmailov P. Bayesian Deep Learning and a Probabilistic Perspective of Generalization // Advances in Neural Information Processing Systems (NeurIPS). — 2020.

