|
|
| Строка 1: |
Строка 1: |
| - | {{well|Статья написана с использованием LLM '''DeepSeek-V4''' и проверена участником [[Участник:Dan-Кhaiaa Lakpazhap]] 18:29, 30 июня 2026 (MSD)
| |
| - | Промпт приводится полностью в [[Обсуждение:Скользящий контроль]]
| |
| - | }}
| |
| - | {{TOCright}}
| |
| - | '''Байе́совский вы́вод''' (англ. Bayesian inference) — метод [[Статистический вывод|статистического вывода]], в котором [[теорема Байеса]] используется для пересмотра вероятности гипотезы по мере поступления новых свидетельств. Байесовский вывод составляет фундаментальную основу [[Байесовская статистика|байесовской статистики]] и играет ключевую роль в современном [[Машинное обучение|машинном обучении]], позволяя строить вероятностные модели, которые явно учитывают неопределённость параметров и прогнозов.
| |
| | | | |
| - | В машинном обучении байесовский вывод даёт стройный математический аппарат для решения задач [[Обучение с учителем|обучения с учителем]] и [[Обучение без учителя|без учителя]], позволяя естественным образом объединять данные с экспертными знаниями, выполнять [[Регуляризация (математика)|регуляризацию]], осуществлять [[Байесовский фактор|сравнение моделей]] (англ. model comparison) и выдавать не только точечные прогнозы, но и меры неопределённости, критически важные в ответственных приложениях — от [[Медицинская диагностика|медицинской диагностики]] до [[Беспилотный автомобиль|беспилотных автомобилей]].
| |
| - |
| |
| - | == История ==
| |
| - | Корни байесовского вывода восходят к работе [[Байес, Томас|Томаса Байеса]] (1702–1761), опубликованной посмертно в 1763 году под редакцией Ричарда Прайса<ref>Bayes T. An Essay towards solving a Problem in the Doctrine of Chances // Philosophical Transactions of the Royal Society of London. — 1763. — Vol. 53. — P. 370–418.</ref>. В этой работе был сформулирован частный случай теоремы, ныне носящей его имя. Независимо и в гораздо более общей форме теорему Байеса переоткрыл и систематически применил [[Лаплас, Пьер-Симон|Пьер-Симон Лаплас]] в 1774 году, который использовал её для решения задач небесной механики, демографии и юриспруденции<ref>Laplace P. S. Mémoire sur la probabilité des causes par les événements // Mémoires de l’Académie royale des Sciences de Paris (Savants étrangers). — 1774. — Vol. 6. — P. 621–656.</ref>. Лаплас заложил основы того, что сегодня называется байесовским выводом: он явно вводил равномерное априорное распределение (принцип недостаточного основания) и вычислял апостериорные вероятности.
| |
| - |
| |
| - | На протяжении XIX и начала XX века байесовские идеи использовались многими учёными, однако к 1920‑м годам доминирующим стал [[Частотная вероятность|частотный подход]], развитый [[Фишер, Роналд Эйлмер|Рональдом Фишером]], [[Нейман, Ежи|Ежи Нейманом]] и [[Пирсон, Эгон Шарп|Эгоном Пирсоном]], который критиковал субъективность выбора априорного распределения. Возрождение байесовского вывода началось в середине XX века благодаря работам [[Джеффрис, Гарольд|Гарольда Джеффриса]] (объективное байесовское оценивание), [[Сэвидж, Леонард Джимми|Джимми Сэвиджа]] (аксиоматизация субъективной вероятностей) и [[Линдли, Деннис Виктор|Денниса Линдли]]. Мощный импульс развитию дало появление вычислительных методов [[Метод Монте-Карло в цепях Маркова|MCMC]] (англ. Markov chain Monte Carlo) в 1980–1990‑х годах, которые сделали возможным численный расчёт апостериорных распределений для сложных многопараметрических моделей<ref>Gelfand A. E., Smith A. F. M. Sampling-Based Approaches to Calculating Marginal Densities // Journal of the American Statistical Association. — 1990. — Vol. 85, no. 410. — P. 398–409.</ref>. В XXI веке байесовский вывод стал одним из столпов машинного обучения, а новые приближённые методы, такие как [[вариационный байесовский вывод]] (англ. variational Bayesian inference), позволили масштабировать его на огромные наборы данных и глубокие нейронные сети<ref name="kingma2014">Kingma D. P., Welling M. Auto-Encoding Variational Bayes // International Conference on Learning Representations (ICLR). — 2014. — arXiv:1312.6114.</ref>.
| |
| - |
| |
| - | == Основная идея ==
| |
| - |
| |
| - | В байесовском подходе параметры рассматриваются как [[Случайная величина|случайные величины]] с заданным [[Априорное распределение|априорным распределением]] (англ. prior distribution), отражающим знания или предположения до наблюдения данных. После получения данных <tex>\mathcal{D}</tex> априорное распределение обновляется до [[Апостериорное распределение|апостериорного распределения]] (англ. posterior distribution) по формуле Байеса:
| |
| - |
| |
| - | <tex>p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) \, p(\theta)}{p(\mathcal{D})},</tex>
| |
| - |
| |
| - | где
| |
| - | * <tex>p(\theta)</tex> — ''Априорное распределение'' — отражает информацию о параметрах до наблюдения данных. Может быть информативным (выражающим реальные экспертные знания), слабоинформативным или объективным (например, равномерное распределение, [[априорное распределение Джеффриса]]).
| |
| - | * <tex>p(\mathcal{D} \mid \theta)</tex> — ''Функция правдоподобия'' — описывает вероятность получить наблюдаемые данные при фиксированном значении параметра. Является связующим звеном между моделью и данными.
| |
| - | * <tex>p(\mathcal{D})</tex> — ''Маргинальное правдоподобие'' — среднее значение правдоподобия по априорному распределению. Эта величина не зависит от <tex>\theta</tex> и используется для нормализации, а также для сравнения моделей (см. [[байесовский фактор]]).
| |
| - | * <tex>p(\theta \mid \mathcal{D})</tex> — ''Апостериорное распределение'' — итоговое представление о параметрах после учёта данных. Из него выводятся все байесовские оценки и прогнозы.
| |
| - | * <tex>p(\tilde{x} \mid \mathcal{D}) = \int p(\tilde{x} \mid \theta) p(\theta \mid \mathcal{D}) d\theta</tex> — ''Прогностическое распределение'' (англ. posterior predictive distribution) — распределение будущих наблюдений, усреднённое по всей апостериорной неопределённости параметров.
| |
| - |
| |
| - | Если априорное распределение выбрано из [[Сопряжённое априорное распределение|сопряжённого семейства]] (англ. conjugate prior) к функции правдоподобия, то апостериорное распределение принадлежит тому же семейству, и обновление параметров сводится к простым алгебраическим действиям.
| |
| - |
| |
| - | ''Пример (подбрасывание монеты).'' Пусть результатами являются независимые [[Распределение Бернулли|бернуллиевские]] случайные величины с неизвестной вероятностью орла <tex>\theta \in [0,1]</tex>. Выберем априорное [[Бета-распределение]] <tex>\text{Beta}(\alpha, \beta)</tex>. После наблюдения <tex>n</tex> бросков, в которых выпало <tex>h</tex> орлов, апостериорное распределение также будет бета-распределением:
| |
| - | <tex>p(\theta \mid \mathcal{D}) = \text{Beta}(\alpha + h, \beta + n - h).</tex>
| |
| - | Это наглядно показывает, как данные последовательно «обновляют» наши представления.
| |
| - |
| |
| - | === Байесовское оценивание и решающие правила ===
| |
| - |
| |
| - | В байесовском выводе оценкой параметра часто служат характеристики апостериорного распределения: [[Апостериорное математическое ожидание|апостериорное среднее]] (минимизирует квадратичную функцию потерь), [[Апостериорная мода|апостериорная мода]] (MAP-оценка, от англ. maximum a posteriori estimation, максимизирует произведение правдоподобия и априорного) или апостериорная медиана (минимизирует абсолютную функцию потерь). В отличие от единичной MAP-оценки, полный байесовский подход использует всё апостериорное распределение для принятия решений и формирования прогнозов, что позволяет автоматически учитывать неопределённость.
| |
| - |
| |
| - | == Байесовский вывод в статистике ==
| |
| - | В классической статистике байесовский вывод предлагает альтернативный взгляд на задачи оценивания, проверки гипотез и сравнения моделей.
| |
| - |
| |
| - | === Интервальное оценивание ===
| |
| - | Вместо [[Доверительный интервал|доверительного интервала]] (частотного) байесовский подход оперирует [[Надёжный интервал|надёжным интервалом]] (англ. credible interval). Надёжный интервал уровня <tex>(1 - \alpha)</tex> — это такой интервал <tex>[a,b]</tex>, что вероятность попадания параметра в него по апостериорному распределению равна <tex>1 - \alpha</tex>: <tex>P(a \le \theta \le b \mid \mathcal{D}) = 1 - \alpha</tex>. Эта интерпретация непосредственно соответствует интуитивному пониманию «интервала неопределённости» и не требует ссылок на гипотетические повторные выборки.
| |
| - |
| |
| - | === Проверка гипотез и байесовский фактор ===
| |
| - | Сравнение двух конкурирующих моделей <tex>M_1</tex> и <tex>M_2</tex> проводится с помощью [[Байесовский фактор|байесовского фактора]] (англ. Bayes factor):
| |
| - | <tex>B_{12} = \frac{p(\mathcal{D} \mid M_1)}{p(\mathcal{D} \mid M_2)}.</tex>
| |
| - | Байесовский фактор показывает, во сколько раз данные более вероятны при одной модели по сравнению с другой, и автоматически включает штраф за сложность модели (см. [[Бритва Оккама]]). Например, при сравнении полиномиальных регрессий разной степени байесовский фактор часто отдаёт предпочтение более простой модели, если усложнение не приводит к существенному росту правдоподобия<ref>Kass R. E., Raftery A. E. Bayes Factors // Journal of the American Statistical Association. — 1995. — Vol. 90, no. 430. — P. 773–795.</ref>.
| |
| - |
| |
| - | == Байесовский вывод в машинном обучении ==
| |
| - |
| |
| - | Байесовский вывод применяется в машинном обучении для построения вероятностных моделей, оценки неопределённости, выбора моделей и оптимизации. Современные методы различаются как по типу используемых моделей, так и по способам приближённого вычисления апостериорного распределения.
| |
| - |
| |
| - | === Вероятностные модели ===
| |
| - |
| |
| - | [[Наивный байесовский классификатор]]
| |
| - |
| |
| - | [[Байесовская сеть]]
| |
| - |
| |
| - | [[Гауссовский процесс]]
| |
| - |
| |
| - | [[Байесовская нейронная сеть]]
| |
| - |
| |
| - | === Методы приближённого вывода ===
| |
| - |
| |
| - | [[Вариационный байесовский вывод]]
| |
| - |
| |
| - | [[Марковские цепи Монте-Карло]] (MCMC)
| |
| - |
| |
| - | === Приложения ===
| |
| - |
| |
| - | [[Байесовская оптимизация]]
| |
| - |
| |
| - | [[Вариационный автоэнкодер]]
| |
| - |
| |
| - | == Вычислительные методы ==
| |
| - |
| |
| - | В общем случае вычисление [[апостериорное распределение|апостериорного распределения]], [[маргинальное правдоподобие|маргинального правдоподобия]] и [[прогностическое распределение|прогностического распределения]] требует вычисления многомерных интегралов, которые обычно не имеют аналитического решения. Для приближённого байесовского вывода применяются два основных класса методов: методы Монте-Карло в цепях Маркова и вариационный вывод.
| |
| - |
| |
| - | === Методы Монте-Карло в цепях Маркова ===
| |
| - |
| |
| - | [[Метод Монте-Карло в цепях Маркова|Методы Монте-Карло в цепях Маркова]] ({{lang-en|Markov chain Monte Carlo}}, MCMC) строят [[марковская цепь|марковскую цепь]], стационарное распределение которой совпадает с целевым апостериорным распределением <tex>p(\theta \mid \mathcal{D})</tex>. После достижения стационарности выборка из цепи используется для оценки математических ожиданий, доверительных характеристик и прогностических распределений.
| |
| - |
| |
| - | К наиболее распространённым алгоритмам относятся [[алгоритм Метрополиса — Гастингса]], [[семплирование Гиббса]], [[Гамильтонов метод Монте-Карло|гамильтонов метод Монте-Карло]] (HMC) и алгоритм No-U-Turn Sampler (NUTS). Последние особенно эффективны для многомерных моделей и реализованы в вероятностных языках программирования [[Stan]] и [[PyMC]].<ref>Hoffman M. D., Gelman A. The No-U-Turn Sampler: Adaptively Setting Path Lengths in Hamiltonian Monte Carlo // Journal of Machine Learning Research. — 2014. — Vol. 15. — P. 1593–1623.</ref>
| |
| - |
| |
| - | MCMC-методы асимптотически сходятся к точному апостериорному распределению, однако их вычислительная стоимость может быть высокой для моделей с большим числом параметров или объёмом данных.
| |
| - |
| |
| - | === Вариационный вывод ===
| |
| - |
| |
| - | [[Вариационный байесовский вывод]] заменяет задачу вычисления апостериорного распределения задачей оптимизации в параметризованном семействе распределений. По сравнению с MCMC он обеспечивает существенно более высокую скорость вычислений ценой появления систематической ошибки аппроксимации.
| |
| - |
| |
| - | Для масштабирования на большие наборы данных применяется [[стохастический вариационный вывод]], использующий мини-пакеты данных и методы стохастической оптимизации.<ref>Hoffman M. D., Blei D. M., Wang C., Paisley J. Stochastic Variational Inference // Journal of Machine Learning Research. — 2013. — Vol. 14. — P. 1303–1347.</ref> Вариационный вывод широко используется в современных байесовских моделях, включая [[вариационный автоэнкодер|вариационные автоэнкодеры]] и [[байесовская нейронная сеть|байесовские нейронные сети]].
| |
| - |
| |
| - | == Связь с другими подходами ==
| |
| - | Байесовский вывод имеет глубокие связи с методами машинного обучения, формально не позиционируемыми как байесовские.
| |
| - |
| |
| - | * '''Регуляризация'''. Максимизация апостериорной вероятности (MAP) в модели линейной регрессии с гауссовым априорным распределением на веса <tex>p(\mathbf{w}) = \mathcal{N}(0, \lambda^{-1} \mathbf{I})</tex> в точности эквивалентна минимизации суммы квадратов ошибок с L2-регуляризацией ([[гребневая регрессия]]). Лапласовское априорное распределение приводит к [[Лассо (статистика)|L1-регуляризации]] (Lasso), поощряющей разреженные решения. Таким образом, многие классические приёмы машинного обучения допускают байесовскую интерпретацию<ref>Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006. — Гл. 3.3–3.5.</ref>.
| |
| - | * '''Эмпирический байесовский подход''' (англ. empirical Bayes) оценивает параметры априорного распределения по самим данным, максимизируя маргинальное правдоподобие, и занимает промежуточное положение между частотной и полностью байесовской парадигмой.
| |
| - | * '''Частотный вывод''' получает точечные оценки (например, [[метод максимального правдоподобия]]) и доверительные интервалы; в пределе больших выборок, при слабых априорных предположениях, байесовские и частотные выводы часто сближаются в силу [[Теорема Бернштейна — фон Мизеса|теоремы Бернштейна — фон Мизеса]] (англ. Bernstein–von Mises theorem).
| |
| - |
| |
| - | == Критика и ограничения ==
| |
| - | Основной предмет критики байесовского вывода — неизбежная субъективность выбора априорного распределения. В ответ разработаны методологии объективных байесовских априорных (Джеффриса, референсные априорные, англ. reference priors), однако в многомерных задачах их выбор неоднозначен<ref>Bernardo J. M., Smith A. F. M. Bayesian Theory. — Wiley, 2009.</ref>.
| |
| - |
| |
| - | Второе важное ограничение — вычислительная сложность. Несмотря на революцию MCMC и вариационных методов, полный байесовский анализ современных глубоких нейронных сетей с миллионами параметров остаётся дорогостоящим и часто заменяется точечными оценками с приближённой оценкой неопределённости. Активные исследования в области [[Байесовское глубокое обучение|байесовского глубокого обучения]] (англ. Bayesian deep learning) направлены на преодоление этого разрыва, разрабатывая такие методы, как MC Dropout, стохастические веса и глубокая композиция случайных процессов<ref>Wilson A. G., Izmailov P. Bayesian Deep Learning and a Probabilistic Perspective of Generalization // Advances in Neural Information Processing Systems (NeurIPS). — 2020. — arXiv:2002.08791.</ref>.
| |
| - |
| |
| - | Несмотря на эти вызовы, байесовский вывод продолжает оставаться «золотым стандартом» статистического рассуждения в условиях неопределённости, предоставляя как теоретическую основу для обучения, так и практически востребованные инструменты для анализа данных.
| |
| - |
| |
| - | == См. также ==
| |
| - | * [[Теорема Байеса]]
| |
| - | * [[Байесовская статистика]]
| |
| - | * [[Априорное распределение]]
| |
| - | * [[Сопряжённое априорное распределение]]
| |
| - | * [[Маргинальное правдоподобие]]
| |
| - | * [[Байесовский фактор]]
| |
| - | * [[Вариационный байесовский вывод]]
| |
| - | * [[Метод Монте-Карло в цепях Маркова]]
| |
| - | * [[Байесовская оптимизация]]
| |
| - | * [[Байесовская нейронная сеть]]
| |
| - | * [[Наивный байесовский классификатор]]
| |
| - | * [[Байесовская сеть]]
| |
| - | * [[Регуляризация]]
| |
| - |
| |
| - | == Примечания ==
| |
| - | {{примечания}}
| |
| - |
| |
| - | == Литература ==
| |
| - |
| |
| - | * {{книга
| |
| - | | автор = Gelman A., Carlin J. B., Stern H. S., Dunson D. B., Vehtari A., Rubin D. B.
| |
| - | | заглавие = Bayesian Data Analysis
| |
| - | | издание = 3rd ed.
| |
| - | | издательство = CRC Press
| |
| - | | год = 2013
| |
| - | | isbn = 978-1439840955
| |
| - | }}
| |
| - |
| |
| - | * {{книга
| |
| - | | автор = Bishop C. M.
| |
| - | | заглавие = Pattern Recognition and Machine Learning
| |
| - | | издательство = Springer
| |
| - | | год = 2006
| |
| - | | isbn = 978-0387310732
| |
| - | }}
| |
| - |
| |
| - | * {{книга
| |
| - | | автор = Murphy K. P.
| |
| - | | заглавие = Machine Learning: A Probabilistic Perspective
| |
| - | | издательство = MIT Press
| |
| - | | год = 2012
| |
| - | | isbn = 978-0262018029
| |
| - | }}
| |
| - |
| |
| - | * {{книга
| |
| - | | автор = MacKay D. J. C.
| |
| - | | заглавие = Information Theory, Inference, and Learning Algorithms
| |
| - | | издательство = Cambridge University Press
| |
| - | | год = 2003
| |
| - | | isbn = 978-0521642989
| |
| - | }}
| |
| - |
| |
| - | * {{книга
| |
| - | | автор = Robert C. P.
| |
| - | | заглавие = The Bayesian Choice
| |
| - | | издание = 2nd ed.
| |
| - | | издательство = Springer
| |
| - | | год = 2007
| |
| - | | isbn = 978-0387715988
| |
| - | }}
| |
| - |
| |
| - | * {{книга
| |
| - | | автор = Bernardo J. M., Smith A. F. M.
| |
| - | | заглавие = Bayesian Theory
| |
| - | | издательство = Wiley
| |
| - | | год = 2009
| |
| - | | isbn = 978-0471494645
| |
| - | }}
| |
| - |
| |
| - | * {{статья
| |
| - | | автор = Kingma D. P., Welling M.
| |
| - | | заглавие = Auto-Encoding Variational Bayes
| |
| - | | журнал = International Conference on Learning Representations (ICLR)
| |
| - | | год = 2014
| |
| - | | arxiv = 1312.6114
| |
| - | }}
| |
| - |
| |
| - | * {{статья
| |
| - | | автор = Blundell C., Cornebise J., Kavukcuoglu K., Wierstra D.
| |
| - | | заглавие = Weight Uncertainty in Neural Networks
| |
| - | | журнал = International Conference on Machine Learning (ICML)
| |
| - | | год = 2015
| |
| - | | arxiv = 1505.05424
| |
| - | }}
| |
| - |
| |
| - | * {{статья
| |
| - | | автор = Hoffman M. D., Blei D. M., Wang C., Paisley J.
| |
| - | | заглавие = Stochastic Variational Inference
| |
| - | | журнал = Journal of Machine Learning Research
| |
| - | | год = 2013
| |
| - | | том = 14
| |
| - | | страницы = 1303–1347
| |
| - | }}
| |
| - |
| |
| - | * {{статья
| |
| - | | автор = Snoek J., Larochelle H., Adams R. P.
| |
| - | | заглавие = Practical Bayesian Optimization of Machine Learning Algorithms
| |
| - | | журнал = Advances in Neural Information Processing Systems (NeurIPS)
| |
| - | | год = 2012
| |
| - | | arxiv = 1206.2944
| |
| - | }}
| |
| - |
| |
| - | * {{статья
| |
| - | | автор = Gal Y., Ghahramani Z.
| |
| - | | заглавие = Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning
| |
| - | | журнал = International Conference on Machine Learning (ICML)
| |
| - | | год = 2016
| |
| - | | arxiv = 1506.02142
| |
| - | }}
| |
| - |
| |
| - | * {{статья
| |
| - | | автор = Garnelo M., Schwarz J., Rosenbaum D., Viola F., Rezende D. J. et al.
| |
| - | | заглавие = Neural Processes
| |
| - | | журнал = ICML Workshop on Theoretical Foundations and Applications of Deep Generative Models
| |
| - | | год = 2018
| |
| - | | arxiv = 1807.01622
| |
| - | }}
| |
| - |
| |
| - | * {{статья
| |
| - | | автор = Wilson A. G., Izmailov P.
| |
| - | | заглавие = Bayesian Deep Learning and a Probabilistic Perspective of Generalization
| |
| - | | журнал = Advances in Neural Information Processing Systems (NeurIPS)
| |
| - | | год = 2020
| |
| - | | arxiv = 2002.08791
| |
| - | }}
| |
| - | [[Категория:Машинное обучение]]
| |
| - | [[Категория:Теория вероятностей]]
| |
| - | [[Категория:Математическая статистика]]
| |