Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Оценка за курс)
(Оценка за курс)
Строка 50: Строка 50:
| align="center"|2 || Коняхин - 203|| || || ||
| align="center"|2 || Коняхин - 203|| || || ||
|-
|-
-
| align="center"|3 || Молчанов - 203 || 5 || || ||
+
| align="center"|3 || Молчанов - 203 || 5 || || 5 ||
|-
|-
-
| align="center"|4 || Юкова - 203|| 5 || || ||
+
| align="center"|4 || Юкова - 203|| 5 || || 4 ||
|-
|-
| align="center"|5 || Швец - 416|| || || ||
| align="center"|5 || Швец - 416|| || || ||
Строка 76: Строка 76:
| align="center"|15 || Даулбаев - 205 || || || ||
| align="center"|15 || Даулбаев - 205 || || || ||
|-
|-
-
| align="center"|16 || Иванов - 203|| 5 || || ||
+
| align="center"|16 || Иванов - 203|| 5 || || 5 ||
|-
|-
| align="center"|17 || Кондрашкин - 517 || 5 || || ||
| align="center"|17 || Кондрашкин - 517 || 5 || || ||

Версия 20:57, 24 декабря 2013


Курс посвящен т.н. байесовским методам решения различных задач машинного обучения (классификации, прогнозирования, восстановления регрессии), которые в настоящее время активно развиваются в мире. Байесовский подход к теории вероятностей позволяет эффективно учитывать различные предпочтения пользователя при построении решающих правил прогноза. Кроме того, он позволяет решать задачи выбора структурных параметров модели. В частности, здесь удается решать без комбинаторного перебора задачи селекции признаков, выбора числа кластеров в данных, размерности редуцированного пространства при уменьшении размерности, значений коэффициентов регуляризации и проч. В байесовском подходе вероятность интерпретируется как мера незнания, а не как объективная случайность. Простые правила оперирования с вероятностью, такие как формула полной вероятности и формула Байеса, позволяют проводить рассуждения в условиях неопределенности. В этом смысле байесовский подход к теории вероятностей можно рассматривать как обобщение классической булевой логики.

Авторы курса: н.с. каф. ММП Ветров Д.П., м.н.с. ВЦ РАН Кропотов Д.А.. Курс читается студентам ВМиК МГУ, начиная с 2007 года. Курс не требует от студентов дополнительной математической подготовки, выходящей за пределы первых двух курсов университетского образования, все необходимые понятия вводятся в ходе лекций.

В осеннем семестре 2013 года занятия по курсу проходят по вторникам в ауд. 526б, начало в 16-20. Первое занятие 1 октября.

Вопросы и комментарии по курсу можно оставлять на вкладке «Обсуждение» к этой странице или направлять письмом по адресу bayesml@gmail.com. При этом в название письма просьба добавлять [БММО13].

Оценка за курс

В рамках курса студентам предлагается выполнить два практических задания. Выполнение этих заданий является обязательным условием для допуска к экзамену и, соответственно, успешной сдачи курса. Итоговая оценка за курс вычисляется по формуле 0.25*(оценка за первое задание)+0.25*(оценка за второе задание)+0.5*(оценка за экзамен).

Экзамен состоится 24 декабря в ауд. 524 в 1620.

Впросы к экзамену:

1. Различные постановки задач машинного обучения.

2. Байесовский подход к теории вероятностей. Примеры байесовских рассуждений.

3. Задача выбора модели. Небайесовские методы выбора модели.

4. Задача выбора модели. Принцип наибольшей обоснованности.

5. Дифференцирование матриц и по матрице.

6. Линейная регрессия. Метод релевантных векторов.

7. Логистическая регрессия. Метод релевантных векторов для задачи классификации

8. ЕМ-алгоритм. Примеры использования.

9. Вариационный байесовский вывод.

10. Вероятностная модель смеси гауссиан.

11. Латентное размещение Дирихле.


№ п/п Студент Задание 1 Задание 2 Устный экзамен Итого
1 Жмудь - 203
2 Коняхин - 203
3 Молчанов - 203 5 5
4 Юкова - 203 5 4
5 Швец - 416
6 Кульпинов - 202 5
7 Чабаненко - 204 5 4
8 Галков - 205
9 Тавыриков - 205
10 Казорин - ВВО 4.2
11 Колосков - 204
12 Комалов - 210
13 Белоусов - 210
14 Чиркова - 210
15 Даулбаев - 205
16 Иванов - 203 5 5
17 Кондрашкин - 517 5
18 Ибадов - 420
19 Чепарухин - 214 3.0
20 Панкратов - 205 4.1
21 Борисов - 525
22 Дремов - 205
23 Щемирова - 205 4.0
24 Нижибицкий - 517 5 4
25 Горячих - 210
26 Захаров - 3174.7
27 Ямшинин - ВВО

Практические задания

Задание 1

Задание 2

Программа курса

Введение в курс. Различные постановки задач машинного обучения

Обзор задач анализа данных: классификация, регрессия, кластеризация, идентификация. Примеры. Историческая справка. Основные проблемы теории распознавания образов: переобучение, противоречивость информации, малый объем выборки. Иллюстративные примеры переобучения, связь переобучения и объема выборки. Дискриминативные и порождающие (вероятностные) модели.

Ликбез: основные понятия теории вероятностей (математическое ожидание, дисперсия, ковариационная матрица, плотность вероятности, функция правдоподобия), метод максимального правдоподобия.

Презентация (PDF, 353Кб)

Байесовский подход к теории вероятностей. Примеры байесовских рассуждений.

Частотный и вероятностный подходы к теории вероятностей. Интерпретация вероятности как меры нашего незнания, сравнение байесовских рассуждений с логическими. Байесовские сети и основные задачи в них. Пример жизненной ситуации «Джон и колокольчик для воров». Вывод формул для апостериорных вероятностей.

Ликбез: условная вероятность, формула Байеса и ее применение, формула полной вероятности.

Презентация (PDF, 260Кб), Конспект (PDF)

Байесовский подход и Акинатор

Пример применения байесовских рассуждений для игры Акинатор.

Презентация (PDF, 304Кб)

Пример работы программы «Пифия»:

Задача выбора модели на примере выбора коэффициента регуляризации, ядровой функции, настройки структурных параметров алгоритма обучения. Основные методы выбора модели.

Общая постановка проблемы выбора модели, ее философский характер. Конкретные примеры структурных параметров. Кросс-валидация. Теория Вапника-Червоненкиса, емкость алгоритмов обучения. Принцип минимальной длины описания, его эквивалентность максимуму регуляризованного правдоподобия. Информационные критерии Акаике и Байеса-Шварца, область их применения.

Ликбез: теорема Шеннона и оптимальная длина описания.

Презентация (PDF, 362Кб)

Решение задачи выбора модели по Байесу. Обоснованность модели. Полный байесовский вывод.

Вывод формул для принятия решения. Принцип наибольшей обоснованности как метод максимального правдоподобия для моделей. Половинчатость данного подхода, полный вывод по Байесу. Интерпретация понятия обоснованности, ее геометрический смысл, бессмысленность сколь-угодно гибкого решающего правила, иллюстративные примеры, связь с принципом Оккама.

Ликбез: принцип Оккама, ad hoc гипотезы.

Презентация (PDF, 376Кб)

Матричные вычисления и нормальное распределение.

Дивергенция Кульбака-Лейблера, ее использование для поиска аппроксимации вероятностных распределений. Векторно-матричные преобразования, дифференцирование по вектору и по матрице. Основные матричные тождества. Одномерное и многомерное нормальное распределение, его основные свойства.

Текст (PDF, 374Кб)
Рекомендуется к прочтению: Заметки по матричным вычислениям и свойствам гауссовских распределений

Линейная регрессия и метод релевантных векторов для задачи регрессии

Обобщенные линейные модели, вероятностная модель линейной регрессии. Метод релевантных векторов, вывод формул для регрессии. Приближение Лапласа для оценки обоснованности в случае задачи классификации, его достоинства и недостатки. Свойства решающего правила RVM.

Презентация (PDF, 507Кб)

EM-алгоритм и метод релевантных векторов для задачи классификации

Метод оптимизации Ньютона. EM-алгоритм в общем виде. EM-алгоритм как покоординатный подъем. ЕМ-алгоритм для задачи разделения смеси нормальных распределений. Логистическая и мультиномиальная регрессия. Метод релевантных векторов для задачи классификации.

Текст (PDF, 979Кб)

Приближенные способы байесовского вывода: вариационный подход.

Приближенные методы байесовского вывода. Минимизация дивергенции Кульбака-Лейблера и факторизованное приближение. Идея вариационного подхода, вывод формул для вариационной линейной регрессии.

Ликбез: дивергенция Кульбака-Лейблера, гамма-распределение.

Текст (PDF, 112Кб)

Приближенные способы байесовского вывода: методы Монте-Карло с марковскими цепями.

Методы Монте Карло для оценки вероятностных интегралов в байесовском подходе. Методы генерации одномерной случайной величины. Идея методов Монте Карло по схеме марковских цепей. Теоретические свойства марковских цепей. Схема Метрополиса-Хастингса. Схема Гиббса. Применение схемы Гиббса для марковских сетей. Оценка нормировочной константы распределения с помощью схемы Гиббса.

Текст (PDF, 97Кб)

Байесовский метод главных компонент.

Задача уменьшения размерности в данных. Метод главных компонент. ЕМ-алгоритм для обучения метода главных компонент. Учет пропусков в данных. Байесовский вариант метода главных компонент для автоматического выбора размерности редуцированного пространства. Модель смеси главных компонент.

Текст (PDF, 769Кб)

Латентное размещение Дирихле.

Задача рубрикации текстов. Вероятностная модель порождения текста как смеси тем. Применение вариационного ЕМ-алгоритма для обучения тематической модели.

Текст (PDF, 481Кб)

Литература

  1. Barber D. Bayesian Reasoning and Machine Learning. Cambridge University Press, 2012.
  2. Простые и удобные заметки по матричным вычислениям и свойствам гауссовских распределений
  3. Памятка по теории вероятностей
  4. Ветров Д.П., Кропотов Д.А. Байесовские методы машинного обучения, учебное пособие по спецкурсу, 2007 (Часть 1, PDF 1.22МБ; Часть 2, PDF 1.58МБ)
  5. Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006.
  6. Mackay D.J.C. Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003.
  7. Tipping M. Sparse Bayesian Learning. Journal of Machine Learning Research, 1, 2001, pp. 211-244.
  8. Шумский С.А. Байесова регуляризация обучения. В сб. Лекции по нейроинформатике, часть 2, 2002.

Страницы курса прошлых лет

2010 год
2011 год
весна 2013 года

См. также

Курс «Графические модели»

Спецсеминар «Байесовские методы машинного обучения»

Математические методы прогнозирования (кафедра ВМиК МГУ)

Личные инструменты