Машинное обучение (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
(+2 лекции. Перестановки из 2сем в 1сем) |
(ансамбли, ранжирование) |
||
Строка 202: | Строка 202: | ||
== Поиск ассоциативных правил == | == Поиск ассоциативных правил == | ||
Презентация: [[Media:Voron-ML-AssocRules-slides.pdf|(PDF, 1.1 МБ)]] {{важно| — обновление 14.12.2019}}. | Презентация: [[Media:Voron-ML-AssocRules-slides.pdf|(PDF, 1.1 МБ)]] {{важно| — обновление 14.12.2019}}. | ||
+ | |||
* Понятие [[Ассоциативное правило|ассоциативного правила]] и его связь с понятием логической закономерности. | * Понятие [[Ассоциативное правило|ассоциативного правила]] и его связь с понятием логической закономерности. | ||
* Примеры прикладных задач: [[анализ рыночных корзин]], выделение терминов и тематики текстов. | * Примеры прикладных задач: [[анализ рыночных корзин]], выделение терминов и тематики текстов. | ||
Строка 208: | Строка 209: | ||
* Общее представление о динамических и иерархических методах поиска ассоциативных правил. | * Общее представление о динамических и иерархических методах поиска ассоциативных правил. | ||
- | == Линейные | + | == Линейные ансамбли == |
Текст лекций: [[Media:Voron-ML-Compositions.pdf|(PDF, 1 MБ)]].<br/> | Текст лекций: [[Media:Voron-ML-Compositions.pdf|(PDF, 1 MБ)]].<br/> | ||
Презентация: [[Media:Voron-ML-Compositions-slides.pdf|(PDF, 0.9 МБ)]] {{важно|— обновление 14.12.2019}}. | Презентация: [[Media:Voron-ML-Compositions-slides.pdf|(PDF, 0.9 МБ)]] {{важно|— обновление 14.12.2019}}. | ||
- | * Основные понятия: [[базовый алгоритм]] | + | |
- | * [[Взвешенное голосование]]. | + | * Основные понятия: [[базовый алгоритм]], [[корректирующая операция]]. |
- | * [[Алгоритм AdaBoost]]. Экспоненциальная аппроксимация пороговой функции потерь. Процесс последовательного обучения базовых алгоритмов. Теорема о сходимости [[бустинг]]а. | + | * [[Простое голосование]] (комитет большинства). |
- | * Обобщающая способность бустинга. | + | * Стохастические методы: [[бэггинг]] и [[метод случайных подпространств]]. |
+ | * [[Случайный лес]] (Random Forest). | ||
+ | * [[Взвешенное голосование]]. Преобразование простого голосования во взвешенное. | ||
+ | * [[Алгоритм AdaBoost]]. Экспоненциальная аппроксимация пороговой функции потерь. Процесс последовательного обучения базовых алгоритмов. Теорема о сходимости [[бустинг]]а. Идентификация нетипичных объектов (выбросов). | ||
+ | * Теоретические обоснования. Обобщающая способность бустинга. Анализ смещения и вариации для простого голосования. | ||
* Базовые алгоритмы в бустинге. Решающие пни. | * Базовые алгоритмы в бустинге. Решающие пни. | ||
- | * ''Варианты бустинга: [[GentleBoost]], [[LogitBoost]], [[BrownBoost]], и другие.'' | + | * ''Варианты бустинга: [[Алгоритм AnyBoost]], [[GentleBoost]], [[LogitBoost]], [[BrownBoost]], и другие.'' |
- | * | + | * Сравнение бэггинга и бустинга. |
- | * [[Алгоритм | + | * [[Алгоритм ComBoost]]. Обобщение на большое число классов. |
- | + | ||
- | == | + | == Продвинутые методы ансамблирования == |
Презентация: [[Media:Voron-ML-Compositions-slides2.pdf|(PDF, 0.9 МБ)]] {{важно|— обновление 14.12.2019}}. | Презентация: [[Media:Voron-ML-Compositions-slides2.pdf|(PDF, 0.9 МБ)]] {{важно|— обновление 14.12.2019}}. | ||
- | * | + | |
- | * [[ | + | * [[Градиентный бустинг]]. Стохастический градиентный бустинг. |
- | * | + | * [[Алгоритм XGBoost]]. |
- | + | * [[Алгоритм CatBoost]]. Обработка категориальных признаков. | |
- | + | * [[Стэкинг]]. Линейный стэкинг, взвешенный по признакам. | |
- | + | ||
* [[Смесь алгоритмов]] (квазилинейная композиция), [[область компетентности]], примеры функций компетентности. | * [[Смесь алгоритмов]] (квазилинейная композиция), [[область компетентности]], примеры функций компетентности. | ||
* Выпуклые функции потерь. Методы построения смесей: последовательный и иерархический. | * Выпуклые функции потерь. Методы построения смесей: последовательный и иерархический. | ||
Строка 295: | Строка 298: | ||
== Кластеризация и частичное обучение == | == Кластеризация и частичное обучение == | ||
Презентация: [[Media:Voron-ML-Clustering-SSL-slides.pdf|(PDF, 1,8 МБ)]] {{важно|— обновление 14.12.2019}}. | Презентация: [[Media:Voron-ML-Clustering-SSL-slides.pdf|(PDF, 1,8 МБ)]] {{важно|— обновление 14.12.2019}}. | ||
+ | |||
* Постановка задачи [[кластеризация|кластеризации]]. Примеры прикладных задач. Типы кластерных структур. | * Постановка задачи [[кластеризация|кластеризации]]. Примеры прикладных задач. Типы кластерных структур. | ||
* Постановка задачи Semisupervised Learning, примеры приложений. | * Постановка задачи Semisupervised Learning, примеры приложений. | ||
Строка 321: | Строка 325: | ||
== Нейронные сети глубокого обучения == | == Нейронные сети глубокого обучения == | ||
Презентация: [[Media:Voron-ML-DeepLearning-slides.pdf|(PDF, 3,4 МБ)]] {{важно|— обновление 14.12.2019}}. | Презентация: [[Media:Voron-ML-DeepLearning-slides.pdf|(PDF, 3,4 МБ)]] {{важно|— обновление 14.12.2019}}. | ||
+ | |||
* Свёрточные нейронные сети (CNN) для изображений. Свёрточный нейрон. Pooling нейрон. Выборка размеченных изображений ImageNet. | * Свёрточные нейронные сети (CNN) для изображений. Свёрточный нейрон. Pooling нейрон. Выборка размеченных изображений ImageNet. | ||
* Свёрточные сети для сигналов, текстов, графов, игр. | * Свёрточные сети для сигналов, текстов, графов, игр. | ||
Строка 333: | Строка 338: | ||
== Нейронные сети с обучением без учителя == | == Нейронные сети с обучением без учителя == | ||
Презентация: [[Media:Voron-ML-ANN-Unsupervised-slides.pdf|(PDF, 2,3 МБ)]] {{важно|— обновление 03.10.2020}}. | Презентация: [[Media:Voron-ML-ANN-Unsupervised-slides.pdf|(PDF, 2,3 МБ)]] {{важно|— обновление 03.10.2020}}. | ||
+ | |||
* [[Нейронная сеть Кохонена]]. [[Конкурентное обучение]], стратегии WTA и WTM. | * [[Нейронная сеть Кохонена]]. [[Конкурентное обучение]], стратегии WTA и WTM. | ||
* [[Самоорганизующаяся карта Кохонена]]. Применение для визуального анализа данных. Искусство интерпретации карт Кохонена. | * [[Самоорганизующаяся карта Кохонена]]. Применение для визуального анализа данных. Искусство интерпретации карт Кохонена. | ||
Строка 346: | Строка 352: | ||
== Векторные представления текстов и графов == | == Векторные представления текстов и графов == | ||
Презентация: [[Media:Voron-ML-Embeddings-slides.pdf|(PDF, 1,3 МБ)]] {{важно|— обновление 14.10.2020}}. | Презентация: [[Media:Voron-ML-Embeddings-slides.pdf|(PDF, 1,3 МБ)]] {{важно|— обновление 14.10.2020}}. | ||
+ | |||
* Векторные представления текста. Гипотеза дистрибутивной семантики. | * Векторные представления текста. Гипотеза дистрибутивной семантики. | ||
* Модели [[word2vec]], [[FastText]]. | * Модели [[word2vec]], [[FastText]]. | ||
Строка 366: | Строка 373: | ||
== Ранжирование == | == Ранжирование == | ||
- | Презентация: [[Media:Voron-ML-Ranking-slides.pdf|(PDF, 0, | + | Презентация: [[Media:Voron-ML-Ranking-slides.pdf|(PDF, 0,8 МБ)]] {{важно|— обновление 3.11.2020}}. |
* Постановка задачи [[Обучение ранжированию|обучения ранжированию]]. Примеры. | * Постановка задачи [[Обучение ранжированию|обучения ранжированию]]. Примеры. | ||
- | * Признаки в задаче ранжирования поисковой выдачи: текстовые, ссылочные, кликовые. [[TF-IDF]] | + | * Поточечные методы Ранговая регрессия. Ранговая классификация, OC-SVM. |
+ | * Попарные методы: RankingSVM, RankNet, LambdaRank. | ||
+ | * Списочные методы. | ||
+ | * Признаки в задаче ранжирования поисковой выдачи: текстовые, ссылочные, кликовые. [[TF-IDF]], [[Okapi BM25]], [[PageRank]]. | ||
* Критерии качества ранжирования: Precision, MAP, AUC, DCG, NDCG, pFound. | * Критерии качества ранжирования: Precision, MAP, AUC, DCG, NDCG, pFound. | ||
- | * | + | * Глубокая структурированная семантическая модель [[DSSM]] (Deep Structured Semantic Model). |
- | + | ||
== Рекомендательные системы == | == Рекомендательные системы == |
Версия 23:21, 6 ноября 2020
Теория обучения машин (machine learning, машинное обучение) находится на стыке прикладной статистики, численных методов оптимизации, дискретного анализа, и за последние 60 лет оформилась в самостоятельную математическую дисциплину. Методы машинного обучения составляют основу ещё более молодой дисциплины — интеллектуального анализа данных (data mining).
В курсе рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Теоремы в основном приводятся без доказательств.
Все методы излагаются по единой схеме:
- исходные идеи и эвристики;
- их формализация и математическая теория;
- описание алгоритма в виде слабо формализованного псевдокода;
- анализ достоинств, недостатков и границ применимости;
- пути устранения недостатков;
- сравнение и взаимосвязи с другими методами.
- примеры прикладных задач.
Данный курс расширяет и углубляет набор тем, рекомендованный международным стандартом ACM/IEEE Computing Curricula 2001 по дисциплине «Машинное обучение и нейронные сети» (machine learning and neural networks) в разделе «Интеллектуальные системы» (intelligent systems).
Курс читается
- студентам 3 курса кафедры «Интеллектуальные системы / интеллектуальный анализ данных» ФУПМ МФТИ с 2004 года;
- студентам 3 курса кафедры «Математические методы прогнозирования» ВМиК МГУ с 2007 года;
- студентам Школы анализа данных Яндекса с 2009 года.
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации и языка программирования Python желательно, но не обязательно.
Курсивом выделен дополнительный материал, который может разбираться на семинарах.
Замечания для студентов
- Осенью 2020 года курс читается в дистанционном режиме. Подключиться к конференции Zoom Обновлено: 12-09-2020
- Ссылка на семинары для студентов МФТИ
- Видеолекции ШАД Яндекс. Обновлено: 2019 год
- «Введение в машинное обучение» на Курсэре содержит примерно втрое меньше материала, чем в годовом курсе, представленном на этой странице. Там очень многое упрощено, спрятано, пропущено. Действительно введение.
- На подстранице имеется перечень вопросов к устному экзамену. Очень помогает при подготовке к устному экзамену!
- О найденных ошибках и опечатках сообщайте мне. — К.В.Воронцов 18:24, 19 января 2009 (MSK)
- Материал, который есть в pdf-тексте, но не рассказывался на лекциях, обычно не входит в программу экзамена.
- Короткая ссылка на эту страницу: https://bit.ly/1bCmE3Z.
Семестр 1. Математические основы машинного обучения
Текст лекций: (PDF, 3 МБ) — обновление 4.10.2011.
Основные понятия и примеры прикладных задач
Презентация: (PDF, 1,4 МБ) — обновление 05.09.2020.
- Постановка задач обучения по прецедентам. Объекты и признаки. Типы шкал: бинарные, номинальные, порядковые, количественные.
- Типы задач: классификация, регрессия, прогнозирование, ранжирование.
- Основные понятия: модель алгоритмов, метод обучения, функция потерь и функционал качества, принцип минимизации эмпирического риска, обобщающая способность, скользящий контроль.
- Линейные модели регрессии и классификации. Метод наименьших квадратов. Полиномиальная регрессия.
- Примеры прикладных задач.
- Методика экспериментального исследования и сравнения алгоритмов на модельных и реальных данных.
- Конкурсы по анализу данных kaggle.com. Полигон алгоритмов классификации.
- CRISP-DM — межотраслевой стандарт ведения проектов интеллектуального анализа данных.
Линейный классификатор и стохастический градиент
Презентация: (PDF, 1,1 МБ) — обновление 12.09.2020.
- Линейный классификатор, модель МакКаллока-Питтса, непрерывные аппроксимации пороговой функции потерь.
- Метод стохастического градиента SG.
- Метод стохастического среднего градиента SAG.
- Эвристики: инициализация весов, порядок предъявления объектов, выбор величины градиентного шага, «выбивание» из локальных минимумов.
- Проблема мультиколлинеарности и переобучения, регуляризация или редукция весов (weight decay).
- Вероятностная постановка задачи классификации. Принцип максимума правдоподобия.
- Вероятностная интерпретация регуляризации, совместное правдоподобие данных и модели. Принцип максимума апостериорной вероятности.
- Гауссовский и лапласовский регуляризаторы.
- Логистическая регрессия. Принцип максимума правдоподобия и логарифмическая функция потерь. Метод стохастического градиента для логарифмической функции потерь. Многоклассовая логистическая регрессия. Регуляризованная логистическая регрессия. Калибровка Платта.
Нейронные сети: градиентные методы оптимизации
Презентация: (PDF, 1,4 МБ) — обновление 19.09.2020.
- Биологический нейрон, модель МакКаллока-Питтса как линейный классификатор. Функции активации.
- Проблема полноты. Задача исключающего или. Полнота двухслойных сетей в пространстве булевых функций.
- Алгоритм обратного распространения ошибок.
- Быстрые методы стохастического градиента: Поляка, Нестерова, AdaGrad, RMSProp, AdaDelta, Adam, Nadam, диагональный метод Левенберга-Марквардта.
- Проблема взрыва градиента и эвристика gradient clipping.
- Метод случайных отключений нейронов (Dropout). Интерпретации Dropout. Обратный Dropout и L2-регуляризация.
- Функции активации ReLU и PReLU. Проблема «паралича» сети.
- Эвристики для формирования начального приближения. Метод послойной настройки сети.
- Подбор структуры сети: методы постепенного усложнения сети, оптимальное прореживание нейронных сетей (optimal brain damage).
Метрические методы классификации и регрессии
Презентация: (PDF, 3,2 МБ) — обновление 05.03.2020.
- Гипотезы компактности и непрерывности.
- Обобщённый метрический классификатор.
- Метод ближайших соседей kNN и его обобщения. Подбор числа k по критерию скользящего контроля.
- Метод окна Парзена с постоянной и переменной шириной окна.
- Метод потенциальных функций и его связь с линейной моделью классификации.
- Задача отбора эталонов. Полный скользящий контроль (CCV), формула быстрого вычисления для метода 1NN. Профиль компактности.
- Отбор эталонных объектов на основе минимизации функционала полного скользящего контроля.
- Непараметрическая регрессия. Локально взвешенный метод наименьших квадратов. Ядерное сглаживание.
- Оценка Надарая-Ватсона с постоянной и переменной шириной окна. Выбор функции ядра и ширины окна сглаживания.
- Задача отсева выбросов. Робастная непараметрическая регрессия. Алгоритм LOWESS.
Метод опорных векторов
Презентация: (PDF, 1,1 МБ) — обновление 24.03.2020.
- Оптимальная разделяющая гиперплоскость. Понятие зазора между классами (margin).
- Случаи линейной разделимости и отсутствия линейной разделимости. Связь с минимизацией регуляризованного эмпирического риска. Кусочно-линейная функция потерь.
- Задача квадратичного программирования и двойственная задача. Понятие опорных векторов.
- Рекомендации по выбору константы C.
- Функция ядра (kernel functions), спрямляющее пространство, теорема Мерсера.
- Способы конструктивного построения ядер. Примеры ядер.
- SVM-регрессия.
- Регуляризации для отбора признаков: LASSO SVM, Elastic Net SVM, SFM, RFM.
- Метод релевантных векторов RVM
Многомерная линейная регрессия
Презентация: (PDF, 1,2 MБ) — обновление 10.10.2020.
- Задача регрессии, многомерная линейная регрессия.
- Метод наименьших квадратов, его вероятностный смысл и геометрический смысл.
- Сингулярное разложение.
- Проблемы мультиколлинеарности и переобучения.
- Регуляризация. Гребневая регрессия через сингулярное разложение.
- Методы отбора признаков: Лассо Тибширани, Elastic Net, сравнение с гребневой регрессией.
- Метод главных компонент и декоррелирующее преобразование Карунена-Лоэва, его связь с сингулярным разложением.
- Спектральный подход к решению задачи наименьших квадратов.
- Задачи и методы низкоранговых матричных разложений.
Нелинейная регрессия
Презентация: (PDF, 0,7 MБ) — обновление 17.10.2020.
- Метод Ньютона-Рафсона, метод Ньютона-Гаусса.
- Обобщённая аддитивная модель (GAM): метод настройки с возвращениями (backfitting) Хасти-Тибширани.
- Логистическая регрессия. Метод наименьших квадратов с итеративным пересчётом весов (IRLS). Пример прикладной задачи: кредитный скоринг. Бинаризация признаков. Скоринговые карты и оценивание вероятности дефолта. Риск кредитного портфеля банка.
- Обобщённая линейная модель (GLM). Экспоненциальное семейство распределений.
- Неквадратичные функции потерь. Метод наименьших модулей. Квантильная регрессия. Пример прикладной задачи: прогнозирование потребительского спроса.
- Робастная регрессия, функции потерь с горизонтальными асимптотами.
Критерии выбора моделей и методы отбора признаков
Текст лекций: (PDF, 330 КБ).
Презентация: (PDF, 1,5 МБ) — обновление 25.10.2020.
- Критерии качества классификации: чувствительность и специфичность, ROC-кривая и AUC, точность и полнота, AUC-PR.
- Внутренние и внешние критерии. Эмпирические и аналитические критерии.
- Скользящий контроль, разновидности эмпирических оценок скользящего контроля. Критерий непротиворечивости.
- Разновидности аналитических оценок. Регуляризация. Критерий Акаике (AIC). Байесовский информационный критерий (BIC). Оценка Вапника-Червоненкиса.
- Сложность задачи отбора признаков. Полный перебор.
- Метод добавления и удаления, шаговая регрессия.
- Поиск в глубину, метод ветвей и границ.
- Усечённый поиск в ширину, многорядный итерационный алгоритм МГУА.
- Генетический алгоритм, его сходство с МГУА.
- Случайный поиск и Случайный поиск с адаптацией (СПА).
Логические методы классификации
Текст лекций: (PDF, 625 КБ).
Презентация: (PDF, 1.8 МБ) — обновление 20.10.2020.
- Понятие логической закономерности.
- Параметрические семейства закономерностей: конъюнкции пороговых правил, синдромные правила, шары, гиперплоскости.
- Переборные алгоритмы синтеза конъюнкций: стохастический локальный поиск, стабилизация, редукция.
- Двухкритериальный отбор информативных закономерностей, парето-оптимальный фронт в (p,n)-пространстве.
- Статистический критерий информативности, точный тест Фишера. Сравнение областей эвристических и статистических закономерностей. Разнообразие критериев информативности в (p,n)-пространстве.
- Решающее дерево. Жадная нисходящая стратегия «разделяй и властвуй». Алгоритм ID3. Недостатки жадной стратегии и способы их устранения. Проблема переобучения.
- Вывод критериев ветвления. Мера нечистоты (impurity) распределения. Энтропийный критерий, критерий Джини.
- Редукция решающих деревьев: предредукция и постредукция. Алгоритм C4.5.
- Деревья регрессии. Алгоритм CART.
- Небрежные решающие деревья (oblivious decision tree).
- Решающий лес. Случайный лес (Random Forest).
- Решающий пень. Бинаризация признаков. Алгоритм разбиения области значений признака на информативные зоны.
- Решающий список. Жадный алгоритм синтеза списка. Преобразование решающего дерева в решающий список.
Факультатив
- Асимптотическая эквивалентность статистического и энтропийного критерия информативности.
Поиск ассоциативных правил
Презентация: (PDF, 1.1 МБ) — обновление 14.12.2019.
- Понятие ассоциативного правила и его связь с понятием логической закономерности.
- Примеры прикладных задач: анализ рыночных корзин, выделение терминов и тематики текстов.
- Алгоритм APriori. Два этапа: поиск частых наборов и рекурсивное порождение ассоциативных правил. Недостатки и пути усовершенствования алгоритма APriori.
- Алгоритм FP-growth. Понятия FP-дерева и условного FP-дерева. Два этапа поиска частых наборов в FP-growth: построение FP-дерева и рекурсивное порождение частых наборов.
- Общее представление о динамических и иерархических методах поиска ассоциативных правил.
Линейные ансамбли
Текст лекций: (PDF, 1 MБ).
Презентация: (PDF, 0.9 МБ) — обновление 14.12.2019.
- Основные понятия: базовый алгоритм, корректирующая операция.
- Простое голосование (комитет большинства).
- Стохастические методы: бэггинг и метод случайных подпространств.
- Случайный лес (Random Forest).
- Взвешенное голосование. Преобразование простого голосования во взвешенное.
- Алгоритм AdaBoost. Экспоненциальная аппроксимация пороговой функции потерь. Процесс последовательного обучения базовых алгоритмов. Теорема о сходимости бустинга. Идентификация нетипичных объектов (выбросов).
- Теоретические обоснования. Обобщающая способность бустинга. Анализ смещения и вариации для простого голосования.
- Базовые алгоритмы в бустинге. Решающие пни.
- Варианты бустинга: Алгоритм AnyBoost, GentleBoost, LogitBoost, BrownBoost, и другие.
- Сравнение бэггинга и бустинга.
- Алгоритм ComBoost. Обобщение на большое число классов.
Продвинутые методы ансамблирования
Презентация: (PDF, 0.9 МБ) — обновление 14.12.2019.
- Градиентный бустинг. Стохастический градиентный бустинг.
- Алгоритм XGBoost.
- Алгоритм CatBoost. Обработка категориальных признаков.
- Стэкинг. Линейный стэкинг, взвешенный по признакам.
- Смесь алгоритмов (квазилинейная композиция), область компетентности, примеры функций компетентности.
- Выпуклые функции потерь. Методы построения смесей: последовательный и иерархический.
- Построение смеси алгоритмов с помощью EM-подобного алгоритма.
Байесовская классификация и оценивание плотности
Презентация: (PDF, 1,6 МБ) — обновление 14.12.2019.
- Принцип максимума апостериорной вероятности. Теорема об оптимальности байесовского классификатора.
- Оценивание плотности распределения: три основных подхода.
- Наивный байесовский классификатор.
- Непараметрическое оценивание плотности. Ядерная оценка плотности Парзена-Розенблатта. Одномерный и многомерный случаи.
- Метод парзеновского окна. Выбор функции ядра. Выбор ширины окна, переменная ширина окна.
- Параметрическое оценивание плотности. Нормальный дискриминантный анализ.
- Многомерное нормальное распределение, геометрическая интерпретация. Выборочные оценки параметров многомерного нормального распределения.
- Квадратичный дискриминант. Вид разделяющей поверхности. Подстановочный алгоритм, его недостатки и способы их устранения.
- Линейный дискриминант Фишера.
- Проблемы мультиколлинеарности и переобучения. Регуляризация ковариационной матрицы.
- Параметрический наивный байесовский классификатор.
- Смесь распределений.
- EM-алгоритм как метод простых итераций для решения системы нелинейных уравнений.
- Выбор числа компонентов смеси. Пошаговая стратегия. Априорное распределение Дирихле.
- Смесь многомерных нормальных распределений. Сеть радиальных базисных функций (RBF) и применение EM-алгоритма для её настройки.
- Сравнение RBF-сети и SVM с гауссовским ядром.
Кластеризация и частичное обучение
Презентация: (PDF, 1,8 МБ) — обновление 14.12.2019.
- Постановка задачи кластеризации. Примеры прикладных задач. Типы кластерных структур.
- Постановка задачи Semisupervised Learning, примеры приложений.
- Оптимизационные постановки задач кластеризации и частичного обучения.
- Алгоритм k-средних и ЕМ-алгоритм для разделения гауссовской смеси.
- Графовые алгоритмы кластеризации. Выделение связных компонент. Кратчайший незамкнутый путь.
- Алгоритм ФОРЭЛ.
- Алгоритм DBSCAN.
- Агломеративная кластеризация, Алгоритм Ланса-Вильямса и его частные случаи.
- Алгоритм построения дендрограммы. Определение числа кластеров.
- Свойства сжатия/растяжения, монотонности и редуктивности. Псевдокод редуктивной версии алгоритма.
- Простые эвристические методы частичного обучения: self-training, co-training, co-learning.
- Трансдуктивный метод опорных векторов TSVM.
- Алгоритм Expectation-Regularization на основе многоклассовой регуляризированной логистической регрессии.
Семестр 2. Прикладные модели машинного обучения
Нейронные сети глубокого обучения
Презентация: (PDF, 3,4 МБ) — обновление 14.12.2019.
- Свёрточные нейронные сети (CNN) для изображений. Свёрточный нейрон. Pooling нейрон. Выборка размеченных изображений ImageNet.
- Свёрточные сети для сигналов, текстов, графов, игр.
- Рекуррентные нейронные сети (RNN). Обучение рекуррентных сетей: Backpropagation Through Time (BPTT).
- Сети долгой кратковременной памяти (Long short-term memory, LSTM).
- Рекуррентная сеть Gated Recurrent Unit (GRU).
- Автокодировщики. Векторные представления дискретных данных.
- Перенос обучения (transfer learning).
- Самообучение (self-supervised learning).
- Генеративные состязательные сети (GAN, generative adversarial net).
Нейронные сети с обучением без учителя
Презентация: (PDF, 2,3 МБ) — обновление 03.10.2020.
- Нейронная сеть Кохонена. Конкурентное обучение, стратегии WTA и WTM.
- Самоорганизующаяся карта Кохонена. Применение для визуального анализа данных. Искусство интерпретации карт Кохонена.
- Автокодировщик. Линейный AE, SAE, DAE, CAE, RAE, VAE, AE для классификации, многослойный AE.
- Перенос обучения (transfer learning).
- Самостоятельное обучение (self-supervised learning).
- Дистилляция моделей или суррогатное моделирование.
- Обучение с использованием привилегированной информации.
- Генеративные состязательные сети (GAN).
Векторные представления текстов и графов
Презентация: (PDF, 1,3 МБ) — обновление 14.10.2020.
- Векторные представления текста. Гипотеза дистрибутивной семантики.
- Модели word2vec, FastText.
- Векторные представления графов.
- Многомерное шкалирование.
- Модели случайных блужданий DeepWalk, node2vec.
- Обобщённый автокодировщик на графах GraphEDM.
- Векторные представления гиперграфов.
- Тематические модели транзакционных данных. EM-алгоритм для тематической модели гиперграфа.
- Примеры транзакционных моделей на гиперграфах.
Модели внимания и трансформеры
Презентация: (PDF, 1,1 МБ) — обновление 7.11.2020.
- Задачи обработки последовательностей.
- Рекуррентная сеть с моделью внимания. Разновидности моделей внимания.
- Критерии обучения и оценивание качества (предобучение).
- Прикладные задачи: машинный перевод, аннотирование изображений (эквивалентность MHSA и CNN).
- Модели внимания на графах.
- Трансформеры для текстов, изображений, графов.
Ранжирование
Презентация: (PDF, 0,8 МБ) — обновление 3.11.2020.
- Постановка задачи обучения ранжированию. Примеры.
- Поточечные методы Ранговая регрессия. Ранговая классификация, OC-SVM.
- Попарные методы: RankingSVM, RankNet, LambdaRank.
- Списочные методы.
- Признаки в задаче ранжирования поисковой выдачи: текстовые, ссылочные, кликовые. TF-IDF, Okapi BM25, PageRank.
- Критерии качества ранжирования: Precision, MAP, AUC, DCG, NDCG, pFound.
- Глубокая структурированная семантическая модель DSSM (Deep Structured Semantic Model).
Рекомендательные системы
Презентация: (PDF, 0.8 МБ) — обновление 14.12.2019.
- Задачи коллаборативной фильтрации, транзакционные данные.
- Корреляционные методы user-based, item-based. Задача восстановления пропущенных значений. Меры сходства.
- Латентные методы на основе би-кластеризации. Алгоритм Брегмана.
- Латентные методы на основе матричных разложений. Метод главных компонент для разреженных данных (LFM, Latent Factor Model). Метод стохастического градиента.
- Неотрицательные матричные разложения. Метод чередующихся наименьших квадратов ALS.
- Модель с учётом неявной информации (implicit feedback).
- Рекомендации с учётом дополнительных признаковых данных. Линейная и квадратичная регрессионные модели, libFM.
- Измерение качества рекомендаций. Меры разнообразия (diversity), новизны (novelty), покрытия (coverage), догадливости (serendipity).
Тематическое моделирование
Текст лекций: (PDF, 830 КБ).
Презентация: (PDF, 1.6 МБ) — обновление 14.12.2019.
- Задача тематического моделирования коллекции текстовых документов.
- Вероятностный латентный семантический анализ PLSA. Метод максимума правдоподобия. ЕМ-алгоритм. Элементарная интерпретация EM-алгоритма.
- Латентное размещение Дирихле LDA. Метод максимума апостериорной вероятности. Сглаженная частотная оценка условной вероятности.
- Небайесовская интерпретация LDA и её преимущества. Регуляризаторы разреживания, сглаживания, частичного обучения.
- Аддитивная регуляризация тематических моделей. Регуляризованный EM-алгоритм, теорема о стационарной точке (применение условий Каруша–Куна–Таккера).
- Рациональный EM-алгоритм. Онлайновый EM-алгоритм и его распараллеливание.
- Мультимодальная тематическая модель.
- Регуляризаторы классификации и регрессии.
- Регуляризаторы декоррелирования и отбора тем.
- Внутренние и внешние критерии качества тематических моделей.
Прогнозирование временных рядов
Презентация: (PDF, 0,9 MБ) — обновление 14.12.2019.
- Задача прогнозирования временных рядов. Примеры приложений.
- Экспоненциальное скользящее среднее. Модель Хольта. Модель Тейла-Вейджа. Модель Хольта-Уинтерса.
- Адаптивная авторегрессионная модель.
- Следящий контрольный сигнал. Модель Тригга-Лича.
- Адаптивная селективная модель. Адаптивная композиция моделей.
- Локальная адаптация весов с регуляризацией.
Инкрементное и онлайновое обучение
(в разработке...)
- Отличия инкрементного и онлайнового обучения.
- Добавление новых объектов. Ленивое обучение: kNN, парзеновские методы. Метод наименьших квадратов для линейной регрессии. Решающие деревья и леса.
- Добавление новых признаков. Матричные разложения.
- Добавление новых классов.
- Оценивание инкрементного обучения. Кривые обучения.
Обучение с подкреплением
Презентация: (PDF, 1.0 МБ) — обновление 14.12.2019.
- Задача о многоруком бандите. Жадные и эпсилон-жадные стратегии. Метод UCB (upper confidence bound). Стратегия Softmax.
- Среда для экспериментов.
- Адаптивные стратегии на основе скользящих средних. Метод сравнения с подкреплением. Метод преследования.
- Постановка задачи в случае, когда агент влияет на среду. Ценность состояния среды. Ценность действия.
- Жадные стратегии максимизации ценности. Уравнения оптимальности Беллмана.
- Метод временных разностей TD. Метод Q-обучения.
- Градиентная оптимизация стратегии (policy gradient). Связь с максимизацией log-правдоподобия.
- Постановка задачи при наличии информации о среде в случае выбора действия. Контекстный многорукий бандит.
- Линейная регрессионная модель с верхней доверительной оценкой LinUCB.
- Оценивание новой стратегии по большим историческим данным.
Активное обучение
Презентация: (PDF, 1.2 МБ) — обновление 14.12.2019.
- Постановка задачи машинного обучения. Основные стратегии: отбор объектов из выборки и из потока, синтез объектов.
- Сэмплирование по неуверенности. Почему активное обучение быстрее пассивного.
- Сэмплирование по несогласию в комитете. Сокращение пространства решений.
- Сэмплирование по ожидаемому изменению модели.
- Сэмплирование по ожидаемому сокращению ошибки.
- Синтез объектов по критерию сокращения дисперсии.
- Взвешивание по плотности.
- Оценивание качества активного обучения.
- Введение изучающих действий в стратегию активного обучении. Алгоритмы ε-active и EG-active.
- Применение обучения с подкреплением для активного обучения. Активное томпсоновское сэмплирование.
Заключительная лекция
Презентация: (PDF, 2.0 МБ) — обновление 14.12.2019.
Обзор курса. Оптимизационные задачи машинного обучения.
См. также
- Курс «Введение в машинное обучение», К.В.Воронцов (ВШЭ и Яндекс).Хабр об этом курсе.
- Специализация «Машинное обучение и анализ данных» (МФТИ и Яндекс). Хабр об этом курсе.
- Машинное обучение (семинары,ФУПМ МФТИ)
- Машинное обучение (семинары, ВМК МГУ)
- Машинное обучение (курс лекций, Н.Ю.Золотых)
- Машинное обучение (курс лекций, СГАУ, С.Лисицын)
Литература
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. Springer, 2014. — 739 p.
- Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006. — 738 p.
- Мерков А. Б. Распознавание образов. Введение в методы статистического обучения. 2011. 256 с.
- Мерков А. Б. Распознавание образов. Построение и обучение вероятностных моделей. 2014. 238 с.
- Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python. 2016. 302 с.
Список подстраниц
Машинное обучение (курс лекций, К.В.Воронцов)/2009 | Машинное обучение (курс лекций, К.В.Воронцов)/ToDo | Машинное обучение (курс лекций, К.В.Воронцов)/Вопросы |
Машинное обучение (курс лекций, К.В.Воронцов)/Семестровый курс | Машинное обучение (курс лекций, К.В.Воронцов)/Форма отчета |