Машинное обучение (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Тематическое моделирование)
(перестановка лекций: логические в первый семестр, нейросети и кластеризация во второй семестр)
Строка 48: Строка 48:
* Методика экспериментального исследования и сравнения алгоритмов на модельных и реальных данных. [[Полигон алгоритмов классификации]].
* Методика экспериментального исследования и сравнения алгоритмов на модельных и реальных данных. [[Полигон алгоритмов классификации]].
* ''Вероятностная постановка задачи обучения по прецедентам, [[принцип максимума правдоподобия]] и его связь с принципом минимизации эмпирического риска. Разновидности функций потерь и их вероятностная интерпретация.''
* ''Вероятностная постановка задачи обучения по прецедентам, [[принцип максимума правдоподобия]] и его связь с принципом минимизации эмпирического риска. Разновидности функций потерь и их вероятностная интерпретация.''
-
 
-
== Статистичесие (байесовские) методы классификации ==
 
-
Презентация: [[Media:Voron-ML-Bayes-slides.pdf|(PDF, 2,4 МБ)]] {{важно|— обновление 6.03.2013}}.
 
-
 
-
=== Оптимальный байесовский классификатор ===
 
-
* Принцип максимума апостериорной вероятности.
 
-
* Функционал среднего риска. Ошибки I и II рода.
 
-
* Теорема об оптимальности байесовского классификатора.
 
-
* [[Оценивание плотности распределения]]: три основных подхода.
 
-
* [[Наивный байесовский классификатор]].
 
-
 
-
=== Непараметрическое оценивание плотности ===
 
-
* [[Ядерная оценка плотности Парзена-Розенблатта]]. Одномерный и многомерный случаи.
 
-
* [[Метод парзеновского окна]].
 
-
* Выбор функции ядра. Выбор ширины окна, переменная ширина окна.
 
-
* Робастное оценивание плотности.
 
-
* Непараметрический наивный байесовский классификатор.
 
-
 
-
=== Параметрическое оценивание плотности ===
 
-
* [[Нормальный дискриминантный анализ]]. [[Многомерное нормальное распределение]], геометрическая интерпретация. Выборочные оценки параметров многомерного нормального распределения.
 
-
* ''Матричное дифференцирование. Вывод оценок параметров многомерного нормального распределения.''
 
-
* [[Квадратичный дискриминант]]. Вид разделяющей поверхности. [[Подстановочный алгоритм]], его недостатки и способы их устранения.
 
-
* [[Линейный дискриминант Фишера]].
 
-
* Проблемы [[мультиколлинеарность|мультиколлинеарности]] и [[переобучение|переобучения]]. [[Регуляризация]] ковариационной матрицы.
 
-
* ''Робастное оценивание. Цензурирование выборки (отсев объектов-выбросов).''
 
-
* Параметрический наивный байесовский классификатор.
 
-
* ''[[Метод редукции размерности]] Шурыгина.''
 
-
 
-
=== Разделение смеси распределений ===
 
-
* [[Смесь распределений]].
 
-
* [[EM-алгоритм]]: основная идея, понятие скрытых переменных. «Вывод» алгоритма без обоснования сходимости. Псевдокод EM-алгоритма. Критерий останова. Выбор начального приближения. Выбор числа компонентов смеси.
 
-
* Стохастический EM-алгоритм.
 
-
* Смесь многомерных нормальных распределений. [[Сеть радиальных базисных функций]] (RBF) и применение EM-алгоритма для её настройки.
 
== Метрические методы классификации ==
== Метрические методы классификации ==
Строка 97: Строка 64:
* ''[[Проклятие размерности]]. Задача настройки весов признаков.''
* ''[[Проклятие размерности]]. Задача настройки весов признаков.''
* ''Концепция вывода на основе прецедентов ([[CBR]]).''
* ''Концепция вывода на основе прецедентов ([[CBR]]).''
 +
 +
== Логические методы классификации ==
 +
Текст лекций: [[Media:Voron-ML-Logic.pdf|(PDF,&nbsp;625&nbsp;КБ)]].<br/>
 +
Презентация: [[Media:Voron-ML-Logic-slides.pdf|(PDF,&nbsp;1.3&nbsp;МБ)]] {{важно| — обновление 23.10.2012}}.
 +
 +
=== Понятия закономерности и информативности ===
 +
* Понятие [[логическая закономерность|логической закономерности]]. Эвристическое, статистическое, энтропийное определение [[информативность|информативности]]. Асимптотическая эквивалентность статистического и энтропийного определения. Сравнение областей эвристических и статистических закономерностей.
 +
* Разновидности закономерностей: конъюнкции пороговых предикатов (гиперпараллелепипеды), синдромные правила, шары, гиперплоскости.
 +
* «Градиентный» алгоритм синтеза конъюнкций, частные случаи: жадный алгоритм, [[стохастический локальный поиск]], [[стабилизация]], [[редукция]].
 +
* [[Бинаризация признаков]]. Алгоритм разбиения области значений признака на информативные зоны.
 +
 +
=== Решающие списки и деревья ===
 +
* [[Решающий список]]. Жадный алгоритм синтеза списка.
 +
* [[Решающее дерево]]. Псевдокод: жадный [[алгоритм ID3]]. Недостатки алгоритма и способы их устранения. Проблема переобучения.
 +
* [[Редукция решающих деревьев]]: [[предредукция]] и [[постредукция]].
 +
* Преобразование решающего дерева в решающий список.
 +
* ''[[Алгоритм LISTBB]].''
 +
* [[Невнимательные решающие деревья]] (oblivious decision tree).
== Линейные методы классификации ==
== Линейные методы классификации ==
Строка 109: Строка 94:
* Проблема переобучения, [[редукция весов]] (weight decay).
* Проблема переобучения, [[редукция весов]] (weight decay).
* Байесовская регуляризация. Принцип максимума совместного правдоподобия данных и модели. Квадратичный (гауссовский) и лапласовский регуляризаторы.
* Байесовская регуляризация. Принцип максимума совместного правдоподобия данных и модели. Квадратичный (гауссовский) и лапласовский регуляризаторы.
-
 
-
=== Логистическая регрессия ===
 
-
* Гипотеза экспоненциальности функций правдоподобия классов. Теорема о линейности байесовского оптимального классификатора. Оценивание апостериорных вероятностей классов с помощью сигмоидной функции активации.
 
-
* [[Логистическая регрессия]]. Принцип максимума правдоподобия и логарифмическая функция потерь. Снова метод стохастического градиента, сглаженное правило Хэбба.
 
-
* Пример прикладной задачи: кредитный скоринг. Бинаризация признаков. Скоринговые карты и оценивание вероятности дефолта. ''Риск кредитного портфеля банка.''
 
-
* Настройка порога решающего правила по критерию числа ошибок I и II рода. [[Кривая ошибок]] (ROC curve). Алгоритм эффективного построения ROC-кривой.
 
=== Метод опорных векторов ===
=== Метод опорных векторов ===
Строка 158: Строка 137:
* [[Логистическая регрессия]] как частный случай GLM, [[метод наименьших квадратов с итеративным пересчётом весов]] (IRLS).
* [[Логистическая регрессия]] как частный случай GLM, [[метод наименьших квадратов с итеративным пересчётом весов]] (IRLS).
* Одномерные нелинейные преобразования признаков: [[метод настройки с возвращениями]] (backfitting) Хасти-Тибширани.
* Одномерные нелинейные преобразования признаков: [[метод настройки с возвращениями]] (backfitting) Хасти-Тибширани.
-
* ''Неквадратичные функци потерь. Робастная регрессия, функция Мешалкина. Несимметричные функции потерь, пример прикладной задачи: прогнозирование потребительского спроса.''
+
* Неквадратичные функци потерь. Робастная регрессия, функция Мешалкина. Несимметричные функции потерь, пример прикладной задачи: прогнозирование потребительского спроса.
 +
 
 +
== Статистичесие (байесовские) методы классификации ==
 +
Презентация: [[Media:Voron-ML-Bayes-slides.pdf|(PDF,&nbsp;2,4&nbsp;МБ)]] {{важно|— обновление 6.03.2013}}.
 +
 
 +
=== Оптимальный байесовский классификатор ===
 +
* Принцип максимума апостериорной вероятности.
 +
* Функционал среднего риска. Ошибки I и II рода.
 +
* Теорема об оптимальности байесовского классификатора.
 +
* [[Оценивание плотности распределения]]: три основных подхода.
 +
* [[Наивный байесовский классификатор]].
 +
 
 +
=== Непараметрическое оценивание плотности ===
 +
* [[Ядерная оценка плотности Парзена-Розенблатта]]. Одномерный и многомерный случаи.
 +
* [[Метод парзеновского окна]].
 +
* Выбор функции ядра. Выбор ширины окна, переменная ширина окна.
 +
* Робастное оценивание плотности.
 +
* Непараметрический наивный байесовский классификатор.
 +
 
 +
=== Параметрическое оценивание плотности ===
 +
* [[Нормальный дискриминантный анализ]]. [[Многомерное нормальное распределение]], геометрическая интерпретация. Выборочные оценки параметров многомерного нормального распределения.
 +
* ''Матричное дифференцирование. Вывод оценок параметров многомерного нормального распределения.''
 +
* [[Квадратичный дискриминант]]. Вид разделяющей поверхности. [[Подстановочный алгоритм]], его недостатки и способы их устранения.
 +
* [[Линейный дискриминант Фишера]].
 +
* Проблемы [[мультиколлинеарность|мультиколлинеарности]] и [[переобучение|переобучения]]. [[Регуляризация]] ковариационной матрицы.
 +
* ''Робастное оценивание. Цензурирование выборки (отсев объектов-выбросов).''
 +
* Параметрический наивный байесовский классификатор.
 +
* ''[[Метод редукции размерности]] Шурыгина.''
 +
 
 +
=== Разделение смеси распределений ===
 +
* [[Смесь распределений]].
 +
* [[EM-алгоритм]]: основная идея, понятие скрытых переменных. «Вывод» алгоритма без обоснования сходимости. Псевдокод EM-алгоритма. Критерий останова. Выбор начального приближения. Выбор числа компонентов смеси.
 +
* Стохастический EM-алгоритм.
 +
* Смесь многомерных нормальных распределений. [[Сеть радиальных базисных функций]] (RBF) и применение EM-алгоритма для её настройки.
 +
 
 +
=== Логистическая регрессия ===
 +
* Гипотеза экспоненциальности функций правдоподобия классов. Теорема о линейности байесовского оптимального классификатора. Оценивание апостериорных вероятностей классов с помощью сигмоидной функции активации.
 +
* [[Логистическая регрессия]]. Принцип максимума правдоподобия и логарифмическая функция потерь.
 +
* Пример прикладной задачи: кредитный скоринг. Бинаризация признаков. Скоринговые карты и оценивание вероятности дефолта. ''Риск кредитного портфеля банка.''
 +
* Настройка порога решающего правила по критерию числа ошибок I и II рода. [[Кривая ошибок]] (ROC curve). Алгоритм эффективного построения ROC-кривой.
 +
 
 +
= Второй семестр =
== Нейросетевые методы классификации и регрессии ==
== Нейросетевые методы классификации и регрессии ==
Строка 170: Строка 190:
* Метод послойной настройки сети.
* Метод послойной настройки сети.
* Подбор структуры сети: методы постепенного усложнения сети, [[оптимальное прореживание нейронных сетей]] (optimal brain damage).
* Подбор структуры сети: методы постепенного усложнения сети, [[оптимальное прореживание нейронных сетей]] (optimal brain damage).
-
 
-
=== Сети Кохонена ===
 
-
* [[Нейронная сеть Кохонена]]. [[Конкурентное обучение]], стратегии WTA и WTM.
 
-
* [[Самоорганизующаяся карта Кохонена]]. Применение для визуального анализа данных. Искусство интерпретации карт Кохонена.
 
-
* [[Сети встречного распространения]], их применение для кусочно-постоянной и гладкой аппроксимации функций.
 
-
 
-
== Методы кластеризации ==
 
-
Презентация: [[Media:Voron-ML-Clustering-slides.pdf|(PDF,&nbsp;1,0&nbsp;МБ)]] {{важно|— обновление 24.04.2012}}.
 
-
 
-
=== Кластеризация ===
 
-
* Постановка задачи [[кластеризация|кластеризации]]. Примеры прикладных задач. Типы кластерных структур.
 
-
* [[Графовые алгоритмы кластеризации]]. Выделение связных компонент. [[Кратчайший незамкнутый путь]].
 
-
* [[Алгоритм ФОРЭЛ]].
 
-
* Функционалы качества кластеризации.
 
-
* Статистические алгоритмы: [[EM-алгоритм]] и [[Алгоритм k средних]] (k-means).
 
-
 
-
=== Таксономия ===
 
-
* [[Агломеративная кластеризация]], [[Алгоритм Ланса-Вильямса]] и его частные случаи.
 
-
* Алгоритм построения [[дендрограмма|дендрограммы]]. Определение числа кластеров.
 
-
* Свойства сжатия/растяжения, монотонности и редуктивности. Псевдокод редуктивной версии алгоритма.
 
-
* ''Потоковые (субквадратичные) алгоритмы кластеризации.''
 
-
 
-
=== Многомерное шкалирование ===
 
-
* [[Многомерное шкалирование]]. Минимизация функционала стресса методом Ньютона-Рафсона. Субквадратичный алгоритм.
 
-
* [[Карта сходства]] и диаграмма Шепарда.
 
-
 
-
= Второй семестр =
 
== Критерии выбора моделей и методы отбора признаков ==
== Критерии выбора моделей и методы отбора признаков ==
Строка 253: Строка 246:
* Двудольная задача. Сведение попарного функционала качества к поточечному.
* Двудольная задача. Сведение попарного функционала качества к поточечному.
-
=== Нелинейные алгоритмические композиции ===
+
=== Взвешенное голосование логических закономерностей ===
-
* [[Смесь экспертов]], [[область компетентности]] алгоритма.
+
* Применение алгоритма бустинга [[AdaBoost]] к закономерностям. Критерий информативности в бустинге.
-
* Выпуклые функции потерь. Методы построения смесей: последовательный и иерархический.
+
-
* Построение смесей экспертов с помощью EM-алгоритма.
+
-
* ''Нелинейная монотонная корректирующая операция. Случай классификации. Случай регрессии. Задача монотонизации выборки, изотонная регрессия.''
+
-
 
+
-
== Логические методы классификации ==
+
-
Текст лекций: [[Media:Voron-ML-Logic.pdf|(PDF,&nbsp;625&nbsp;КБ)]].<br/>
+
-
Презентация: [[Media:Voron-ML-Logic-slides.pdf|(PDF,&nbsp;1.3&nbsp;МБ)]] {{важно| — обновление 23.10.2012}}.
+
-
 
+
-
=== Понятия закономерности и информативности ===
+
-
* Понятие [[логическая закономерность|логической закономерности]]. Эвристическое, статистическое, энтропийное определение [[информативность|информативности]]. Асимптотическая эквивалентность статистического и энтропийного определения. Сравнение областей эвристических и статистических закономерностей.
+
-
* Разновидности закономерностей: конъюнкции пороговых предикатов (гиперпараллелепипеды), синдромные правила, шары, гиперплоскости.
+
-
* «Градиентный» алгоритм синтеза конъюнкций, частные случаи: жадный алгоритм, [[стохастический локальный поиск]], [[стабилизация]], [[редукция]].
+
-
* [[Бинаризация признаков]]. Алгоритм разбиения области значений признака на информативные зоны.
+
-
 
+
-
=== Решающие списки и деревья ===
+
-
* [[Решающий список]]. Жадный алгоритм синтеза списка.
+
-
* [[Решающее дерево]]. Псевдокод: жадный [[алгоритм ID3]]. Недостатки алгоритма и способы их устранения. Проблема переобучения.
+
-
* [[Редукция решающих деревьев]]: [[предредукция]] и [[постредукция]].
+
-
* Преобразование решающего дерева в решающий список.
+
-
* ''[[Алгоритм LISTBB]].''
+
-
* [[Чередующиеся решающие деревья]] (alternating decision tree).
+
-
* [[Невнимательные решающие деревья]] (oblivious decision tree).
+
* [[Решающий лес]] и бустинг над решающими деревьями. ''[[Алгоритм TreeNet]].''
* [[Решающий лес]] и бустинг над решающими деревьями. ''[[Алгоритм TreeNet]].''
-
 
-
=== Взвешенное голосование закономерностей ===
 
* Методы синтеза конъюнктивных закономерностей. Псевдокод: [[алгоритм КОРА]], [[алгоритм ТЭМП]].
* Методы синтеза конъюнктивных закономерностей. Псевдокод: [[алгоритм КОРА]], [[алгоритм ТЭМП]].
* Эвристики, обеспечивающие различность и полезность закономерностей. Построение Парето-оптимальных закономерностей. Выравнивание распределения отступов.
* Эвристики, обеспечивающие различность и полезность закономерностей. Построение Парето-оптимальных закономерностей. Выравнивание распределения отступов.
-
* Применение алгоритма бустинга [[AdaBoost]] к закономерностям. Критерий информативности в бустинге.
+
* [[Чередующиеся решающие деревья]] (alternating decision tree).
* Примеры прикладных задач: кредитный скоринг, прогнозирование ухода клиентов.
* Примеры прикладных задач: кредитный скоринг, прогнозирование ухода клиентов.
Строка 291: Строка 260:
* Проблема оптимизации АВО. АВО как композиция метрических закономерностей.
* Проблема оптимизации АВО. АВО как композиция метрических закономерностей.
* Применение бустинга, ТЭМП и СПА для оптимизации АВО.
* Применение бустинга, ТЭМП и СПА для оптимизации АВО.
 +
 +
=== Нелинейные алгоритмические композиции ===
 +
* [[Смесь экспертов]], [[область компетентности]] алгоритма.
 +
* Выпуклые функции потерь. Методы построения смесей: последовательный и иерархический.
 +
* Построение смесей экспертов с помощью EM-алгоритма.
 +
* ''Нелинейная монотонная корректирующая операция. Случай классификации. Случай регрессии. Задача монотонизации выборки, изотонная регрессия.''
== Обучение без учителя ==
== Обучение без учителя ==
 +
Презентация: [[Media:Voron-ML-Clustering-slides.pdf|(PDF,&nbsp;1,0&nbsp;МБ)]] {{важно|— обновление 24.04.2012}}.
 +
 +
=== Кластеризация ===
 +
* Постановка задачи [[кластеризация|кластеризации]]. Примеры прикладных задач. Типы кластерных структур.
 +
* [[Графовые алгоритмы кластеризации]]. Выделение связных компонент. [[Кратчайший незамкнутый путь]].
 +
* [[Алгоритм ФОРЭЛ]].
 +
* Функционалы качества кластеризации.
 +
* Статистические алгоритмы: [[EM-алгоритм]] и [[Алгоритм k средних]] (k-means).
 +
 +
=== Сети Кохонена ===
 +
* [[Нейронная сеть Кохонена]]. [[Конкурентное обучение]], стратегии WTA и WTM.
 +
* [[Самоорганизующаяся карта Кохонена]]. Применение для визуального анализа данных. Искусство интерпретации карт Кохонена.
 +
* [[Сети встречного распространения]], их применение для кусочно-постоянной и гладкой аппроксимации функций.
 +
 +
=== Таксономия ===
 +
* [[Агломеративная кластеризация]], [[Алгоритм Ланса-Вильямса]] и его частные случаи.
 +
* Алгоритм построения [[дендрограмма|дендрограммы]]. Определение числа кластеров.
 +
* Свойства сжатия/растяжения, монотонности и редуктивности. Псевдокод редуктивной версии алгоритма.
 +
* ''Потоковые (субквадратичные) алгоритмы кластеризации.''
 +
 +
<!---
 +
=== Многомерное шкалирование ===
 +
* [[Многомерное шкалирование]], примеры прикладных задач.
 +
* Субквадратичный алгоритм, псевдокод. Минимизация функционала стресса методом Ньютона-Рафсона.
 +
* Визуализация: [[карта сходства]], [[диаграмма Шепарда]].
 +
* Совмещение многомерного шкалирования и иерархической кластеризации.
 +
--->
=== Поиск ассоциативных правил ===
=== Поиск ассоциативных правил ===
Строка 339: Строка 341:
* Уравнения Беллмана. Оптимальные стратегии. Динамическое программирование. Метод итераций по ценностям и по стратегиям.
* Уравнения Беллмана. Оптимальные стратегии. Динамическое программирование. Метод итераций по ценностям и по стратегиям.
* Методы временных разностей: TD, SARSA, Q-метод. Многошаговое TD-прогнозирование. Адаптивный полужадный метод VDBE.
* Методы временных разностей: TD, SARSA, Q-метод. Многошаговое TD-прогнозирование. Адаптивный полужадный метод VDBE.
-
 
-
<!---
 
-
=== Многомерное шкалирование ===
 
-
* [[Многомерное шкалирование]], примеры прикладных задач.
 
-
* Субквадратичный алгоритм, псевдокод. Размещение одной точки методом Ньютона-Рафсона.
 
-
* Визуализация: [[карта сходства]], [[диаграмма Шепарда]].
 
-
* Совмещение многомерного шкалирования и иерархической кластеризации.
 
-
--->
 
== Ссылки ==
== Ссылки ==

Версия 08:54, 8 января 2014

Содержание

Теория обучения машин (machine learning, машинное обучение) находится на стыке прикладной статистики, численных методов оптимизации, дискретного анализа, и за последние 50 лет оформилась в самостоятельную математическую дисциплину. Методы машинного обучения составляют основу ещё более молодой дисциплины — интеллектуального анализа данных (data mining).

В курсе рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами.

Все методы излагаются по единой схеме:

  • исходные идеи и эвристики;
  • их формализация и математическая теория;
  • описание алгоритма в виде слабо формализованного псевдокода;
  • анализ достоинств, недостатков и границ применимости;
  • пути устранения недостатков;
  • сравнение с другими методами.
  • примеры прикладных задач.

Данный курс расширяет и углубляет набор тем, рекомендованный международным стандартом ACM/IEEE Computing Curricula 2001 по дисциплине «Машинное обучение и нейронные сети» (machine learning and neural networks) в разделе «Интеллектуальные системы» (intelligent systems).

Курс читается

На материал данного курса опираются последующие кафедральные курсы. На кафедре ММП ВМиК МГУ параллельно с данным курсом и в дополнение к нему читается спецкурс Теория надёжности обучения по прецедентам, посвящённый проблемам переобучения и оценивания обобщающей способности.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации и какого-либо языка программирования желательно, но не обязательно.

Ниже представлена расширенная программа — в полном объёме она занимает больше, чем могут вместить в себя два семестра. Каждый параграф приблизительно соответствует одной лекции. Курсивом выделен дополнительный материал, который может разбираться на семинарах.

Замечания для студентов

  • Видеолекции ШАД Яндекс.
  • На подстранице имеется перечень вопросов к устному экзамену. Очень помогает при подготовке к устному экзамену!
  • О найденных ошибках и опечатках сообщайте мне. — К.В.Воронцов 18:24, 19 января 2009 (MSK)
  • Материал, который есть в pdf-тексте, но не рассказывался на лекциях, обычно не входит в программу экзамена.

Первый семестр

Текст лекций: (PDF, 3 МБ) — обновление 4.10.2011.

Основные понятия и примеры прикладных задач

Презентация: (PDF, 0,8 МБ) — обновление 11.02.2013.

Метрические методы классификации

Презентация: (PDF, 1,59 МБ) — обновление 16.04.2012.

Метод ближайших соседей и его обобщения

Отбор эталонов и оптимизация метрики

Логические методы классификации

Текст лекций: (PDF, 625 КБ).
Презентация: (PDF, 1.3 МБ) — обновление 23.10.2012.

Понятия закономерности и информативности

  • Понятие логической закономерности. Эвристическое, статистическое, энтропийное определение информативности. Асимптотическая эквивалентность статистического и энтропийного определения. Сравнение областей эвристических и статистических закономерностей.
  • Разновидности закономерностей: конъюнкции пороговых предикатов (гиперпараллелепипеды), синдромные правила, шары, гиперплоскости.
  • «Градиентный» алгоритм синтеза конъюнкций, частные случаи: жадный алгоритм, стохастический локальный поиск, стабилизация, редукция.
  • Бинаризация признаков. Алгоритм разбиения области значений признака на информативные зоны.

Решающие списки и деревья

Линейные методы классификации

Презентация: (PDF, 2,21 МБ) — обновление 16.04.2012.

Градиентные методы

Метод опорных векторов

  • Оптимальная разделяющая гиперплоскость. Понятие зазора между классами (margin).
  • Случаи линейной разделимости и отсутствия линейной разделимости. Связь с минимизацией регуляризованного эмпирического риска. Кусочно-линейная функция потерь.
  • Задача квадратичного программирования и двойственная задача. Понятие опорных векторов.
  • Рекомендации по выбору константы C.
  • Функция ядра (kernel functions), спрямляющее пространство, теорема Мерсера.
  • Способы конструктивного построения ядер. Примеры ядер.
  • Сопоставление SVM с гауссовским ядром и RBF-сети.
  • Обучение SVM методом активных ограничений. Алгоритм INCAS. Алгоритм SMO.
  • ню-SVM.
  • SVM-регрессия.
  • Метод релевантных векторов RVM

Методы регрессионного анализа

Презентация: (PDF, 0,9 MБ) — обновление 16.04.2012.

Непараметрическая регрессия

Многомерная линейная регрессия

Нелинейная параметрическая регрессия

Статистичесие (байесовские) методы классификации

Презентация: (PDF, 2,4 МБ) — обновление 6.03.2013.

Оптимальный байесовский классификатор

Непараметрическое оценивание плотности

Параметрическое оценивание плотности

Разделение смеси распределений

  • Смесь распределений.
  • EM-алгоритм: основная идея, понятие скрытых переменных. «Вывод» алгоритма без обоснования сходимости. Псевдокод EM-алгоритма. Критерий останова. Выбор начального приближения. Выбор числа компонентов смеси.
  • Стохастический EM-алгоритм.
  • Смесь многомерных нормальных распределений. Сеть радиальных базисных функций (RBF) и применение EM-алгоритма для её настройки.

Логистическая регрессия

  • Гипотеза экспоненциальности функций правдоподобия классов. Теорема о линейности байесовского оптимального классификатора. Оценивание апостериорных вероятностей классов с помощью сигмоидной функции активации.
  • Логистическая регрессия. Принцип максимума правдоподобия и логарифмическая функция потерь.
  • Пример прикладной задачи: кредитный скоринг. Бинаризация признаков. Скоринговые карты и оценивание вероятности дефолта. Риск кредитного портфеля банка.
  • Настройка порога решающего правила по критерию числа ошибок I и II рода. Кривая ошибок (ROC curve). Алгоритм эффективного построения ROC-кривой.

Второй семестр

Нейросетевые методы классификации и регрессии

Презентация: (PDF, 1,8 МБ) — обновление 16.04.2012.

Многослойные нейронные сети

Критерии выбора моделей и методы отбора признаков

Текст лекций: (PDF, 330 КБ).
Презентация: (PDF, 1,76 МБ) — обновление 11.10.2011.

Задачи оценивания и выбора моделей

Теория обобщающей способности

Методы отбора признаков

Композиционные методы классификации и регрессии

Текст лекций: (PDF, 1 MБ).
Презентация: (PDF, 1 МБ).

Линейные композиции, бустинг

Эвристические и стохастические методы

Бустинг алгоритмов ранжирования

  • Задача ранжирования. Примеры: ранжирование результатов текстового поиска, задача Netflix.
  • Функционал качества — число дефектных пар.
  • Бустинг алгоритмов ранжирования — аналоги AdaBoost и AnyBoost.
  • Двудольная задача. Сведение попарного функционала качества к поточечному.

Взвешенное голосование логических закономерностей

  • Применение алгоритма бустинга AdaBoost к закономерностям. Критерий информативности в бустинге.
  • Решающий лес и бустинг над решающими деревьями. Алгоритм TreeNet.
  • Методы синтеза конъюнктивных закономерностей. Псевдокод: алгоритм КОРА, алгоритм ТЭМП.
  • Эвристики, обеспечивающие различность и полезность закономерностей. Построение Парето-оптимальных закономерностей. Выравнивание распределения отступов.
  • Чередующиеся решающие деревья (alternating decision tree).
  • Примеры прикладных задач: кредитный скоринг, прогнозирование ухода клиентов.

Алгоритмы вычисления оценок

Нелинейные алгоритмические композиции

  • Смесь экспертов, область компетентности алгоритма.
  • Выпуклые функции потерь. Методы построения смесей: последовательный и иерархический.
  • Построение смесей экспертов с помощью EM-алгоритма.
  • Нелинейная монотонная корректирующая операция. Случай классификации. Случай регрессии. Задача монотонизации выборки, изотонная регрессия.

Обучение без учителя

Презентация: (PDF, 1,0 МБ) — обновление 24.04.2012.

Кластеризация

Сети Кохонена

Таксономия


Поиск ассоциативных правил

Презентация: (PDF, 1.1 МБ) — обновление 23.10.2012.

  • Понятие ассоциативного правила и его связь с понятием логической закономерности.
  • Примеры прикладных задач: анализ рыночных корзин, выделение терминов и тематики текстов.
  • Алгоритм APriori. Два этапа: поиск частых наборов и рекурсивное порождение ассоциативных правил. Недостатки и пути усовершенствования алгоритма APriori.
  • Алгоритм FP-growth. Понятия FP-дерева и условного FP-дерева. Два этапа поиска частых наборов в FP-growth: построение FP-дерева и рекурсивное порождение частых наборов.
  • Общее представление о динамических и иерархических методах поиска ассоциативных правил.

Задачи с частичным обучением

Презентация: (PDF, 0.7 МБ) — обновление 15.11.2011.

  • Постановка задачи Semisupervised Learning, примеры приложений.
  • Простые эвристические методы: self-training, co-training, co-learning.
  • Адаптация алгоритмов кластеризации для решения задач с частичным обучением. Кратчайшиё незамкнутый путь. Алгоритм Ланса-Уильямса. Алгоритм k-средних.
  • Трансдуктивный метод опорных векторов TSVM.
  • Алгоритм Expectation-Regularization на основе многоклассовой регуляризированной логистической регрессии.

Коллаборативная фильтрация

Презентация: (PDF, 1.2 МБ) — обновление 30.10.2012.

Тематическое моделирование

Текст лекций: (PDF, 830 КБ).
Презентация: (PDF, 3.6 МБ) — обновление 04.12.2013.

Обучение с подкреплением

Презентация: (PDF, 0.9 МБ) — обновление 20.11.2012.

  • Задача о много руком бандите. Жадные и эпсилон-жадные стратегии. Среда для экспериментов. Метод сравнения с подкреплением. Метод преследования.
  • Адаптивные стратегии на основе скользящих средних.
  • Уравнения Беллмана. Оптимальные стратегии. Динамическое программирование. Метод итераций по ценностям и по стратегиям.
  • Методы временных разностей: TD, SARSA, Q-метод. Многошаговое TD-прогнозирование. Адаптивный полужадный метод VDBE.

Ссылки

Список подстраниц

Машинное обучение (курс лекций, К.В.Воронцов)/2009Машинное обучение (курс лекций, К.В.Воронцов)/ToDoМашинное обучение (курс лекций, К.В.Воронцов)/Вопросы
Машинное обучение (курс лекций, К.В.Воронцов)/Семестровый курсМашинное обучение (курс лекций, К.В.Воронцов)/Форма отчета
Личные инструменты