Машинное обучение (курс лекций, В.В.Китов)/2015-2016

Материал из MachineLearning.

(Различия между версиями)

Версия 23:45, 5 июня 2016

Содержание

1 События вне курса
2 Программа курса
- 2.1 Первый семестр
- 2.2 Второй семестр

Машинное обучение (англ. machine learning) - наука об алгоритмах, которые сами настраиваются на известных данных, выделяя их характерную структуру и взаимосвязи между ними, для их компактного описания, визуализации и последующего предсказания новых аналогичных данных. Наука является сравнительно молодой, поскольку многие алгоритмы автоматической настройки на данных являются вычислительно трудоемкими, и их применение стало возможным только с появлением высокопроизводительных вычислительных средств. Основной акцент курса сделан на задачах предсказания дискретных величин (классификация) и непрерывных величин (регрессия), хотя в курсе также подробно рассматриваются смежные области - эффективное снижение размерности пространства, выделение наиболее значимых признаков для предсказания, методы оценивания и сравнения вероятностных распределений.

Курс читается студентам 3 курса кафедры «Математические методы прогнозирования» ВМиК МГУ, магистрам, зачисленным на эту кафедру, и не проходивших ранее аналогичных курсов, а также для всех желающих. На материал данного курса опираются последующие кафедральные курсы.

По изложению, рассматриваются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения.

Курс сопровождается семинарами, раскрывающими дополнительные темы курса и отрабатывающими навыки практического применения рассматриваемых методов. Практическое использование методов машинного обучения в основном будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.

От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей. Знание математической статистики, методов оптимизации и какого-либо языка программирования желательно, но не обязательно.

Курс во многом пересекается с курсом К.В.Воронцова по машинному обучению, с которым также рекомендуется ознакомиться.

События вне курса

19 мая в 18-00 будут презентации прикладных проектов по курсу "Методы автоматической обработки текстов".

Доклады, разбирающие решения kaggle-соревнований.

Нейросети раскрашивают видео в стиле известных художников.

Программа курса

Первый семестр

Байесовская теория классификации.

Байесовский алгоритм классификации, минимизирующий цену. Случай одинаковых цен. Дискриминативные и генеративные модели. Частотный и байесовский подходы к оцениванию неизвестных параметров. Генеративные модели классификации с гауссовскими внутриклассовыми распределениями: модели LDA, QDA и RDA (QDA с регуляризацией), а также виды упрощающих предположений о матрице внутриклассовых ковариаций.

Методы работы с пропущенными данными. Метод наивного Байеса.

+мультиномиальная/биномиальная модель наивного Байеса для классификации текстов и преобразование TF-IDF. +разложение ожидаемого квадрата ошибки на смещение и дисперсию (bias-variance tradeoff).

Моделирование смесью распределений.

EM-алгоритм. Доказательство неубывания правдоподобия для EM-алгоритма. Вывод EM-алгоритма для смеси нормальных распределений в векторном случае. Подходы к определению числа компонент. Варианты снижения числа параметров и повышения устойчивости EM-алгоритма для смеси нормальных распределений.

Ядерное сглаживание для оценки плотности.

Случай одномерных и многомерных плотностей-основные ядерные функции. Условия сходимости к истинной плотности. Подходы к определению bandwidth (постоянного и зависящего от x).

Кластеризация.

K-средних. Инициализация EM-алгоритма кластеризацией. Мягкая кластеризация через EM-алгоритм.

Второй семестр

Введение по практическому использованию алгоритмов машинного обучения

Ансамбли алгоритмов.

Bias-Variance tradeoff, bagging, метод случайных подпространств, Random Forest, Extra Random Trees. Жадный алгоритм построения линейных ансамблей (forward stagewise additive modelling). AdaBoost (с выводом).

Бустинг.

Оптимизация ф-ций методом градиентного спуска с вариативным шагом и методом Ньютона. Градиентный бустинг (с примерами квадратичной ошибки, линейного персептрона и логистической ф-ции цены) и бустинг с локальной квадратичной аппроксимацией (с выводом для LogitBoost с вещественнозначными базовыми алгоритмами). Модификация алгоритма, когда базовые алгоритмы-деревья. Shrinkage и subsampling.

Скачать презентацию

Доп. материалы:

Мерков. Введение в методы статистического обучения.

Hastie et. al. The Elements of Statistical Learning.

Нейросети.

Нейросети (продолжение).

Структура нейросетей для распознавания картинок. Пример. Идея глубинного обучения. Метод обратного распространения ошибок.

Скачать презентацию

Доп. материалы:

лекции Джефри Хинтона по нейросетям

Туториалы по глубинному обучению

Книга Yoshua Bengio по глубинному обучению

Детальный обзор по глубинному обучению от Microsoft Research

Бустинг & нейросети (продолжение).

xgBoost, DropOut, фиксированные схемы агрегации прогнозов (усреднение, голосование по большинству, учет рангов через BordaCount), stacking.

Скачать статью с описанием xgBoost

Скачать статью с описанием Dropout

Методы отбора признаков.

Скачать презентацию

Линейные методы снижения размерности.

Метод главных компонент. Линейный дискриминант Фишера. Метод снижения размерности с учителем за счет итеративного применения линейной классификации.

Скачать презентацию

Сингулярное разложение.

Скачать презентацию

Нелинейные методы снижения размерности.

Скачать презентацию

Кластеризация.

Кластеризация

Дополнительные материалы: Разделение смеси распределений - презентация К.В.Воронцова

Частичное обучение (semi-supervised learning).

Частичное обучение - презентация К.В.Воронцова

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%92.%D0%92.%D0%9A%D0%B8%D1%82%D0%BE%D0%B2%29/2015-2016»

Категория: Учебные курсы

@@ Строка 110: / Строка 110: @@
 [[Media:MMP-Dropout.pdf‎ |Скачать статью с описанием Dropout]]
+===Методы отбора признаков.===
+[[Media:MMP-Feature_selection.pdf‎|Скачать презентацию]]
 ===Линейные методы снижения размерности.===
@@ Строка 117: / Строка 120: @@
 [[Media:MMP-Principal_components_analysis.pdf‎‎|Скачать презентацию]]
-===Методы отбора признаков.===
+Сингулярное разложение.
-[[Media:MMP-Feature_selection.pdf‎|Скачать презентацию]]
+[[Media:MMP-Singular value decomposition.pdf‎‎|Скачать презентацию]]
 ===Нелинейные методы снижения размерности.===
 [[Media:MMP-Nonlinear_dimensionality_reduction.pdf‎|Скачать презентацию]]
-===Частичное обучение (semi-supervised learning).===
-[[Media:MMP-Vorontsov-Semi-Supervised_learning.pdf‎‎‎|Частичное обучение - презентация К.В.Воронцова]]
 ===Кластеризация.===
@@ Строка 130: / Строка 131: @@
 [[Media:MMP-Clustering.pdf|Кластеризация]]
-[[Media:MMP-Vorontsov-Mixtures.pdf‎|Разделение смеси распределений - презентация К.В.Воронцова]]
+Дополнительные материалы: [[Media:MMP-Vorontsov-Mixtures.pdf‎|Разделение смеси распределений - презентация К.В.Воронцова]]
+===Частичное обучение (semi-supervised learning).===
+[[Media:MMP-Vorontsov-Semi-Supervised_learning.pdf‎‎‎|Частичное обучение - презентация К.В.Воронцова]]

Машинное обучение (курс лекций, В.В.Китов)/2015-2016

Материал из MachineLearning.

Версия 23:45, 5 июня 2016

Содержание

События вне курса

Программа курса

Первый семестр

Основные понятия и примеры прикладных задач.

Метрические методы регрессии и классификации.

Методы решающих деревьев.

Оценивание моделей.

Классификация линейными методами.

Линейная и нелинейная регрессия.

Обобщение методов через ядра.

Байесовская теория классификации.

Методы работы с пропущенными данными. Метод наивного Байеса.

Моделирование смесью распределений.

Ядерное сглаживание для оценки плотности.

Кластеризация.

Второй семестр

Введение по практическому использованию алгоритмов машинного обучения

Ансамбли алгоритмов.

Бустинг.

Нейросети.

Нейросети (продолжение).

Бустинг & нейросети (продолжение).

Методы отбора признаков.

Линейные методы снижения размерности.

Нелинейные методы снижения размерности.

Кластеризация.

Частичное обучение (semi-supervised learning).

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты