Математические методы распознавания образов (курс лекций, В.В.Китов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Свойства выпуклых функций. Неравенство Йенсена. Расстояние Кульбака-Лейблера.)
(Второй семестр)
(33 промежуточные версии не показаны)
Строка 3: Строка 3:
Курс посвящен алгоритмам машинного обучения (machine learning), которые сами настраиваются на известных данных, выделяя их характерную структуру и взаимосвязи между ними, для их компактного описания, визуализации и последующего предсказания новых аналогичных данных. Основной акцент курса сделан на задачах предсказания дискретных величин (классификация) и непрерывных величин (регрессия), хотя в курсе также рассматриваются смежные области - эффективное снижение размерности пространства, выделение наиболее значимых признаков для предсказания, методы оценивания и сравнения вероятностных распределений, рекомендательные системы и планирование экспериментов.
Курс посвящен алгоритмам машинного обучения (machine learning), которые сами настраиваются на известных данных, выделяя их характерную структуру и взаимосвязи между ними, для их компактного описания, визуализации и последующего предсказания новых аналогичных данных. Основной акцент курса сделан на задачах предсказания дискретных величин (классификация) и непрерывных величин (регрессия), хотя в курсе также рассматриваются смежные области - эффективное снижение размерности пространства, выделение наиболее значимых признаков для предсказания, методы оценивания и сравнения вероятностных распределений, рекомендательные системы и планирование экспериментов.
 +
 +
Лектор: [[Участник:Victor Kitov|Виктор Китов]]
 +
 +
Семинарист: [[Участник:EvgSokolov|Евгений Соколов]]
Курс читается студентам 3 курса кафедры «Математические методы прогнозирования» ВМиК МГУ, магистрам, зачисленным на эту кафедру, и не проходивших ранее аналогичных курсов, а также для всех желающих. На материал данного курса опираются последующие кафедральные курсы.
Курс читается студентам 3 курса кафедры «Математические методы прогнозирования» ВМиК МГУ, магистрам, зачисленным на эту кафедру, и не проходивших ранее аналогичных курсов, а также для всех желающих. На материал данного курса опираются последующие кафедральные курсы.
Строка 29: Строка 33:
===Основные понятия и примеры прикладных задач.===
===Основные понятия и примеры прикладных задач.===
-
[[Media:Kitov-ML-eng-01-Introduction_to_machine_learning.pdf‎|Скачать презентацию (eng)]] {{важно| — обновление 19.12.2016}}.
+
[[Media:Kitov-ML-eng-01-Introduction_to_machine_learning.pdf‎|Скачать презентацию (eng)]].
[[Media:Kitov-ML-rus-01-Introduction.pdf‎|Скачать презентацию (рус)]]
[[Media:Kitov-ML-rus-01-Introduction.pdf‎|Скачать презентацию (рус)]]
Строка 49: Строка 53:
===Сингулярное разложение.===
===Сингулярное разложение.===
-
[[Media:Kitov-ML-eng-04-Singular_value_decomposition.pdf‎ | Скачать презентацию (eng)]] {{важно| — обновление 19.12.2016}}.
+
[[Media:Kitov-ML-eng-04-Singular_value_decomposition.pdf‎ | Скачать презентацию (eng)]].
+разреженное кодирование, доказательство существования SVD разложения и доказательство оптимальности (по норме Фробениуса) приближения матрицы сокращенным SVD разложением.
+разреженное кодирование, доказательство существования SVD разложения и доказательство оптимальности (по норме Фробениуса) приближения матрицы сокращенным SVD разложением.
Строка 69: Строка 73:
===Метод опорных векторов.===
===Метод опорных векторов.===
-
[[Media:Kitov-ML-eng-08-Support_vector_machines.pdf | Скачать презентацию (eng)]] {{важно| — обновление 19.12.2016}}.
+
[[Media:Kitov-ML-eng-08-Support_vector_machines.pdf | Скачать презентацию (eng)]].
===Обобщение методов через ядра.===
===Обобщение методов через ядра.===
-
[[Media:Kitov-ML-eng-09-Kernel_methods.pdf‎‎ | Скачать презентацию (eng)]] {{важно| — обновление 19.12.2016}}.
+
[[Media:Kitov-ML-eng-09-Kernel_methods.pdf‎‎ | Скачать презентацию (eng)]].
===Байесовская теория классификации.===
===Байесовская теория классификации.===
Строка 88: Строка 92:
===Ядерное сглаживание для оценки плотности.===
===Ядерное сглаживание для оценки плотности.===
-
[[Media:Kitov-ML-eng-11-Kernel_density_estimation.pdf‎‎ | Скачать презентацию (eng)]] {{важно| — обновление 19.12.2016}}.
+
[[Media:Kitov-ML-eng-11-Kernel_density_estimation.pdf‎‎ | Скачать презентацию (eng)]].
===Задачи регрессии.===
===Задачи регрессии.===
-
[[Media:Kitov-ML-eng-12-Regression.pdf‎‎‎ | Скачать презентацию (eng)]] {{важно| — обновление 19.12.2016}}.
+
[[Media:Kitov-ML-eng-12-Regression.pdf‎‎‎ | Скачать презентацию (eng)]].
==Второй семестр==
==Второй семестр==
-
+bias-variance decomposition
+
 
 +
===Ансамбли алгоритмов===
 +
[[Media:Kitov-ML-eng-13-Ensemble_methods.pdf‎‎‎ | Скачать презентацию]].
 +
 
 +
===Бустинг.===
 +
[[Media:Kitov-ML-eng-14-Boosting.pdf‎‎‎ | Скачать презентацию]].
 +
 
 +
===xgBoost.===
 +
[[Media:Kitov-ML-eng-15-xgBoost.pdf‎‎‎ | Скачать презентацию]].
 +
 
 +
[http://www.kdd.org/kdd2016/papers/files/rfp0697-chenAemb.pdf Статья со всеми деталями]
 +
 
 +
===Методы отбора признаков.===
 +
[[Media:Kitov-ML-eng-16-Feature_selection.pdf‎ | Скачать презентацию]].
===Свойства выпуклых функций. Неравенство Йенсена. ===
===Свойства выпуклых функций. Неравенство Йенсена. ===
Расстояние Кульбака-Лейблера, его неотрицательность.
Расстояние Кульбака-Лейблера, его неотрицательность.
-
+bias-variance decomposition.
+
 
 +
[[Media:Kitov-ML-eng-17-Convexity_theory.pdf | Скачать презентацию]].
===EM-алгоритм.===
===EM-алгоритм.===
 +
[[Media:Kitov-ML-eng-18-EM_algorithm.pdf‎ | Скачать презентацию]]
-
===Применения EM-алгоритма===
+
===Смеси распределений, их оценивание через EM-алгоритм===
-
Смеси Гауссианов и скрытая марковская модель.
+
-
===Кластеризация.===
+
[[Media:Kitov-ML-eng-19-Mixtures,_EM.pdf‎ ‎ | Скачать презентацию 1]]
-
===Ансамбли алгоритмов===
+
[[Media:Kitov-ML-eng-20-Gaussian_mixtures_EM_derivation.pdf‎ | Скачать презентацию 2]]
-
RandomForest, Extra random trees, stacking, фиксированные схемы.
+
-
===Бустинг. xgBoost.===
+
===Тематическое моделирование===
 +
[[Media:Kitov-ML-eng-21-Topic_modelling.pdf | Скачать презентацию]]
-
===Нейросети. Dropout.===
+
===Кластеризация===
 +
[[Media:Kitov-ML-eng-22-Clustering.pdf‎ | Скачать презентацию]]
-
===Методы отбора признаков.===
+
===Отбор признаков для кластеризации===
 +
[[Media:Kitov-ML-eng-22-Feature_selection_for_clustering.pdf‎ | Скачать презентацию]]
-
===Нелинейные методы снижения размерности. Снижение размерности с учителем.===
+
===Оценка качества кластеризации===
 +
[[Media:Kitov-ML-eng-22-Clustering_evaluation.pdf‎ | Скачать презентацию]]
-
===Частичное обучение (semi-supervised learning).===
+
===Нейросети===
 +
[[Media:Kitov-ML-eng-23-Neural_networks.pdf | Скачать презентацию]]
===Рекомендательные системы.===
===Рекомендательные системы.===
 +
[[Media:Kitov-ML-eng-24-Recommender_systems.pdf | Скачать презентацию]]
-
===Активное обучение.===
+
===Нелинейное снижение размерности===
 +
[[Media:Kitov-ML-eng-25-Nonlinear_dimensionality_reduction.pdf‎‎ | Скачать презентацию]]

Версия 11:14, 17 мая 2017

Содержание

Курс посвящен алгоритмам машинного обучения (machine learning), которые сами настраиваются на известных данных, выделяя их характерную структуру и взаимосвязи между ними, для их компактного описания, визуализации и последующего предсказания новых аналогичных данных. Основной акцент курса сделан на задачах предсказания дискретных величин (классификация) и непрерывных величин (регрессия), хотя в курсе также рассматриваются смежные области - эффективное снижение размерности пространства, выделение наиболее значимых признаков для предсказания, методы оценивания и сравнения вероятностных распределений, рекомендательные системы и планирование экспериментов.

Лектор: Виктор Китов

Семинарист: Евгений Соколов

Курс читается студентам 3 курса кафедры «Математические методы прогнозирования» ВМиК МГУ, магистрам, зачисленным на эту кафедру, и не проходивших ранее аналогичных курсов, а также для всех желающих. На материал данного курса опираются последующие кафедральные курсы.

По изложению, рассматриваются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения.

Курс сопровождается семинарами, раскрывающими дополнительные темы курса и отрабатывающими навыки практического применения рассматриваемых методов. Практическое использование методов машинного обучения в основном будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.

От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей. Знание математической статистики, методов оптимизации и какого-либо языка программирования желательно, но не обязательно.

Экзамен (зимняя экзаменационная сессия)

Пройдет 15 января (воскресенье) в 9-00 в ауд. 510.

Билеты


Программа курса

Первый семестр

Основные понятия и примеры прикладных задач.

Скачать презентацию (eng).

Скачать презентацию (рус)

Метрические методы регрессии и классификации.

Скачать презентацию (KNN базовый, eng)

Скачать презентацию (Оптимизация KNN, eng)

Скачать презентацию (рус)

Линейные методы снижения размерности.

+ вывод решения для задачи линейной регрессии методом наименьших квадратов. L1 и L2 регуляризация, вывод решения регрессии с L2 регуляризацией. Свойства существования и единственности решений.

Скачать презентацию (eng)

Сингулярное разложение.

Скачать презентацию (eng).

+разреженное кодирование, доказательство существования SVD разложения и доказательство оптимальности (по норме Фробениуса) приближения матрицы сокращенным SVD разложением.

Методы решающих деревьев.

Скачать презентацию (eng)

+семинар: Random Forest

Оценивание моделей.

Скачать презентацию (eng)

+ROC кривая для случайного классификатора.

Классификация линейными методами.

Скачать презентацию (eng)

Метод опорных векторов.

Скачать презентацию (eng).

Обобщение методов через ядра.

Скачать презентацию (eng).

Байесовская теория классификации.

Скачать презентацию (eng)

+доказательство, что Байесовское правило минимальной ошибки действительно приводит к минимизации вероятности неправильной классификации.

+ предположение наивного Байеса.

+ модель Бернулли

+ Мультиномиальная модель

+ особенности работы с текстами (лемматизация, биграммы, извлечение коллокаций)

Ядерное сглаживание для оценки плотности.

Скачать презентацию (eng).

Задачи регрессии.

Скачать презентацию (eng).

Второй семестр

Ансамбли алгоритмов

Скачать презентацию.

Бустинг.

Скачать презентацию.

xgBoost.

Скачать презентацию.

Статья со всеми деталями

Методы отбора признаков.

Скачать презентацию.

Свойства выпуклых функций. Неравенство Йенсена.

Расстояние Кульбака-Лейблера, его неотрицательность.

Скачать презентацию.

EM-алгоритм.

Скачать презентацию

Смеси распределений, их оценивание через EM-алгоритм

Скачать презентацию 1

Скачать презентацию 2

Тематическое моделирование

Скачать презентацию

Кластеризация

Скачать презентацию

Отбор признаков для кластеризации

Скачать презентацию

Оценка качества кластеризации

Скачать презентацию

Нейросети

Скачать презентацию

Рекомендательные системы.

Скачать презентацию

Нелинейное снижение размерности

Скачать презентацию

Личные инструменты