Математические методы распознавания образов (курс лекций, В.В.Китов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Второй семестр)
(Второй семестр)
(48 промежуточных версий не показаны.)
Строка 2: Строка 2:
{{TOCright}}
{{TOCright}}
-
Курс посвящен алгоритмам машинного обучения (machine learning), которые сами настраиваются на известных данных, выделяя их характерную структуру и взаимосвязи между ними, для их компактного описания, визуализации и последующего предсказания новых аналогичных данных. Основной акцент курса сделан на задачах предсказания дискретных величин (классификация) и непрерывных величин (регрессия), хотя в курсе также рассматриваются смежные области - эффективное снижение размерности пространства, выделение наиболее значимых признаков для предсказания, методы оценивания и сравнения вероятностных распределений, рекомендательные системы и планирование экспериментов.
+
Курс посвящен алгоритмам машинного обучения (machine learning), которые сами настраиваются на известных данных, выделяя их характерную структуру и взаимосвязи между ними, для их прогнозирования, анализа, компактного описания и визуализации. Основной акцент курса сделан на задачах предсказания дискретных величин (классификация) и непрерывных величин (регрессия), хотя в курсе также рассматриваются смежные области - эффективное снижение размерности пространства, выделение наиболее значимых признаков для предсказания, методы оценивания и сравнения вероятностных распределений, рекомендательные системы и планирование экспериментов.
 +
 
 +
Лектор: [[Участник:Victor Kitov|Виктор Китов]]
 +
 
 +
Семинарист: [[Участник:EvgSokolov|Евгений Соколов]]
Курс читается студентам 3 курса кафедры «Математические методы прогнозирования» ВМиК МГУ, магистрам, зачисленным на эту кафедру, и не проходивших ранее аналогичных курсов, а также для всех желающих. На материал данного курса опираются последующие кафедральные курсы.
Курс читается студентам 3 курса кафедры «Математические методы прогнозирования» ВМиК МГУ, магистрам, зачисленным на эту кафедру, и не проходивших ранее аналогичных курсов, а также для всех желающих. На материал данного курса опираются последующие кафедральные курсы.
Строка 10: Строка 14:
Курс сопровождается [[Машинное обучение (семинары, ВМК МГУ)|семинарами]], раскрывающими дополнительные темы курса и отрабатывающими навыки практического применения рассматриваемых методов. Практическое использование методов машинного обучения в основном будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.
Курс сопровождается [[Машинное обучение (семинары, ВМК МГУ)|семинарами]], раскрывающими дополнительные темы курса и отрабатывающими навыки практического применения рассматриваемых методов. Практическое использование методов машинного обучения в основном будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.
-
От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей. Знание математической статистики, методов оптимизации и какого-либо языка программирования желательно, но не обязательно.
+
От студентов требуются знания линейной алгебры, математического анализа, теории вероятностей, математической статистики и методов оптимизации. Практические задания должны выполняться с использованием языка Python и его научных библиотек.
* Курс во многом пересекается с [[Машинное обучение (курс лекций, К.В.Воронцов)|курсом К.В.Воронцова по машинному обучению]], с которым также рекомендуется ознакомиться.
* Курс во многом пересекается с [[Машинное обучение (курс лекций, К.В.Воронцов)|курсом К.В.Воронцова по машинному обучению]], с которым также рекомендуется ознакомиться.
Строка 16: Строка 20:
* Анонимные отзывы и комментарии по лекциям [https://docs.google.com/forms/d/e/1FAIpQLSeeWRdRVQ82GPyu0FIW5RlWV9NwyWPWSlNBDrMHAHvsfln3aA/viewform можно оставлять здесь.]
* Анонимные отзывы и комментарии по лекциям [https://docs.google.com/forms/d/e/1FAIpQLSeeWRdRVQ82GPyu0FIW5RlWV9NwyWPWSlNBDrMHAHvsfln3aA/viewform можно оставлять здесь.]
-
=Экзамен (зимняя экзаменационная сессия)=
+
=Экзамен=
-
Пройдет 15 января (воскресенье) в 9-00 в ауд. 510.
+
Консультация перед экзаменом будет 13 января в 13-30 - 15-00 в ауд.П8а. Желающие смогут сдать экзамен досрочно после консультации (желательно предупредить по почте). Оценка за досрочный экзамен не может быть пересдана на основном экзамене.
-
[[Media:Kitov-ML-exam-autumn_2017.pdf‎|Билеты]]
 
 +
[https://yadi.sk/i/mFteMpfN3R4Gtt Билеты].
=Программа курса=
=Программа курса=
Строка 27: Строка 31:
==Первый семестр==
==Первый семестр==
-
===Основные понятия и примеры прикладных задач.===
+
===Введение в машинное обучение.===
 +
[https://yadi.sk/i/NWVXfPIV3Q3TtD Презентация].
-
[[Media:Kitov-ML-eng-01-Introduction_to_machine_learning.pdf‎|Скачать презентацию (eng)]].
+
===Метод ближайших центроидов и K ближайших соседей.===
 +
[https://yadi.sk/i/iBMngr1m3Q3U6A Презентация].
-
[[Media:Kitov-ML-rus-01-Introduction.pdf‎|Скачать презентацию (рус)]]
+
===Другие метрические методы.===
 +
[https://yadi.sk/i/oHOFhRh63Q3U6i Презентация].
-
===Метрические методы регрессии и классификации.===
+
===Сложность моделей. Подготовка данных.===
 +
[https://yadi.sk/i/GQ5uO2Jb3Q3U7K Презентация].
-
[[Media:Kitov-ML-eng-02-K-NN.pdf‎|Скачать презентацию (KNN базовый, eng)]]
+
===Метрики близости.===
 +
[https://yadi.sk/i/kCIhwRuo3Q3U8S Презентация].
-
[[Media:Kitov-ML-eng-02-K-NN_optimization.pdf‎|Скачать презентацию (Оптимизация KNN, eng)]]
+
===Оптимизация метода K ближайших соседей.===
 +
[https://yadi.sk/i/E4RT7Jyg3Q3U99 Презентация].
-
[[Media:Kitov-ML-rus-02-K-NN.pdf‎|Скачать презентацию (рус)]]
+
===Метод главных компонент.===
 +
+ вывод решения
-
===Линейные методы снижения размерности.===
+
[https://yadi.sk/i/Yzn1wSSQ3Q3U9q Презентация].
-
+ вывод решения для задачи линейной регрессии методом наименьших квадратов. L1 и L2 регуляризация, вывод решения регрессии с L2 регуляризацией. Свойства существования и единственности решений.
+
[https://yadi.sk/i/CpG1xsrR3Q3UAZ Свойства симметричных матриц, положительно определенные матрицы, векторное дифференцирование.]
-
[[Media:Kitov-ML-eng-03-PCA.pdf‎|Скачать презентацию (eng)]]
+
===Линейная регрессия.===
 +
[https://yadi.sk/i/mYqnpKYH3Q3UB7 Презентация].
-
===Сингулярное разложение.===
+
===Линейная классификация.===
 +
[https://yadi.sk/i/o6V18ir93Q3UBw Презентация].
-
[[Media:Kitov-ML-eng-04-Singular_value_decomposition.pdf‎ | Скачать презентацию (eng)]].
+
===Оценивание классификаторов.===
 +
[https://yadi.sk/i/UumctWjg3Q3UCY Презентация].
 +
+классификатор выпуклой оболочки ROC кривых.
-
+разреженное кодирование, доказательство существования SVD разложения и доказательство оптимальности (по норме Фробениуса) приближения матрицы сокращенным SVD разложением.
+
===Метод опорных векторов.===
 +
+вывод двойственной задачи SVM
 +
+support vector regression
-
===Методы решающих деревьев.===
+
[https://yadi.sk/i/Pn-1M3sL3Q3UDq Презентация].
-
[[Media:Kitov-ML-eng-05-Decision_trees.pdf‎‎ | Скачать презентацию (eng)]]
+
===Обобщения методов через ядра Мерсера.===
 +
+ двойственная задача для гребневой регрессии
-
+семинар: Random Forest
+
[https://yadi.sk/i/G8349uPG3Q3UEp Презентация].
-
===Оценивание моделей.===
+
===Решающие деревья.===
 +
[https://yadi.sk/i/5Gd8HdQ93Q3UG2 Презентация].
-
[[Media:Kitov-ML-eng-06-Classifier_evaluation.pdf‎ | Скачать презентацию (eng)]]
+
===Ансамбли прогнозирующих алгоритмов. Смещение и дисперсия моделей.===
 +
[https://yadi.sk/i/AgqALhuW3Q3UGk Презентация].
-
+ROC кривая для случайного классификатора.
+
===Бустинг.===
 +
[https://yadi.sk/i/JLKQrfUW3Q3UHM Презентация].
-
===Классификация линейными методами.===
+
==Второй семестр==
-
[[Media:Kitov-ML-eng-07-Linear_methods_of_classification.pdf‎ | Скачать презентацию (eng)]]
+
-
===Метод опорных векторов.===
+
===xgBoost.===
-
[[Media:Kitov-ML-eng-08-Support_vector_machines.pdf | Скачать презентацию (eng)]].
+
[https://yadi.sk/i/IvqkjPxl3Q3UJ4 Презентация].
-
===Обобщение методов через ядра.===
+
[http://www.kdd.org/kdd2016/papers/files/rfp0697-chenAemb.pdf Статья со всеми деталями]
-
[[Media:Kitov-ML-eng-09-Kernel_methods.pdf‎‎ | Скачать презентацию (eng)]].
+
-
===Байесовская теория классификации.===
+
===Байесовское решающее правило. Генеративные и дискриминативные модели.===
-
[[Media:Kitov-ML-eng-10-Bayes_decision_rule.pdf‎‎‎ | Скачать презентацию (eng)]]
+
[https://yadi.sk/i/retsLM0q3Q3UK8 Презентация].
 +
(пока только Байесовское решающее правило)
-
+доказательство, что Байесовское правило минимальной ошибки действительно приводит к минимизации вероятности неправильной классификации.
+
---
-
+ предположение наивного Байеса.
+
===Ядерно-сглаженные оценки плотности.===
 +
[https://yadi.sk/i/-Kg--noU3Q3USA Презентация].
-
+ модель Бернулли
+
===Отбор признаков===
 +
[https://yadi.sk/i/PKogjq-83Q3UJW Презентация].
-
+ Мультиномиальная модель
+
===Нейросети===
 +
[https://yadi.sk/i/PiKDgyWI3Q3UWz Презентация].
-
+ особенности работы с текстами (лемматизация, биграммы, извлечение коллокаций)
+
===Сингулярное разложение.===
 +
[https://yadi.sk/i/t1G18RqC3Q3USa Презентация].
-
===Ядерное сглаживание для оценки плотности.===
+
===Рекомендательные системы.===
-
[[Media:Kitov-ML-eng-11-Kernel_density_estimation.pdf‎‎ | Скачать презентацию (eng)]].
+
[https://yadi.sk/i/XKGkkJyg3Q3UXx Презентация].
-
 
+
-
===Задачи регрессии.===
+
-
[[Media:Kitov-ML-eng-12-Regression.pdf‎‎‎ | Скачать презентацию (eng)]].
+
-
 
+
-
==Второй семестр==
+
-
 
+
-
===Ансамбли алгоритмов===
+
-
[[Media:Kitov-ML-eng-13-Ensemble_methods.pdf‎‎‎ | Скачать презентацию]].
+
-
 
+
-
===Бустинг.===
+
-
[[Media:Kitov-ML-eng-14-Boosting.pdf‎‎‎ | Скачать презентацию]].
+
-
 
+
-
===xgBoost.===
+
-
[[Media:Kitov-ML-eng-15-xgBoost.pdf‎‎‎ | Скачать презентацию]].
+
-
 
+
-
[http://www.kdd.org/kdd2016/papers/files/rfp0697-chenAemb.pdf Статья со всеми деталями]
+
-
 
+
-
===Методы отбора признаков.===
+
-
[[Media:Kitov-ML-eng-16-Feature_selection.pdf‎ | Скачать презентацию]].
+
===Свойства выпуклых функций. Неравенство Йенсена. ===
===Свойства выпуклых функций. Неравенство Йенсена. ===
Расстояние Кульбака-Лейблера, его неотрицательность.
Расстояние Кульбака-Лейблера, его неотрицательность.
-
[[Media:Kitov-ML-eng-17-Convexity_theory.pdf | Скачать презентацию]].
+
[https://yadi.sk/i/yomUjQlh3Q3UTU Презентация].
===EM-алгоритм.===
===EM-алгоритм.===
-
[[Media:Kitov-ML-eng-18-EM_algorithm.pdf‎ | Скачать презентацию]]
+
[https://yadi.sk/i/V1jMp7Ar3Q3UU2 Презентация].
===Смеси распределений, их оценивание через EM-алгоритм===
===Смеси распределений, их оценивание через EM-алгоритм===
-
[[Media:Kitov-ML-eng-19-Mixtures,_EM.pdf‎ ‎ | Скачать презентацию 1]]
+
[https://yadi.sk/i/FlxGC4Zg3Q3UUS Презентация].
 +
[https://yadi.sk/i/Z2dLjT0h3Q3UUz Вывод для смеси нормальных распределений].
-
[[Media:Kitov-ML-eng-20-Gaussian_mixtures_EM_derivation.pdf‎ | Скачать презентацию 2]]
+
===Тематическое моделирование===
-
 
+
[https://yadi.sk/i/WISXKvVF3Q3UWa Презентация].
-
 
+
-
===Применения EM-алгоритма===
+
-
PLSI, HMM.
+
-
 
+
-
===Нейросети - архитектура.===
+
-
 
+
-
===Нейросети - оценивание.===
+
-
 
+
-
===Кластеризация.===
+
-
 
+
-
===Нелинейные методы снижения размерности. Снижение размерности с учителем.===
+
-
 
+
-
===Рекомендательные системы.===
+
-
==Возможные дополнительные темы==
+
===Кластеризация===
 +
[https://yadi.sk/i/5Fay6PaL3Q3UYC Презентация].
-
===Прогнозирование последовательностей===
+
===Оценка качества кластеризации===
 +
[https://yadi.sk/i/SbCbzYYy3Q3UYW Презентация].
-
===Частичное обучение (semi-supervised learning).===
+
===Обнаружение аномалий===
 +
[https://yadi.sk/i/K2EpGFqD3Q3UZM Презентация].
-
===Активное обучение.===
+
===Нелинейное снижение размерности===
 +
[https://yadi.sk/i/b2Dz8kaV3Q3Ubg Презентация].

Версия 18:08, 15 февраля 2018

Содержание

Курс посвящен алгоритмам машинного обучения (machine learning), которые сами настраиваются на известных данных, выделяя их характерную структуру и взаимосвязи между ними, для их прогнозирования, анализа, компактного описания и визуализации. Основной акцент курса сделан на задачах предсказания дискретных величин (классификация) и непрерывных величин (регрессия), хотя в курсе также рассматриваются смежные области - эффективное снижение размерности пространства, выделение наиболее значимых признаков для предсказания, методы оценивания и сравнения вероятностных распределений, рекомендательные системы и планирование экспериментов.

Лектор: Виктор Китов

Семинарист: Евгений Соколов

Курс читается студентам 3 курса кафедры «Математические методы прогнозирования» ВМиК МГУ, магистрам, зачисленным на эту кафедру, и не проходивших ранее аналогичных курсов, а также для всех желающих. На материал данного курса опираются последующие кафедральные курсы.

По изложению, рассматриваются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения.

Курс сопровождается семинарами, раскрывающими дополнительные темы курса и отрабатывающими навыки практического применения рассматриваемых методов. Практическое использование методов машинного обучения в основном будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.

От студентов требуются знания линейной алгебры, математического анализа, теории вероятностей, математической статистики и методов оптимизации. Практические задания должны выполняться с использованием языка Python и его научных библиотек.

Экзамен

Консультация перед экзаменом будет 13 января в 13-30 - 15-00 в ауд.П8а. Желающие смогут сдать экзамен досрочно после консультации (желательно предупредить по почте). Оценка за досрочный экзамен не может быть пересдана на основном экзамене.


Билеты.

Программа курса

Первый семестр

Введение в машинное обучение.

Презентация.

Метод ближайших центроидов и K ближайших соседей.

Презентация.

Другие метрические методы.

Презентация.

Сложность моделей. Подготовка данных.

Презентация.

Метрики близости.

Презентация.

Оптимизация метода K ближайших соседей.

Презентация.

Метод главных компонент.

+ вывод решения

Презентация.

Свойства симметричных матриц, положительно определенные матрицы, векторное дифференцирование.

Линейная регрессия.

Презентация.

Линейная классификация.

Презентация.

Оценивание классификаторов.

Презентация. +классификатор выпуклой оболочки ROC кривых.

Метод опорных векторов.

+вывод двойственной задачи SVM +support vector regression

Презентация.

Обобщения методов через ядра Мерсера.

+ двойственная задача для гребневой регрессии

Презентация.

Решающие деревья.

Презентация.

Ансамбли прогнозирующих алгоритмов. Смещение и дисперсия моделей.

Презентация.

Бустинг.

Презентация.

Второй семестр

xgBoost.

Презентация.

Статья со всеми деталями

Байесовское решающее правило. Генеративные и дискриминативные модели.

Презентация. (пока только Байесовское решающее правило)

---

Ядерно-сглаженные оценки плотности.

Презентация.

Отбор признаков

Презентация.

Нейросети

Презентация.

Сингулярное разложение.

Презентация.

Рекомендательные системы.

Презентация.

Свойства выпуклых функций. Неравенство Йенсена.

Расстояние Кульбака-Лейблера, его неотрицательность.

Презентация.

EM-алгоритм.

Презентация.

Смеси распределений, их оценивание через EM-алгоритм

Презентация. Вывод для смеси нормальных распределений.

Тематическое моделирование

Презентация.

Кластеризация

Презентация.

Оценка качества кластеризации

Презентация.

Обнаружение аномалий

Презентация.

Нелинейное снижение размерности

Презентация.

Личные инструменты