Машинное обучение (семинары, ВМК МГУ)/2015-2016 год, осень

Материал из MachineLearning.

Версия от 22:54, 13 февраля 2016; EvgSokolov (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Содержание


Выставление оценки за курс

Итоговая контрольная работа:

  1. На последней лекции будет проведена контрольная работа, которая затронет все темы, изученные в течение семестра.
  2. Контрольная оценивается по двухбалльной шкале (зачет/незачет), незачет влечет за собой недопуск к экзамену.
  3. Студент, не получивший допуск, переписывает на экзамене контрольную. В случае успеха он сдает экзамен на первой пересдаче. В случае незачета он снова переписывает контрольную на первой пересдаче, и так далее.

Семинары:

  1. На семинарах по каждой пройденной теме будут проводиться проверочные работы. Каждая проверочная оценивается по пятибалльной шкале. В зависимости от оценки за проверочную, студент освобождается от части или от всех задач по этой теме на итоговой контрольной работе.
  2. Также на семинарах будут выдаваться практические задания, которые будут оцениваться по пятибалльной шкале.
  3. В течение семестра будут проводиться конкурсы по анализу данных. Каждый конкурс оценивается по 15-балльной шкале. За первое, второе и третье место выставляется 15, 13 и 11 баллов соответственно при условии, что студенты выступят с докладом о своем решении (в противном случае они получают 10 баллов). За места с четвертого и по самое последнее, превосходящее бейзлайн, выставляется от 10 до 1 баллов по равномерной сетке. Если все присланные группой решения будут тривиальными, то преподаватель имеет право снизить максимальную оценку до 10 или до 5 баллов.
  4. Оценка за работу в семестре равна сумме оценок за проверочные работы, практические задания и конкурсы.
  5. Если оценка за работу в семестре не меньше 100% от максимальной оценки за проверочные и лабораторные работы, то студент освобождается от написания итоговой контрольной и получает допуск к экзамену автоматом.
  6. Если оценка за работу в семестре не меньше 80% от максимальной оценки за проверочные и лабораторные работы и конкурсы, то студент получает +1 балл на экзамене (при условии получения положительной оценки).
  7. В конце семестра разрешается переписать одну пропущенную по любой причине проверочную работу. Также разрешается переписать все проверочные, пропущенные по уважительной причине.

Осенний семестр 2015/2016

Расписание занятий

Дата Номер Тема Материалы Д/З
4 сентября Семинар 1

Вводное занятие:

  • Знакомство с основными определениями в машинном обучении
  • Этапы решения задачи анализа данных
  • Напоминание основных фактов из прошлых курсов
Конспект
11 сентября Семинар 2

Метрические методы:

  • Особенности метрических методов: чувствительность к масштабу и шуму, проклятие размерности
  • Примеры метрик
  • Задание метрик на категориальных признаках
  • Введение в NumPy, SciPy, Pandas, Scikit-Learn
Конспект

IPython Notebook

25 сентября Семинар 3

Метрические методы:

  • Locality-sensitive hashing
  • Краткое упоминание рандомизированных алгоритмов и обучения хэшированию
  • Векторизация операций в NumPy
  • Практические особенности kNN и LSH
Конспект

IPython Notebook

Домашнее задание
2 октября Семинар 4

Решающие деревья:

  • Жадное построение решающих деревьев
  • Критерии информативности
  • Учет пропущенных значений
  • Стрижка деревьев
  • Работа с категориальными признаками
Конспект Домашнее задание
9 октября Семинар 5

Метрики качества:

  • Регрессия: MSE, MAE, квантильная регрессия
  • Бинарная классификация: precision/recall, AUC-ROC, AUC-PR, Lift
  • Многоклассовая классификация: micro-averaging, macro-averaging
Конспект Домашнее задание
9 октября Семинар 6

Решающие деревья:

  • примеры в sklearn
  • объединение в решающие леса

Выдача первого конкурса:

  • работа с текстами
  • разреженные признаки
  • blending
  • word2vec
Слайды

Код по деревьям

Код по word2vec

Код по данным конкурса

Модель word2vec

16 октября Семинар 7

Линейные методы:

  • векторное дифференцирование
  • геометрия линейных классификаторов
  • разновидности градиентного спуска: GD, SG, SAG
  • длина шага в градиентном спуске

Метрики качества:

  • примеры вычисления в sklearn
  • кросс-валидация и стратификация в sklearn
Конспект

Код по метрикам качества

Домашнее задание
30 октября Семинар 8

Линейные методы:

  • Знакомство с Vowpal Wabbit
Слайды

Пример работы с Vowpal Wabbit

6 ноября Семинар 9

Линейные методы:

  • условная задача оптимизации, лагранжиан
  • двойственная задача
  • теорема Куна-Таккера
Конспект Домашнее задание
20 ноября Семинар 10

Линейные методы:

  • функции потерь и предсказание вероятностей
  • логистическая регрессия
Конспект Домашнее задание
20 ноября Семинар 11

Линейные методы:

  • SVM, постановка задачи
  • вывод двойственной задачи SVM
Конспект Домашнее задание
27 ноября Семинар 12

Обсуждение первого конкурса

Валерия Кибитова

Владимир Николаев

Павел Коваленко

4 декабря Семинар 13

Линейные методы:

  • ядра и спрямляющие пространства
  • применение ядер в линейной регрессии
  • метрические операции в спрямляющем пространстве
  • способы построения ядер
Конспект Домашнее задание
4 декабря Семинар 14

Байесовские методы:

  • оптимальные байесовские правила для бинарной и квадратичной функций потерь
  • метод максимального правдоподобия
  • байесовская регуляризация на примере задачи линейной регрессии
  • очень кратко про байесовский вывод
Конспект Домашнее задание
11 декабря Семинар 15
  • кратко про наивный байесовский классификатор
  • проверочная работа по линейным методам
18 декабря Семинар 16

Байесовские методы:

  • многомерное нормальное распределение, его свойства
  • нормальный дискриминантный анализ
  • вывод оценок максимального правдоподобия для многомерного нормального распределения
  • линейный дискриминант Фишера как поиск одномерного представления выборки
Конспект

Практические задания

Решения желательно присылать сразу в двух форматах:

  • ссылка для просмотра ноутбука на NBViewer или GitHub
  • файл с ноутбуком во вложении

За каждый день просрочки из оценки вычитается 0.2 балла.

Задание Тема Дата выдачи Срок сдачи Условие
Лабораторная работа 1 Язык Python, основные библиотеки для анализа данных 14.09.2015 27.09.2015, 23:59 Условие
Лабораторная работа 2 Метод ближайших соседей, решающие деревья и категориальные признаки 10.10.2015 01.11.2015, 23:59 Условие

Виртуальная машина с питоном и библиотеками

Полезные ссылки: см. репозиторий.

Соревнования

Задание Тема Дата начала Дата окончания Ссылка
Соревнование 1 Закроют ли тему на StackOverflow? 12.10.2015 15.11.2015 https://kaggle.com/join/mmpcmcmsu15161v2

Все студенты должны прислать краткий отчет о своем решении и код, воспроизводящий результат.

Оценки

https://docs.google.com/spreadsheets/d/1vK3gM6sAj2TEqO9mPhm5cIuNSmpsw3CIpQnb4G4Dguo/edit?usp=sharing

Страницы курса прошлых лет

2014-2015 год, весна

2014-2015 год, осень

2013-2014 год, весна

2013-2014 год, осень

2012 год

Личные инструменты