Алгоритмы, модели, алгебры (курс лекций, Ю.И. Журавлев, А.Г. Дьяконов)

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

АЛГОРИТМЫ, МОДЕЛИ, АЛГЕБРЫ (название условное, курс посвящён анализу данных)

  • Обязательный курс для магистров каф. ММП 1 г/о, читается в 1-м (9-м) семестре.
  • Лекции — 32 часа, семинаров - 32 часа.
  • Экзамен.
  • За курс отвечает кафедра Математических методов прогнозирования.
  • Автор программы: профессор А. Г. Дьяконов.

Аннотация

Курс посвящён решению прикладных задач анализа данных. Разбираются реальные задачи и бизнес-кейсы. Студенты пишут и настраивают алгоритмы на языках Python, R, M(Matlab).

Семинары посвящены

  • докладам по решению прикладных задач (с презентациями),
  • опросам по выполнению домашнего задания,
  • обучению программированию на скриптовых языках (для тех, у кого их не было в бакалавриате),
  • мозговому штурму по решению задач и обсуждению решений,
  • написанию контрольных работ, решению аналитических задач, работе над ошибками.

Система оценивания

В течение семестра студенты получают задания.

При сдаче правильно выполненного задания в срок студент не получает штрафных баллов.

В противном случае - он получает от 1 до 10 штрафных баллов.

Штраф в 10 баллов допустим за позднюю сдачу (даже если решение верное) в случае отсутствия уважительных причин (болезнь, подтверждаемая справкой, и т.п. - см. требования учебной части).

В некоторых случаях (на усмотрение лектора), магистру, который лучше всех выполнил конкретное задание, списываются штрафные баллы (до 10).

На экзамене также за неверные ответы студент получает штрафные баллы.


Итоговая оценка формируется следующим образом:

  • до 10 штрафных баллов включительно - отлично,
  • до 20 штрафных баллов включительно - хорошо,
  • до 30 штрафных баллов включительно - удовлетворительно.

Содержание курса

Наполняется по мере необходимости.

Число Занятие Тема Замечания
03.09.15 лекция Вводное занятие: цели курса, материалы, правила, участие в соревнованиях.
03.09.15 семинар Тест на знание основ машинного обучения.
03.09.15 дз Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники).
10.09.15 лекция Оценка среднего и вероятности

материалы:

  1. Книга Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с. * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
  2. Статья  Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77..
  3. Видео Оценка вероятности: когда к нам придёт клиент?
10.09.15 лекция
10.09.15 дз Первое домашнее задание:

Решение задачи [MSUvisits]. Срок - до 23 сентября 2015 23:59 (с выкладкой отчёта в [этой ветке форума]).

Все вопросы задаются в [форуме].

Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме.

до 16 сентября 2015 23:59 - преодолеть порог 0.23753 в [Public Liderboard].

Напоминание: команды называть по шаблону Ivan Ivanov (MMP, MSU, Russia).

max штраф за задание -10.

Но дополнительно, за непреодоление бенчмарка -5.

17.09.15 лекция Система для анализа данных Matlab

материалы:

  1. Дьяконов A.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования), МАКСПресс, 2010, 278с.
17.09.15 лекция Быть в будущем готовым к контрольной
17.09.15 дз Быть в будущем готовым к контрольной
24.09.15 лекция Визуализация данных

материалы:

24.09.15 семинар Разбор решений задачи [MSUvisits]
24.09.15 дз Обеспечить себе результат выше лучшего бенчмарка [MSUvisits] до 01.10.2015 (иначе - штраф -5).

Второе домашнее задание:

1. Выбрать задачу на kaggle.com в разделе Public Datasets (фиолетовый раздел).

Будьте внимательны: смотрите на данные.

2. Сделать визуализацию по этой задаче (по каждой уже есть какие-то визуализации - см. раздел "Скрипты").

3. Оформить её в виде скрипта на сайте (предпочтительно) или в виде отдельного pdf-отчёта.

4. В любом случае - сделать по своей работе презентацию.

5. Что будет оцениваться (точнее, не штрафоваться)

  • красота картинок
  • нетривиальность данных для визуализации (необходимость получить их по представленным таблицам)
  • непохожесть на другие визуализации
  • качество выводов
  • подробность описания своей работы над задачей
  • лайки на сайте kaggle

Срок - до 14.10.2015 23:59.

Ограничения: Одну задачу не должны выбрать более 6 человек (оставляю это требование на контроль группы).

Максимальный штраф: -10.

01.10.15 лекция Функционалы качества и ошибки

материалы:

01.10.15 семинар (45мин) по материалам лекции - минимизация функций ошибки, вычисление AUC ROC
01.10.15 дз Подготовка к контрольной работе
08.10.15 лекция продолжение Функционалы качества и ошибки
08.10.15 семинар по материалам лекции, контрольная работа по теме Функционалы качества и ошибки (максимальный штраф: -10 - исправляемый!)
08.10.15 дз
15.10.15 лекция Представление нового задания: Rossmann Store Sales , обзор подходов к его решению на R.

материалы:

Срок - до 28.10.2015 23:59.

Напоминание: команды называть по шаблону Ivan Ivanov (MMP, MSU, Russia).

15.10.15 семинар Защита своих визуализаций (см. Второе домашнее задание.)
15.10.15 дз

Третье домашнее задание:

1. Попробовать по крайней мере 3 различных алгоритма машинного обучения и по крайней мере 3 различных признаковых пространства в задаче Rossmann Store Sales (т.е минимум должно быть использовано 3 различных алгоритма машинного обучения, если они обучаются на разных признаках). Ограничения по языку программирования нет, можно использовать любой. Качество работы алгоритмов нужно проверять на локальном контроле.

2. Сделать хотя бы 3 посылки по этой задаче на сайте kaggle.com и посмотреть как соотносятся результаты локального контроля и Public Leaderboard.

3. Прислать отчет о проделанной работе на почту aostapec@mail.ru

4. Что должно быть в отчете:

  • Понятное описание используемых подходов (можно прислать текстовое описание, код, rNotebook или IPython Notebook с экспериментами)
  • Таблица с результатами работы алгоритмов на локальном контроле.
  • Таблица с результатами работы алгоритмов на Public Leaderboard.
22.10.15 лекция Подходы к решению Rossmann Store Sales + минимизация функционалов + м.б. линейные методы или прогнозирование.
22.10.15 семинар Разбор последней контрольной работы + защита своих визуализаций (продолжение)
22.10.15 дз

Успеваемость


п/п
Студент тест
03.09
визиты
23.09
преодоление
бенчмарка
01.10
семинары
01.10
выбор визуализации
ранняя сдача
ф-ии ошибки
кр
08.10
визуализация
защита
15.10
1 Апишев Мурат Азаматович 0 0 + 0 (доклад)-5 +5 -3 0 (доклад)
2 Гой Антон Сергеевич 0 +3 (загрузка) + 0 (доклад)0 +5 -5 0 (доклад)
3 Готман Мария Леонидовна 0 +3 (форум) + 0 (доклад)-5 -3 0
4 Гурьянов Алексей Константинович 0 -5 -20 +1 0+10 0
5 Жосан Юлия Сергеевна 0 -1 -10 -7
6 Кибитова Валерия Николаевна 0 0 -20 -6 0
7 Козлов Владимир Дмитриевич 0 -1 + 0-5 -3 0
8 Кузенко Татьяна Вячеславовна - 0 -5 -10-5 -9  ?
9 Лукашкина Юлия Николаевна 0 0 + 0-5 +5 -7 0
10 Ожерельев Илья Сергеевич 0 0 + 0 (доклад)-5 +1 -6  ?
11 Сендерович Никита Леонидович +10 +5 (выступление)0 -3 0 (доклад)
12 Скробот Дмитрий Владиславович - 0 -5 -10-5 -10
13 Темирчев Павел Георгиевич 0 -5 -3 (доклад)-5 +2 -7
14 Федосов Виктор Николаевич 0 -5 -10-5 -10
15 Хомутов Никита Юрьевич - 0 -5 -10-5 -7
16 Шапулин Андрей Валентинович - 0 0 + 0 (доклад)0 -6 0

Литература

Указана локально - в сетке расписания.

История

Программы прошлых лет см. здесь: Алгоритмы, модели, алгебры (курс на ВМК до 2015 года)

Личные инструменты