Алгоритмы, модели, алгебры (курс лекций, Ю.И. Журавлев, А.Г. Дьяконов)

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

АЛГОРИТМЫ, МОДЕЛИ, АЛГЕБРЫ (название условное, курс посвящён анализу данных)

  • Обязательный курс для магистров каф. ММП 1 г/о, читается в 1-м (9-м) семестре.
  • Лекции — 32 часа, семинаров - 32 часа.
  • Экзамен.
  • За курс отвечает кафедра Математических методов прогнозирования.
  • Автор программы: профессор А. Г. Дьяконов.



Как в прошлом году проходил экзамен:
  • Есть система штрафных баллов, по ней формируется итоговая оценка.
  • Пороги для конкретных оценок (по сумме баллов) объявлены изначально, но могут быть откорректированы лектором в пользу студентов.
  • Сам экзамен проводится письменно - на нём (при желании) можно улучшить итоговую оценку

Содержание экзамена: задания эквивалентные заданиям со всех контрольных и семинаров (плюс задания по спектральной теории графов, плюс задания на знания теории и определений, если они были на лекциях и продублированы в списке рекомендуемой литературы, плюс задания на знания языков/библиотек, если они обсуждались на семинарах и лекциях)

Исправление: хорошее написание письменного экзамена увеличивает итоговую оценку на 1 балл (порог будет заранее объявлен), безупречное написание - на 2 балла.

  • Итоговая "отлично" ставится автоматом.
  • Итоговая "неудовлетворительно" также ставится автоматом и означает недопуск к экзамену, чтобы получить допуск надо сдать все несданные задания (итоговая оценка при этом не меняется и может быть исправлена только на самом экзамене).
  • Экзамен проходит по жёсткой схеме: нельзя пользоваться ничем (кроме ручки и листка бумаги). Аналогично контроль сдаваемых заданий после окончания семестра жёсткий: лектор уже не консультирует по самим заданиям, презентации оцениваются по формальным критериям: наличие постановки задачи, описание предложенных методов, их обоснование, подробное изложение экспериментов (с графиками и таблицами), формирование итоговой модели, выводы. Оценивается и сам доклад по задаче!


Аннотация

Курс посвящён решению прикладных задач анализа данных. Разбираются реальные задачи и бизнес-кейсы. Студенты пишут и настраивают алгоритмы на языках Python, R, M (Matlab).

Семинары посвящены

  • докладам по решению прикладных задач (с презентациями),
  • опросам по выполнению домашнего задания,
  • обучению программированию на скриптовых языках (для тех, у кого их не было в бакалавриате),
  • мозговому штурму по решению задач и обсуждению решений,
  • написанию контрольных работ, решению аналитических задач, работе над ошибками.

Система оценивания

В течение семестра студенты получают задания.

При сдаче правильно выполненного задания в срок студент не получает штрафных баллов.

В противном случае - он получает от 1 до 10 штрафных баллов.

Штраф в 10 баллов допустим за позднюю сдачу (даже если решение верное) в случае отсутствия уважительных причин (болезнь, подтверждаемая справкой, и т.п. - см. требования учебной части).

В некоторых случаях (на усмотрение лектора), магистру, который лучше всех выполнил конкретное задание, списываются штрафные баллы (до 10).

На экзамене также за неверные ответы студент получает штрафные баллы.


Итоговая оценка формируется следующим образом:

  • до 10 штрафных баллов включительно - отлично,
  • до 20 штрафных баллов включительно - хорошо,
  • до 30 штрафных баллов включительно - удовлетворительно.

Содержание курса

Наполняется по мере необходимости.

Число Занятие Тема Замечания
01.09.16 лекция Вводное занятие: цели курса, материалы, правила, участие в соревнованиях. презентация (pdf)
01.09.16 семинар Тест на знание основ машинного обучения.
01.09.16 дз Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники).
08.09.16 лекция Оценка среднего и вероятности

материалы:

  1. Книга Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с. * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
  2. Статья  Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77..
  3. Видео Оценка вероятности: когда к нам придёт клиент?
презентация (pdf)
08.09.16 лекция
08.09.16 дз Первое домашнее задание:

Решение задачи [[1]]. Срок - до 21 сентября 2016 23:59 (с выкладкой отчёта в [этой ветке форума]).

Все вопросы задаются в [форуме].

Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме.

до 14 сентября 2016 23:59 - преодолеть порог 278.17435 в [Public Liderboard].

Напоминание: команды называть по шаблону Ivan Ivanov (MMP, MSU, Russia).

max штраф за задание -10.

Но дополнительно, за непреодоление бенчмарка -5.


15.09.16 лекция Система для анализа данных Matlab

материалы:

  1. Дьяконов A.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования), МАКСПресс, 2010, 278с.
  2. Блог Лоурен "Loren on the Art of MATLAB"
презентация (pdf)
15.09.16 семинар Разбор первого проверочного теста
15.09.16 дз Быть в будущем готовым к контрольной
22.09.16 лекция Визуализация данных

материалы:

презентация (pdf)
22.09.16 семинар Разбор решений задачи [MSUsums]
22.09.16 дз

Второе домашнее задание:

0. Найти интересную визуализацию, выложить в [ветке форума] (кратко обосновать, чем интересна).

Не обязательно на тему анализа данных (главное: интересная тематика и/или стиль визуализации).

Если кто-то выкладывает визуализацию, то источник (например, какой-то блог) уже не может быть использован остальными магистрами!

1. Выбрать набор данных на kaggle.com в разделе [Kaggle/Datasets].

Будьте внимательны: смотрите на данные. Ограничение: не более двух магистров на один датасет. Выбор надо сразу же "застолбить" в [ветке форума].

2. Сделать визуализацию по этой задаче (по каждой уже есть какие-то визуализации - см. раздел "Kernels"). Вот [пример] одной из уже сделанных визуализаций.

3. Оформить её в виде скрипта на сайте (предпочтительно) и / или в виде отдельного pdf-отчёта. Вот пример [отчёта прошлого года].

4. В любом случае - сделать по своей работе презентацию.

5. Что будет оцениваться (точнее, не штрафоваться)

  • красота картинок
  • нетривиальность данных для визуализации (необходимость получить их по представленным таблицам)
  • непохожесть на другие визуализации
  • качество выводов
  • подробность описания своей работы над задачей
  • лайки на сайте kaggle

Срок - до 12.10.2016 23:59.

Максимальный штраф: -10 (плюс отдельный штраф -5 за найденную визуализацию).

Успеваемость

№ п/п Студент тест покупки (1) покупки (2)
1 Амелин Владислав Владимирович 19 + +0
report
2 Андрейцев Антон Игоревич 13 - -3
report
3 Викулин Всеволод Александрович 28 + +3
report
4 Вихрева Мария Викторовна Н - -5
5 Гетоева Аида Артуровна 11 + +0
report
6 Журавлёв Вадим Игоревич 19 + +3
report
7 Иванов Олег Юрьевич 32 + +0
8 Камалов Руслан Рамилевич 11 + +0
9 Кудрявцев Георгий Алексеевич 25 + -1
report
10 Оспанов Аят Махатович 17 + +0
report
11 Попов Николай Олегович 10 + +0
12 Романов Никита Алексеевич 8 + +0
report
13 Рысьмятова Анастасия Александровна 37 + +10 (1st)
report
14 Садекова Таснима 10 + +0
15 Скробот Дмитрий Владиславович Н - --
16 Стёпина Александра Михайловна 18 + +0
17 Тлеубаев Адиль Талгатович 16 + +0
18 Чиркова Надежда Александровна 24 + +0
report
19 Шаповалов Никита Анатольевич 39 + -+
-- Чабаненко Владислав Дмитриевич 28 +
-- Даулбаев Талгат Кайратулы 30 + +0
-- Теплов Алексей (НИВЦ) Н
-- Гёри Алексей (Германия) Н + +5
report

Литература

Указана локально - в сетке расписания.

История

Программы прошлых лет см. здесь:

Личные инструменты