Алгоритмы, модели, алгебры (курс лекций, Ю.И. Журавлев, А.Г. Дьяконов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(АЛГОРИТМЫ, МОДЕЛИ, АЛГЕБРЫ (название условное, курс посвящён анализу данных))
(Содержание курса)
(164 промежуточные версии не показаны)
Строка 1: Строка 1:
-
== АЛГОРИТМЫ, МОДЕЛИ, АЛГЕБРЫ (название условное, курс посвящён анализу данных) ==
+
== ПРИКЛАДНЫЕ ЗАДАЧИ АНАЛИЗА ДАННЫХ (курс для магистров ММП ВМК МГУ) ==
* Обязательный курс для магистров каф. [[ММП]] 1 г/о, читается в 1-м (9-м) семестре.
* Обязательный курс для магистров каф. [[ММП]] 1 г/о, читается в 1-м (9-м) семестре.
Строка 7: Строка 7:
* Автор программы: профессор [[Участник:Dj|{{S|А. Г. Дьяконов}}]].
* Автор программы: профессор [[Участник:Dj|{{S|А. Г. Дьяконов}}]].
-
{{notice|
 
-
'''Для тех, кто пока имеет по курсу "неуд":'''
 
-
Первая пересдача (всего их две) назначена на 8 февраля (дата ещё уточняется).
 
-
К этой дате необходимо ликвидировать все задолжности за семестр (в противном случае ставится оценка "неуд").
 
-
'''Как минимум, за два для до пересдачи по каждому заданию выложить свой код и отчёт''' (чем раньше, тем лучше).
 
-
Места для выкладки - см. ниже.
 
-
Это позволит проверить Ваши отчёты заранее и побудить Вас внести исправления.
 
-
В противном случае - у Вас не останется времени на исправления.
 
-
Напоминаю, что все задания оцениваются строго. Например, отсутствие нужных графиков или таблиц может считаться невыполнением задания,
 
-
нарушение общих правил курса (название команд на Kaggle и т.п.) может считаться невыполнением задания, неубедительное выступление с презентацией может считаться невыполнением задания.
 
-
Список задолжностей
+
{{notice|
 +
'''Как в прошлом году проходил экзамен:'''
-
* Козлов Владимир Дмитриевич [VZ, ROS, SK, WL, ED]
 
-
* Кузенко Татьяна Вячеславовна [VZ, PIC, ROS, SK, WL, ED]
 
-
* Ожерельев Илья Сергеевич [PIC, ROS, SK, WL, ED]
 
-
* Скробот Дмитрий Владиславович [VZ, PIC, ROS, SK, WL, ED]
 
-
* Федосов Виктор Николаевич [VZ, PIC, ROS, SK, WL, ED]
 
-
* Хомутов Никита Юрьевич [VZ, PIC, ROS, SK, WL, ED]
 
-
 
-
SK - задание по библиотеке scikit-learn от 05.11 (остаётся в той постановке, что и было).
 
-
Обратите внимание, что задание предусматривает доклад с презентацией (будет до пересдачи).
 
-
Ветка для выкладки [https://inclass.kaggle.com/c/msuedges/forums/t/18146/- презентации по SK].
 
-
 
-
PIC - задание по визуализации от 24.09 (остаётся в той же постановке, что и было).
 
-
Обратите внимание, что задание предусматривает доклад с презентацией (будет до пересдачи).
 
-
Ветка для выкладки [https://inclass.kaggle.com/c/msuedges/forums/t/18146/- презентации по PIC].
 
-
 
-
VZ - [https://inclass.kaggle.com/c/msusums новое задание про предсказание поведения покупателей].
 
-
В [https://inclass.kaggle.com/c/msusums/forums/t/18320/2015/104128#post104128 ветке форума] описаны требования.
 
-
Обратите внимание, что задание предусматривает преодоление бенчмарка (на скрытой выборке).
 
-
 
-
ROS - [https://www.kaggle.com/c/the-winton-stock-market-challenge соревнование Winton].
 
-
Необходимо преодолеть на скрытой выборке победить бенчмарк из одних нулей.
 
-
Ветка для выкладки отчётов: [https://inclass.kaggle.com/c/msuedges/forums/t/18146/- наш общий форум].
 
-
'''Спешите зарегистрироваться''' - до конца соревнования 15 дней, за 7 регистрация прекращается.
 
-
 
-
''' ''Поправка 09/02/2016'':''' ''после окончания соревнования, если вы не успели поучаствовать, скачайте данные
 
-
(сабмишиные ещё можно сделать), выложите вместе со своим отчётом своё решение (файл для отправки на Кэгл).
 
-
Обоб всех трудностях пишите в [https://inclass.kaggle.com/c/msuedges/forums/t/18146/- форуме].''
 
-
 
-
WL+ED - [http://cardioqvark.ru/challenge/ конкурс CardioQVARK] (''выложено 25.01.2016'').
 
-
За два задания засчитывается этот не очень трививальный конкурс.
 
-
Необходимо написать функции считывания всей признаковой информации, которая есть в файлах,
 
-
функции обработки сигналов и извлечения дополнительных признаков.
 
-
На локальном (!) скользящем контроле необходимо превзойти порог 0.6 по F-мере
 
-
и запостить решение на тесте(с нужным ником).
 
-
Ветка для выкладки отчётов и кода: [https://inclass.kaggle.com/c/msuedges/forums/t/18146/- наш общий форум].
 
-
Рекомендуемый материал для повышения качества: [http://www.machinelearning.ru/wiki/images/6/60/Voron-2014-09-12-mmp-ecg.pdf презентация Воронцова].
 
-
 
-
 
-
При выполнении соревновательных заданий необходимо, чтобы
 
-
* были реализованы все основные типы алгоритмов, которые упоминались на лекции, если подобная задача разбиралась
 
-
* была описана и аргументирована схема локального контроля, приведены (в виде таблиц и графиков) результаты этого контроля для разных моделей/при разных значениях параметров
 
-
* к оформлению отчёта предъявляются требования [[Написание_отчётов_и_статей_(рекомендации)| стандартные для научных текстов]]
 
-
 
-
 
-
 
-
Все вопросы, связанные с АМА должны быть заданы в [https://inclass.kaggle.com/c/msuedges/forums/t/18146/- этой ветке].
 
-
 
-
Напоминаю, что сдача всех задолжностей означает допуск к сдаче экзамена с базовой оценкой "неуд".
 
-
Критерии её повышения до положительной см. в [https://inclass.kaggle.com/c/msuedges/forums/t/18146/- форуме].
 
-
 
-
11/01/2016
 
-
}}
 
-
 
-
 
-
{{notice|
 
-
Напоминаю, о наших договорённостях:
 
* Есть система штрафных баллов, по ней формируется итоговая оценка.
* Есть система штрафных баллов, по ней формируется итоговая оценка.
* Пороги для конкретных оценок (по сумме баллов) объявлены изначально, но могут быть откорректированы лектором в пользу студентов.
* Пороги для конкретных оценок (по сумме баллов) объявлены изначально, но могут быть откорректированы лектором в пользу студентов.
Строка 89: Строка 24:
* Итоговая "неудовлетворительно" также ставится автоматом и означает недопуск к экзамену, чтобы получить допуск надо сдать все несданные задания (итоговая оценка при этом не меняется и может быть исправлена только на самом экзамене).
* Итоговая "неудовлетворительно" также ставится автоматом и означает недопуск к экзамену, чтобы получить допуск надо сдать все несданные задания (итоговая оценка при этом не меняется и может быть исправлена только на самом экзамене).
* Экзамен проходит по жёсткой схеме: нельзя пользоваться ничем (кроме ручки и листка бумаги). Аналогично контроль сдаваемых заданий после окончания семестра жёсткий: лектор уже не консультирует по самим заданиям, презентации оцениваются по формальным критериям: наличие постановки задачи, описание предложенных методов, их обоснование, подробное изложение экспериментов (с графиками и таблицами), формирование итоговой модели, выводы. Оценивается и сам доклад по задаче!
* Экзамен проходит по жёсткой схеме: нельзя пользоваться ничем (кроме ручки и листка бумаги). Аналогично контроль сдаваемых заданий после окончания семестра жёсткий: лектор уже не консультирует по самим заданиям, презентации оцениваются по формальным критериям: наличие постановки задачи, описание предложенных методов, их обоснование, подробное изложение экспериментов (с графиками и таблицами), формирование итоговой модели, выводы. Оценивается и сам доклад по задаче!
-
 
-
Все вопросы, связанные с АМА должны быть заданы в [https://inclass.kaggle.com/c/msuedges/forums/t/18146/- этой ветке].
 
-
 
-
 
-
'''Пример теоретических вопросов для экзамена:'''
 
-
* Что такое коэффициент кластеризации?
 
-
* Что такое полнота (как мера качества при классификации)?
 
-
* Что такое персептронный алгоритм?
 
-
 
-
'''Внимание!''' Посмотрите на странице АМА - не ошибся ли я с итоговыми баллами...
 
-
 
-
'''"Отлично" автоматом получают:'''
 
-
 
-
* Апишев Мурат Азаматович
 
-
* Гой Антон Сергеевич
 
-
* Гурьянов Алексей Константинович
 
-
* Кибитова Валерия Николаевна
 
-
* Лукашкина Юлия Николаевна
 
-
* Сендерович Никита Леонидович
 
-
* Шапулин Андрей Валентинович
 
-
 
-
'''Допуск на экзамен имеют:'''
 
-
 
-
* Готман Мария Леонидовна - не ниже "хорошо"
 
-
* Жосан Юлия Сергеевна - не ниже "удовлетворительно" (жду выполнение последнего задания)
 
-
* Темирчев Павел Георгиевич - не ниже "удовлетворительно"
 
-
 
-
'''Допуск на экзамен не имеют - "неуд. автоматом":'''
 
-
 
-
* Козлов Владимир Дмитриевич [VZ, ROS, SK, WL, ED]
 
-
* Кузенко Татьяна Вячеславовна [VZ, PIC, ROS, SK, WL, ED]
 
-
* Ожерельев Илья Сергеевич [PIC, ROS, SK, WL, ED]
 
-
* Скробот Дмитрий Владиславович [VZ, PIC, ROS, SK, WL, ED]
 
-
* Федосов Виктор Николаевич [VZ, PIC, ROS, SK, WL, ED]
 
-
* Хомутов Никита Юрьевич [VZ, PIC, ROS, SK, WL, ED]
 
-
 
-
В скобках обозначены долги - задания, которые необходимо сделать для допуска к экзамену. SK - задание по библиотеке scikit-learn от 05.11 (остаётся в той постановке, что и было). PIC - задание по визуализации от 24.09 (остаётся в той же постановке, что и было). 10го числа можно будет сдать эти задания. Остальные будут переформулированы после 10го числа (использование прежних формулировок невозможно, по причине окончания соответствующих соревнований).
 
-
27/12/2015
 
}}
}}
Строка 133: Строка 30:
Курс посвящён решению прикладных задач анализа данных.
Курс посвящён решению прикладных задач анализа данных.
Разбираются реальные задачи и бизнес-кейсы.
Разбираются реальные задачи и бизнес-кейсы.
-
Студенты пишут и настраивают алгоритмы на языках Python, R, M(Matlab).
+
Студенты пишут и настраивают алгоритмы на языках Python, R, M (Matlab).
Семинары посвящены
Семинары посвящены
Строка 175: Строка 72:
! Замечания
! Замечания
|-
|-
-
| 03.09.15
+
| 07.09.17
| лекция
| лекция
| '''Вводное занятие''': цели курса, материалы, правила, участие в соревнованиях.
| '''Вводное занятие''': цели курса, материалы, правила, участие в соревнованиях.
-
|
+
| [[Медиа:AMA2016_00_intro.pdf|презентация (pdf)]]
|-
|-
-
| 03.09.15
+
| 07.09.17
| семинар
| семинар
| Тест на знание основ машинного обучения.
| Тест на знание основ машинного обучения.
|
|
|-
|-
-
| 03.09.15
+
| 07.09.17
| дз
| дз
| Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники).
| Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники).
|
|
|-
|-
-
| 10.09.15
+
| 14.09.17
| лекция
| лекция
| '''Оценка среднего и вероятности'''
| '''Оценка среднего и вероятности'''
Строка 198: Строка 95:
# Статья [http://bijournal.hse.ru/2014--1%20%2827%29/120486363.html  Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77.].
# Статья [http://bijournal.hse.ru/2014--1%20%2827%29/120486363.html  Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77.].
# Видео [https://vimeo.com/119925869 Оценка вероятности: когда к нам придёт клиент?]
# Видео [https://vimeo.com/119925869 Оценка вероятности: когда к нам придёт клиент?]
-
|
+
| [[Медиа:PZAD2016_01_probweights.pdf|презентация (pdf)]]
|-
|-
-
| 10.09.15
+
| 14.09.17
| лекция
| лекция
|
|
|
|
|-
|-
-
| 10.09.15
+
| 14.09.17
| дз
| дз
| '''Первое домашнее задание:'''
| '''Первое домашнее задание:'''
-
Решение задачи [[https://inclass.kaggle.com/c/msuvisits MSUvisits]].
+
Решение задачи [[https://www.kaggle.com/c/pzadbabki]].
-
Срок - '''до 23 сентября 2015 23:59''' (с выкладкой отчёта в [[https://inclass.kaggle.com/c/msuvisits/forums/t/16428/517 этой ветке форума]]).
+
Срок - '''до 04 октября 2017 23:59''' (с выкладкой отчёта в [[https://www.kaggle.com/c/pzadbabki/discussion/39537 этой ветке форума]]).
-
Все вопросы задаются в [[https://inclass.kaggle.com/c/msuvisits/forums форуме]].
+
Все вопросы задаются в [[https://www.kaggle.com/c/pzadbabki/discussion/ форуме]].
Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме.
Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме.
-
'''до 16 сентября 2015 23:59 ''' - преодолеть порог 0.23753 в [[https://inclass.kaggle.com/c/msuvisits/leaderboard Public Liderboard]].
+
'''до 27 сентября 2017 23:59 ''' - преодолеть бенчмарк.
Напоминание: команды называть по шаблону '''''Ivan Ivanov (MMP, MSU, Russia)'''''.
Напоминание: команды называть по шаблону '''''Ivan Ivanov (MMP, MSU, Russia)'''''.
| max штраф за задание -10.
| max штраф за задание -10.
Но дополнительно, за непреодоление бенчмарка -5.
Но дополнительно, за непреодоление бенчмарка -5.
 +
 +
 +
|-
|-
-
| 17.09.15
+
| 21.09.17 <br> среда
| лекция
| лекция
-
| '''Система для анализа данных Matlab'''
+
| '''Язык программирования Python'''
-
материалы:
+
* С. Лебедев [https://compscicenter.ru/courses/python/2015-autumn/ Программирование на Python]
-
 
+
* [https://learnxinyminutes.com/docs/python/ Learn X in Y minutes]
-
# [[Публикация:Дьяконов 2010 Учебное пособие ММП| Дьяконов A.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования), МАКСПресс, 2010, 278с.]]
+
| [[Медиа:PZAD2017_c1_python.pdf|презентация (pdf)]]
-
# [https://blogs.mathworks.com/loren/ Блог Лоурен "Loren on the Art of MATLAB"]
+
-
|
+
|-
|-
-
| 17.09.15
+
| 21.09.17 <br> среда
| лекция
| лекция
-
| Быть в будущем готовым к контрольной
+
| '''Язык программирования Python''' (продолжение)
|
|
|-
|-
-
| 17.09.15
+
| 21.09.17 <br> среда
| дз
| дз
-
| Быть в будущем готовым к контрольной
+
| Готовиться к к/р по языку Python.
|
|
 +
 +
|-
|-
-
| 24.09.15
+
| 28.09.16
| лекция
| лекция
| '''Визуализация данных'''
| '''Визуализация данных'''
Строка 247: Строка 147:
* Книга [http://www.amazon.com/Beautiful-Visualization-Looking-through-Practice/dp/1449379869 Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) // Edited by Julie Steele and Noah Iilinsky. Sebastopol, CA: O‘Reilly 2010, pp. 227-254. ISBN: 978-1-4493-7986-5] по визуализации данных
* Книга [http://www.amazon.com/Beautiful-Visualization-Looking-through-Practice/dp/1449379869 Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) // Edited by Julie Steele and Noah Iilinsky. Sebastopol, CA: O‘Reilly 2010, pp. 227-254. ISBN: 978-1-4493-7986-5] по визуализации данных
-
+
|
-
|
+
* [[Медиа:PZAD2017_02_visualize_part1.pdf|презентация (pdf)]]
 +
* [[Медиа:PZAD2017_02_visualize_part2.pdf|презентация (pdf)]]
|-
|-
-
| 24.09.15
+
| 28.09.16
-
| семинар
+
| лекция
-
| Разбор решений задачи [[https://inclass.kaggle.com/c/msuvisits MSUvisits]]
+
| продолжение
|
|
|-
|-
-
| 24.09.15
+
| 28.09.16
| дз
| дз
-
| Обеспечить себе результат выше лучшего бенчмарка [[https://inclass.kaggle.com/c/msuvisits MSUvisits]] до 01.10.2015 (иначе - '''штраф -5''').
+
|
'''Второе домашнее задание:'''
'''Второе домашнее задание:'''
-
1. Выбрать ''активную'' задачу на kaggle.com в разделе Public Datasets (фиолетовый раздел).
+
* Найти 2е интересные визуализации, выложить в [[https://www.kaggle.com/c/pzadbabki/discussion/40193 форуме(1)]] (см. внимательно правила по ссылке). [10 штрафных / +10 анти]
 +
* Найти ещё одну визуализацию для игры "что за данные" (добавить её в конец презентации про решение 1й задачи к 5.10.2017)
 +
* Выбрать набор данных на kaggle.com в разделе [[https://www.kaggle.com/datasets]]. См. правила и как выбрать на [[https://www.kaggle.com/c/pzadbabki/discussion/40194 форуме(2)]]. Оформить презентацию-доклад. [10 штрафных / +10 анти]
 +
* След занятие: отчёт по 1й задаче и к/р Питон
-
Будьте внимательны: смотрите на данные.
 
-
2. Сделать визуализацию по этой задаче (по каждой уже есть какие-то визуализации - см. раздел "Скрипты").
 
-
3. Оформить её в виде скрипта на сайте (предпочтительно) или в виде отдельного pdf-отчёта.
+
|-
 +
| 05.10.17
 +
| семинар
 +
| '''Отчёт по ДЗ №1''' (определение суммы 1й покупки)
 +
|
 +
|-
 +
| 05.10.17
 +
| лекция
 +
| '''Отчёт по ДЗ №1''' (определение суммы 1й покупки)
 +
|
 +
|-
 +
| 05.10.17
 +
| дз
 +
| Следующее реашемое нами соревнование - https://sascompetitions.ru/ - задача Хоум Кредит Банка (подробности на след. занятии).
 +
|
-
4. В любом случае - сделать по своей работе презентацию.
 
-
5. Что будет оцениваться (точнее, не штрафоваться)
+
|-
-
* красота картинок
+
| 12.10.17
-
* нетривиальность данных для визуализации (необходимость получить их по представленным таблицам)
+
| лекция
-
* непохожесть на другие визуализации
+
| '''Функционалы качества и ошибки'''
-
* качество выводов
+
-
* подробность описания своей работы над задачей
+
-
* лайки на сайте kaggle
+
-
 
+
-
Срок - до '''14.10.2015 23:59'''.
+
-
 
+
-
Ограничения: Одну задачу не должны выбрать более 6 человек (оставляю это требование на контроль группы).
+
-
 
+
-
Максимальный штраф: '''-10'''.
+
|
|
|-
|-
-
| 01.10.15
+
| 12.10.17
| лекция
| лекция
| '''Функционалы качества и ошибки'''
| '''Функционалы качества и ошибки'''
Строка 297: Строка 203:
* видео [https://vimeo.com/119926489 Функционалы качества и функции потерь: Какие множества похожи?]
* видео [https://vimeo.com/119926489 Функционалы качества и функции потерь: Какие множества похожи?]
* видео [https://vimeo.com/119926504 Функционалы качества и функции потерь: AUC ROC - путь из (0,0) в (1,1)]
* видео [https://vimeo.com/119926504 Функционалы качества и функции потерь: AUC ROC - путь из (0,0) в (1,1)]
-
|
+
| [[Медиа:PZAD2017_03_errors.pdf|презентация (pdf)]] **NEW**
|-
|-
-
| 01.10.15
+
| 12.10.17
-
| семинар (45мин)
+
-
| по материалам лекции - минимизация функций ошибки, вычисление AUC ROC
+
-
|
+
-
|-
+
-
| 01.10.15
+
| дз
| дз
-
| Подготовка к контрольной работе
+
| До следующего занятия в [https://www.kaggle.com/c/pzadbabki/discussion/41212 ветке форума] выложить найденные закономерности в задаче скоринга (штраф: -5).
|
|
 +
 +
 +
 +
 +
 +
 +
|-
|-
-
| 08.10.15
+
| 19.10.16
| лекция
| лекция
-
| продолжение '''Функционалы качества и ошибки'''
+
| продолжение '''Функционалы качества и ошибки''', '''Минимизация ошибок'''
-
|
+
| [[Медиа:PZAD2016_06_minfunc.pdf|презентация (pdf)]]
|-
|-
-
| 08.10.15
+
| 19.10.16
| семинар
| семинар
-
| по материалам лекции, '''контрольная работа''' по теме ''Функционалы качества и ошибки'' (максимальный штраф: '''-10''' - исправляемый!)
+
| Обсуждение закономерностей в задаче '''Скоринг HC'''
-
|
+
|
|-
|-
-
| 08.10.15
+
| 19.10.16
| дз
| дз
-
|
 
|
|
-
|-
 
-
| 15.10.15
 
-
| лекция
 
-
| Представление нового задания: [https://www.kaggle.com/c/rossmann-store-sales Rossmann Store Sales ], '''обзор подходов к его решению на R'''.
 
-
материалы:
 
-
* [[Медиа:Rossmann.pdf|презентация (pdf)]]
 
-
* [[Медиа:Research.r.zip|код на R с исследованиями по задаче и подготовкой решения]]
 
-
* [[Медиа:Examples.zip|пример применения различных алгоритмов машинного обученияна R]]
 
-
Срок - до '''28.10.2015 23:59'''.
+
НОВОЕ ЗАДАНИЕ
-
Напоминание: команды называть по шаблону Ivan Ivanov (MMP, MSU, Russia).
+
1. Подготовиться к контрольной по функционалам качества
-
|
+
-
|-
+
-
| 15.10.15
+
-
| семинар
+
-
| '''Защита своих визуализаций''' (см. Второе домашнее задание.)
+
-
|
+
-
|-
+
-
| 15.10.15
+
-
| дз
+
-
|
+
-
'''Третье домашнее задание:'''
+
-
1. Попробовать по крайней мере 3 различных алгоритма машинного обучения и по крайней мере 3 различных признаковых пространства в задаче [https://www.kaggle.com/c/rossmann-store-sales Rossmann Store Sales] .е минимум должно быть использовано 3 различных алгоритма машинного обучения, если они обучаются на разных признаках). Ограничения по языку программирования нет, можно использовать любой. Качество работы алгоритмов нужно проверять на локальном контроле.
+
* Для этого пройти [https://goo.gl/93qkum тест]
 +
* Прорешать задачи из презентиций [[Медиа:PZAD2017_03_errors.pdf|по ошибкам]], [[Медиа:PZAD2016_06_minfunc.pdf|по минимизации]]
-
2. Сделать хотя бы 3 посылки по этой задаче на сайте [https://www.kaggle.com/c/rossmann-store-sales kaggle.com] и посмотреть как соотносятся результаты локального контроля и Public Leaderboard.
+
2. Решать задачу скоринга
 +
* -10 - непреодоление бенчмарка
 +
* +10 - за см. [https://www.kaggle.com/c/pzadbabki/discussion/41573 ветку обмена кодом]
-
3. Прислать отчет о проделанной работе на почту '''aostapec@mail.ru'''
+
Файлы сабмитов в задаче скоринга начинать с 'msu_'
-
4. Что должно быть в отчете:
 
-
* '''Понятное''' описание используемых подходов (можно прислать текстовое описание, код, rNotebook или IPython Notebook с экспериментами)
 
-
* Таблица с результатами работы алгоритмов на локальном контроле.
 
-
* Таблица с результатами работы алгоритмов на Public Leaderboard.
 
-
|
 
-
|-
 
-
| 22.10.15
 
-
| лекция
 
-
| Подходы к решению [https://www.kaggle.com/c/rossmann-store-sales Rossmann Store Sales ] + '''минимизация функционалов'''
 
-
материалы:
 
-
[https://github.com/Dyakonov/notebooks/blob/master/rossmann.ipynb ноутбук]
+
По просьбам
-
|
+
[https://alexanderdyakonov.files.wordpress.com/2016/10/dj2016_sdsj_vis.pdf Визуализация по данным Сбербанка]
-
|-
+
 
-
| 22.10.15
+
-
| семинар
+
-
| Разбор последней контрольной работы + '''защита своих визуализаций''' (продолжение)
+
-
|
+
-
|-
+
-
| 22.10.15
+
-
| дз
+
-
|
+
|
|
 +
 +
 +
|-
|-
-
| 29.10.15
+
| 26.10.17
| лекция
| лекция
-
| '''Линейные модели алгоритмов'''
+
| '''Случайные леса'''
материалы:
материалы:
-
# [http://lib.mexmat.ru/books/9210 Ту Дж., Гонсалес Р. Принципы распознавания образов] // Издательство Мир , Мо-сква, 1978 - 412 стр.
+
* А. Liaw, M. Wiener [http://www.bios.unc.edu/~dzeng/BIOS740/randomforest.pdf Classification and Regression by randomForest] // R News (2002) Vol. 2/3 p. 18.
-
# [http://alexanderdyakonov.narod.ru/uptimes.pdf Прогнозирование рядов соревнования «Tourism Forecasting Part Two»] (414Кб)
+
* И. Генрихов [http://jmlda.org/papers/doc/2014/no8/Genrikhov2014Criteria.pdf О критериях ветвления, используемых при синтезе решающих деревьев] // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
-
# [http://www.springerlink.com/content/73g4kl50m6112420/ Alexander D’yakonov A Blending of Simple Algorithms for Topical Classification]// Rough Sets and Current Trends in Computing, Lecture Notes in Computer Science, 2012, Volume 7413/2012, 432–438.
+
* A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21.
-
# видео [https://vimeo.com/119926447 Линейная регрессия: как решать матричные уравнения]
+
| [[Медиа:PZAD2016_09_rf.pdf|презентация (pdf)]] *OLD*
-
# С.Хайкин [https://books.google.ru/books/about/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D0%B5%D1%82%D0%B8_%D0%BF%D0%BE%D0%BB%D0%BD%D1%8B%D0%B9.html?hl=ru&id=LPMr0iA0muwC Нейронные сети: полный курс], 2-е издание. Вильямс, 2008.
+
-
|
+
-
|-
+
-
| 29.10.15
+
-
| семинар
+
-
| Введение в Pandas (для желающих)
+
-
|
+
-
|-
+
-
| 29.10.15
+
-
| дз
+
-
|
+
-
|
+
|-
|-
-
| 05.11.15
+
| 26.10.17
| лекция
| лекция
-
| '''Линейные модели алгоритмов''' (продолжение), '''Анализ текстов'''
+
| '''Случайные леса'''
 +
|
-
материалы:
 
-
* [http://www.ozon.ru/context/detail/id/5497130/ К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» // . — Вильямс, 2011.]
 
-
|
 
|-
|-
-
| 05.11.15
+
| 26.10.17
-
| семинар
+
| д/з
-
| Введение в Pandas (окончание), минимизация функционалов
+
| Продолжаем решать задачу скоринга. Штраф -10 за непреодоление нового бенчмарка 0.697481.
|
|
-
|-
+
 
-
| 05.11.15
+
-
| дз
+
-
| '''Домашнее задание''': [[Медиа:PZAD2015_dz.pdf| Постановка]], [https://inclass.kaggle.com/c/msuvisits/forums/t/17301/scikit-learn ветка форума], [http://scikit-learn.org/stable/index.html SCIKIT-LEARN].
+
-
| штраф: -10, срок: 2 недели
+
|-
|-
-
| 12.11.15
+
| 02.11.17
| лекция
| лекция
-
| '''Анализ текстов''' (продолжение), '''Случайные леса'''.
+
| '''Градиентный бустинг'''
материалы:
материалы:
-
* А. Liaw, M. Wiener [http://www.bios.unc.edu/~dzeng/BIOS740/randomforest.pdf Classification and Regression by randomForest] // R News (2002) Vol. 2/3 p. 18.
 
-
* И. Генрихов [http://jmlda.org/papers/doc/2014/no8/Genrikhov2014Criteria.pdf О критериях ветвления, используемых при синтезе решающих деревьев] // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
 
* A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21.
* A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21.
-
|
+
* García, Salvador, Luengo, Julián, Herrera, Francisco Data Preprocessing in Data Mining // Springer , 2015. 320 p. DOI 10.1007/978-3-319-10247-4
 +
| [[Медиа:PZAD2017_06_gradboosting.pdf|презентация (pdf)]]
 +
 
|-
|-
-
| 12.11.15
+
| 02.11.17
-
| семинар
+
| лекция
-
| Введение в sklearn (для желающих)
+
| '''Предобработка данных''', '''Генерация признаков'''
-
|
+
| [[Медиа:PZAD2017_07_datapreprocessing.pdf|презентация (pdf)]] , [[Медиа:PZAD2017_08_featureengenearing.pdf|презентация (pdf)]]
 +
 
|-
|-
-
| 12.11.15
+
| 02.11.17
-
| дз
+
| д/з
-
|
+
| Начинаем решать задачу на платформе ... [https://www.boosters.pro/champ_10 Boosters] (почему-то открывается только через VPN) До след. пары сделать нетривиальный сабмит.
|
|
|-
|-
-
| 19.11.15
+
| 09.11.17
| лекция
| лекция
-
| '''Случайные леса''' (продолжение)
+
| '''Отбор признаков'''
-
|
+
-
|-
+
-
| 19.11.15
+
-
| семинар
+
-
| Защита презентаций по scikit-learn
+
-
|
+
-
|-
+
-
| 19.11.15
+
-
| дз
+
-
| Новое '''домашнее задание''' - участие в соревновании [https://www.kaggle.com/c/walmart-recruiting-trip-type-classification Walmart Recruiting: Trip Type Classification].
+
-
Предварительная цель - превзойти результат '''0.90'''. Первый дедлайн - '''2 декабря'''. Штраф: -10
+
материалы:
-
|
+
 
 +
* Jundong Li, Kewei Cheng, Suhang Wang, Fred Morstatter, Robert P. Trevino, Jiliang Tang, Huan Liu [https://arxiv.org/abs/1601.07996 Feature Selection: A Data Perspective]
 +
* Sean Luke [https://cs.gmu.edu/~sean/book/metaheuristics/ Essentials of Metaheuristics]. — Lulu, 2009. — 235 p.
 +
| [[Медиа:PZAD2017_09_featureselection.pdf|презентация (pdf)]]
|-
|-
-
| 26.11.15
+
| 09.11.17
| лекция
| лекция
-
| '''Категориальные признаки'''
+
| '''Категориальные признаки''', '''Рекомендательные системы'''
материалы:
материалы:
Строка 472: Строка 324:
* [http://www.libfm.org/ LibFM]: Factorization Machine Library
* [http://www.libfm.org/ LibFM]: Factorization Machine Library
-
|
+
* Дьяконов А. [https://github.com/Dyakonov/python_hacks/blob/master/dj_cat_coding.ipynb Python: Кодирование категориальных признаков (ноутбук)]
 +
 
 +
* [http://www.csie.ntu.edu.tw/~r01922136/slides/ffm.pdf FFM – field-aware factorization machine (слайды)]
 +
 
 +
* Дьяконов А.Г. [https://bijournal.hse.ru/2012--1(19)/53535879.html Алгоритмы для рекомендательной системы: технология LENKOR] // Бизнес-Информатика, 2012, №1(19), С. 32–39.
 +
 
 +
 
 +
| [[Медиа:PZAD2017_10_category_old.pdf|презентация (pdf)]], [[Медиа:PZAD2017_11_recsys.pdf|презентация (pdf)]]
 +
 
 +
 
 +
 
|-
|-
-
| 26.11.15
+
| 09.11.17
-
| семинар
+
-
| Защита презентаций по scikit-learn (продолжение)
+
-
|
+
-
|-
+
-
| 26.11.15
+
| дз
| дз
-
|
+
| До 15.11.17 преодолеть неизвестный бенчмарк задачи [https://www.boosters.pro/champ_10 Boosters] (+ задание в канале).
-
|
+
 
|-
|-
-
| 03.12.15
+
| 16.11.17
| лекция
| лекция
-
| '''k ближайших соседей, настройка комбинаций алгоритмов'''
+
| '''Рекомендательные системы''' (окончание), обсуждение текущего задания
 +
|
-
'''Пост-троечные последовательности'''
+
 
 +
 
 +
|-
 +
| 16.11.17
 +
| лекция
 +
| '''Пост-троечные последовательности'''
материалы:
материалы:
* Дьяконов А.Г. [http://bijournal.hse.ru/2012--1%2819%29/53535879.html Алгоритмы для рекомендательной системы: технология LENCOR] // Бизнес-Информатика, 2012, №1(19), С. 32–39.
* Дьяконов А.Г. [http://bijournal.hse.ru/2012--1%2819%29/53535879.html Алгоритмы для рекомендательной системы: технология LENCOR] // Бизнес-Информатика, 2012, №1(19), С. 32–39.
 +
| [[Медиа:PZAD2016_12_post3.pdf|презентация (pdf)]]
-
'''Теория нечётких множеств'''
+
|-
 +
| 16.11.17
 +
| дз
 +
|
 +
 
 +
* Превзойти результат Эмиля на 10%
 +
* сделать нетривиальное решение для [https://trainmydata.com/competition/844424930131977/description TRAINMYDATA]
 +
* найти интересные закономерности в TMD
 +
 
 +
 
 +
 
 +
|-
 +
| 23.11.17
 +
| нет лекции
 +
| ПЕРЕНОС ЗАНЯТИЙ
 +
 
 +
 
 +
|-
 +
| 30.11.17
 +
| лекция
 +
| '''Теория нечётких множеств'''
материалы:
материалы:
Строка 503: Строка 387:
* Ухоботов В. И. [http://www.lib.csu.ru/texts/UhobotovVI.pdf Избранные главы теории нечетких множеств] // Учеб. пособие. Челябинск : Изд-во Челяб. гос. ун-та, 2011. – 245 с.
* Ухоботов В. И. [http://www.lib.csu.ru/texts/UhobotovVI.pdf Избранные главы теории нечетких множеств] // Учеб. пособие. Челябинск : Изд-во Челяб. гос. ун-та, 2011. – 245 с.
-
|
+
| [[Медиа:PZAD2016_13_fuzzy.pdf|презентация (pdf)]]
|-
|-
-
| 03.12.15
+
| 30.11.17
| семинар
| семинар
| Задачи по нечётким множествам
| Задачи по нечётким множествам
|
|
|-
|-
-
| 03.12.15
+
| 30.11.17
| дз
| дз
| Подготовиться к контрольной по нечётким множествам
| Подготовиться к контрольной по нечётким множествам
|
|
 +
 +
 +
|-
|-
-
| 10.12.15
+
| 07.12.16
| лекция
| лекция
| '''Исследование социальных сетей'''
| '''Исследование социальных сетей'''
Строка 522: Строка 409:
материалы:
материалы:
* Л.Жуков курс [http://leonidzhukov.net/hse/2015/socialnetworks/ Structural Analysis and Visualization of Networks] в ВШЭ
* Л.Жуков курс [http://leonidzhukov.net/hse/2015/socialnetworks/ Structural Analysis and Visualization of Networks] в ВШЭ
-
|
+
| [[Медиа:PZAD2017_13_social.pdf|презентация (pdf)]]
|-
|-
-
| 10.12.15
+
| 07.12.16
-
| семинар
+
| лекция
-
| Контрольная работа по теории нечётких множеств
+
| '''Исследование социальных сетей''' (продолжение)
|
|
|-
|-
-
| 10.12.15
+
| 07.12.16
| дз
| дз
-
| Домашнее задание: [https://inclass.kaggle.com/c/msuedges/ соревнование "Прогнозирование появление рёбер в графе соцсети"].
+
| ???
-
'''За неделю''' необходимо преодолеть бенчмарк "Решение за 5 минут". Штраф -5.
+
-
В [https://inclass.kaggle.com/c/msuedges/forums/t/17826/- этой ветке] '''до 23го декабря 23:59''' надо опубликовать pdf-отчёт и код. В отчёте перечислить методы, которые были использованы (и причины их использования), результаты тестов на локальном контроле и на лидерборде. Штраы -10.
 
-
Чуть позже будет определён итоговый порог для преодоления.
 
|
|
-
|-
 
-
| 17.12.15
 
-
| лекция
 
-
| '''Исследование социальных сетей''' (продолжение)
 
-
'''Спектральная теория графов''' (сколько успеем)
 
-
материалы:
 
-
* D.Spielman course [http://www.cs.yale.edu/homes/spielman/561/ Spectral Graph Theory]
 
-
|
 
-
|-
 
-
| 17.12.15
 
-
| семинар
 
-
|
 
-
|
 
-
|-
 
-
| 17.12.15
 
-
| дз
 
-
| дано выше
 
-
|
 
|}
|}
== Успеваемость ==
== Успеваемость ==
-
{|class = "standard sortable"
+
 
-
! class="unsortable"|№<br>п/п !! Студент !! align="center"|тест<br>03.09<br> !! визиты<br>23.09<br> !! преодоление<br>бенчмарка<br>01.10 !! семинары<br>01.10<br> !! выбор визуализации<br> ранняя сдача<br> !! ф-ии ошибки<br>кр<br>08.10 <br> !! визуализация<br> защита<br>15.10 !! Rossmann<br> 22.10 !! scikit<br>19.10 !! Walmart<br>03.12 !! нечёткие мн-ва<br>10.12 !! рёбра<br>17.12 !! <br>ИТОГ
+
[[Изображение:Reiting.png]]
-
|-
+
-
| align="center"|1 || Апишев Мурат Азаматович || align="center"|0 || align="center"|0 + 0 (доклад)|| align="center"|-5 || align="center"| || align="center"|+5 || align="center"|-3 || align="center"| 0 (доклад) + 5 (лучший) || align="center"| 0 + 5 (первый)|| align="center"|0 (доклад) || align="center"|0 || align="center"|-8 || align="center"|0+0|| align="center"| -1 [отлично]
+
-
|-
+
-
| align="center"|2 || Гой Антон Сергеевич || align="center"|0 || align="center"|+3 (загрузка) + 0 (доклад)|| align="center"|0 || align="center"| || align="center"|+5 || align="center"|-5 || align="center"| 0 (доклад) + 5 (лучший) || align="center"| 0 + 10 (лучший)|| align="center"|0 (доклад) + 10 (лучший) || align="center"|0 || align="center"|-10 Н || align="center"|0-10|| align="center"| +8 [отлично]
+
-
|-
+
-
| align="center"|3 || Готман Мария Леонидовна || align="center"|0 || align="center"|+3 (форум) + 0 (доклад)|| align="center"|-5 || align="center"| || align="center"| || align="center"|-3 || align="center"| 0 (доклад) || align="center"| -4 (дедлайн) || align="center"|+ || align="center"|0 || align="center"|-8 || align="center"|0+0|| align="center"| -17 [>="4"]
+
-
|-
+
-
| align="center"|4 || Гурьянов Алексей Константинович || align="center"|0 || align="center"|-5 -2|| align="center"|0 || align="center"|+1 || align="center"| || align="center"|0+10 || align="center"| 0 || align="center"| -2 (дедлайн+зам) || align="center"|+ (доклад) || align="center"|+10 (лучший) || align="center"|-2 || align="center"|0-10|| align="center"| +0 [отлично]
+
-
|-
+
-
| align="center"|5 || Жосан Юлия Сергеевна || align="center"|0 || align="center"|-1 -1|| align="center"|0 || align="center"| || align="center"| || align="center"|-7 || align="center"| 0 (доклад) || align="center"| 0 || align="center"|-10 || align="center"|0 || align="center"|-9 || align="center"|0-?|| align="center"| <=-28 [?]
+
-
|-
+
-
| align="center"|6 || Кибитова Валерия Николаевна || align="center"|0 || align="center"|0 -2|| align="center"|0 || align="center"| || align="center"| || align="center"|-6 || align="center"| 0 || align="center"| 0 + 10 (лучшая) || align="center"|+ (доклад) || align="center"|+10 (лучшая) || align="center"|-9 || align="center"|0+0|| align="center"| +3 [отлично]
+
-
|-
+
-
| align="center"|7 || Козлов Владимир Дмитриевич || align="center"|0 || align="center"|-1 + 0|| align="center"|-5 || align="center"| || align="center"| || align="center"|-3 || align="center"| 0 (доклад) || align="center"| -10 || align="center"|-10 ? || align="center"|-10? || align="center"|-2 || align="center"|-5-10|| align="center"| -56
+
-
|-
+
-
| align="center"|8 || Кузенко Татьяна Вячеславовна || align="center"|- 0 || align="center"|-5 -10|| align="center"|-5 || align="center"| || align="center"| || align="center"|-9 || align="center"| -10 || align="center"| -10 || align="center"|-10 || align="center"|-10 || align="center"|-9 || align="center"|-5-10|| align="center"| -93
+
-
|-
+
-
| align="center"|9 || Лукашкина Юлия Николаевна || align="center"|0 || align="center"|0 + 0|| align="center"|-5 || align="center"| || align="center"|+5 || align="center"|-7 || align="center"| 0 (доклад) + 5 (лучший) || align="center"| 0 || align="center"|+ (доклад) || align="center"|0 || align="center"|-8 || align="center"|0+0+10(первое место)+5(форум)|| align="center"| +5 [отлично]
+
-
|-
+
-
| align="center"|10 || Ожерельев Илья Сергеевич || align="center"|0 || align="center"|0 + 0 (доклад)|| align="center"|-5 || align="center"|+1 || align="center"| || align="center"|-6 || align="center"| -10 || align="center"| -10 || align="center"|-10 || align="center"|-10 || align="center"|-10 н || align="center"|-5-10|| align="center"| -75
+
-
|-
+
-
| align="center"|11 || Сендерович Никита Леонидович || align="center"|+10 || align="center"|+5 (выступление)|| align="center"|0 || align="center"|+2 || align="center"| || align="center"|-3 || align="center"| 0 (доклад) + 5 (лучший) || align="center"| -10 || align="center"|-3 (дедлайн, доклад) || align="center"|0 || align="center"|+10 || align="center"|0-3(дедлайн)+10(первое место)|| align="center"| +23 [отлично]
+
-
|-
+
-
| align="center"|12 || Скробот Дмитрий Владиславович || align="center"|- 0 || align="center"|-5 -10|| align="center"|-5 || align="center"| || align="center"| || align="center"|-10 || align="center"|-10 || align="center"| -10 || align="center"|-10 || align="center"|-10 || align="center"|-10 н || align="center"|-5-10|| align="center"| -95
+
-
|-
+
-
| align="center"|13 || Темирчев Павел Георгиевич || align="center"|0 || align="center"|-5 -3 (доклад)|| align="center"|-5 || align="center"|+2+2+5 || align="center"| || align="center"|-7 || align="center"|-10 || align="center"| -10 || align="center"|-1 (дедлайн) || align="center"|0 || align="center"|-5 || align="center"|0-3(дедлайн)+5(форум)|| align="center"| -35
+
-
|-
+
-
| align="center"|14 || Федосов Виктор Николаевич || align="center"|0 || align="center"|-5 -10|| align="center"|-5 || align="center"| || align="center"| || align="center"|-10 || align="center"|-10 || align="center"| -10 || align="center"|-10 || align="center"|-10 || align="center"|-10 || align="center"|-5-10|| align="center"| -95
+
-
|-
+
-
| align="center"|15 || Хомутов Никита Юрьевич || align="center"|- 0 || align="center"|-5 -10|| align="center"|-5 || align="center"| || align="center"| || align="center"|-7 || align="center"|-10 || align="center"| -10 || align="center"|-10 || align="center"|-10 || align="center"|-3 || align="center"|0-10+5(форум)|| align="center"| -75
+
-
|-
+
-
| align="center"|16 || Шапулин Андрей Валентинович || align="center"|- 0 || align="center"|0 + 0 (доклад)|| align="center"|0 || align="center"| || align="center"| || align="center"|-6 || align="center"| 0 (доклад) + 5 (лучший) || align="center"| 0 || align="center"|0 (доклад) || align="center"| 0 || align="center"|-7 || align="center"|0+0+5(форум)-5(бенчмарк)|| align="center"| -8 [отлично]
+
-
|-
+
-
|}
+
== Литература ==
== Литература ==
Строка 604: Строка 436:
== История ==
== История ==
-
Программы прошлых лет см. здесь: [[Алгоритмы, модели, алгебры (курс на ВМК до 2015 года)]]
+
Программы прошлых лет см. здесь:
 +
* [[Прикладные задачи анализа данных (курс на ВМК 2016 года)]]
 +
* [[Алгоритмы, модели, алгебры (курс на ВМК 2015 года)]]
 +
* [[Алгоритмы, модели, алгебры (курс на ВМК до 2015 года)]]
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]
[[Категория:МГУ]]
[[Категория:МГУ]]

Версия 15:06, 8 декабря 2017

Содержание

ПРИКЛАДНЫЕ ЗАДАЧИ АНАЛИЗА ДАННЫХ (курс для магистров ММП ВМК МГУ)

  • Обязательный курс для магистров каф. ММП 1 г/о, читается в 1-м (9-м) семестре.
  • Лекции — 32 часа, семинаров - 32 часа.
  • Экзамен.
  • За курс отвечает кафедра Математических методов прогнозирования.
  • Автор программы: профессор А. Г. Дьяконов.



Как в прошлом году проходил экзамен:
  • Есть система штрафных баллов, по ней формируется итоговая оценка.
  • Пороги для конкретных оценок (по сумме баллов) объявлены изначально, но могут быть откорректированы лектором в пользу студентов.
  • Сам экзамен проводится письменно - на нём (при желании) можно улучшить итоговую оценку

Содержание экзамена: задания эквивалентные заданиям со всех контрольных и семинаров (плюс задания по спектральной теории графов, плюс задания на знания теории и определений, если они были на лекциях и продублированы в списке рекомендуемой литературы, плюс задания на знания языков/библиотек, если они обсуждались на семинарах и лекциях)

Исправление: хорошее написание письменного экзамена увеличивает итоговую оценку на 1 балл (порог будет заранее объявлен), безупречное написание - на 2 балла.

  • Итоговая "отлично" ставится автоматом.
  • Итоговая "неудовлетворительно" также ставится автоматом и означает недопуск к экзамену, чтобы получить допуск надо сдать все несданные задания (итоговая оценка при этом не меняется и может быть исправлена только на самом экзамене).
  • Экзамен проходит по жёсткой схеме: нельзя пользоваться ничем (кроме ручки и листка бумаги). Аналогично контроль сдаваемых заданий после окончания семестра жёсткий: лектор уже не консультирует по самим заданиям, презентации оцениваются по формальным критериям: наличие постановки задачи, описание предложенных методов, их обоснование, подробное изложение экспериментов (с графиками и таблицами), формирование итоговой модели, выводы. Оценивается и сам доклад по задаче!


Аннотация

Курс посвящён решению прикладных задач анализа данных. Разбираются реальные задачи и бизнес-кейсы. Студенты пишут и настраивают алгоритмы на языках Python, R, M (Matlab).

Семинары посвящены

  • докладам по решению прикладных задач (с презентациями),
  • опросам по выполнению домашнего задания,
  • обучению программированию на скриптовых языках (для тех, у кого их не было в бакалавриате),
  • мозговому штурму по решению задач и обсуждению решений,
  • написанию контрольных работ, решению аналитических задач, работе над ошибками.

Система оценивания

В течение семестра студенты получают задания.

При сдаче правильно выполненного задания в срок студент не получает штрафных баллов.

В противном случае - он получает от 1 до 10 штрафных баллов.

Штраф в 10 баллов допустим за позднюю сдачу (даже если решение верное) в случае отсутствия уважительных причин (болезнь, подтверждаемая справкой, и т.п. - см. требования учебной части).

В некоторых случаях (на усмотрение лектора), магистру, который лучше всех выполнил конкретное задание, списываются штрафные баллы (до 10).

На экзамене также за неверные ответы студент получает штрафные баллы.


Итоговая оценка формируется следующим образом:

  • до 10 штрафных баллов включительно - отлично,
  • до 20 штрафных баллов включительно - хорошо,
  • до 30 штрафных баллов включительно - удовлетворительно.

Содержание курса

Наполняется по мере необходимости.

Число Занятие Тема Замечания
07.09.17 лекция Вводное занятие: цели курса, материалы, правила, участие в соревнованиях. презентация (pdf)
07.09.17 семинар Тест на знание основ машинного обучения.
07.09.17 дз Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники).
14.09.17 лекция Оценка среднего и вероятности

материалы:

  1. Книга Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с. * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
  2. Статья  Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77..
  3. Видео Оценка вероятности: когда к нам придёт клиент?
презентация (pdf)
14.09.17 лекция
14.09.17 дз Первое домашнее задание:

Решение задачи [[1]]. Срок - до 04 октября 2017 23:59 (с выкладкой отчёта в [этой ветке форума]).

Все вопросы задаются в [форуме].

Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме.

до 27 сентября 2017 23:59 - преодолеть бенчмарк.

Напоминание: команды называть по шаблону Ivan Ivanov (MMP, MSU, Russia).

max штраф за задание -10.

Но дополнительно, за непреодоление бенчмарка -5.


21.09.17
среда
лекция Язык программирования Python презентация (pdf)
21.09.17
среда
лекция Язык программирования Python (продолжение)
21.09.17
среда
дз Готовиться к к/р по языку Python.


28.09.16 лекция Визуализация данных

материалы:

28.09.16 лекция продолжение
28.09.16 дз

Второе домашнее задание:

  • Найти 2е интересные визуализации, выложить в [форуме(1)] (см. внимательно правила по ссылке). [10 штрафных / +10 анти]
  • Найти ещё одну визуализацию для игры "что за данные" (добавить её в конец презентации про решение 1й задачи к 5.10.2017)
  • Выбрать набор данных на kaggle.com в разделе [[2]]. См. правила и как выбрать на [форуме(2)]. Оформить презентацию-доклад. [10 штрафных / +10 анти]
  • След занятие: отчёт по 1й задаче и к/р Питон


05.10.17 семинар Отчёт по ДЗ №1 (определение суммы 1й покупки)
05.10.17 лекция Отчёт по ДЗ №1 (определение суммы 1й покупки)
05.10.17 дз Следующее реашемое нами соревнование - https://sascompetitions.ru/ - задача Хоум Кредит Банка (подробности на след. занятии).


12.10.17 лекция Функционалы качества и ошибки
12.10.17 лекция Функционалы качества и ошибки

материалы:

презентация (pdf) **NEW**
12.10.17 дз До следующего занятия в ветке форума выложить найденные закономерности в задаче скоринга (штраф: -5).




19.10.16 лекция продолжение Функционалы качества и ошибки, Минимизация ошибок презентация (pdf)
19.10.16 семинар Обсуждение закономерностей в задаче Скоринг HC
19.10.16 дз

НОВОЕ ЗАДАНИЕ

1. Подготовиться к контрольной по функционалам качества

2. Решать задачу скоринга

Файлы сабмитов в задаче скоринга начинать с 'msu_'


По просьбам Визуализация по данным Сбербанка


26.10.17 лекция Случайные леса

материалы:

презентация (pdf) *OLD*
26.10.17 лекция Случайные леса
26.10.17 д/з Продолжаем решать задачу скоринга. Штраф -10 за непреодоление нового бенчмарка 0.697481.


02.11.17 лекция Градиентный бустинг

материалы:

  • A. Natekin, A. Knoll Gradient boosting machines, a tutorial // Front Neurorobot. 2013; 7: 21.
  • García, Salvador, Luengo, Julián, Herrera, Francisco Data Preprocessing in Data Mining // Springer , 2015. 320 p. DOI 10.1007/978-3-319-10247-4
презентация (pdf)
02.11.17 лекция Предобработка данных, Генерация признаков презентация (pdf) , презентация (pdf)
02.11.17 д/з Начинаем решать задачу на платформе ... Boosters (почему-то открывается только через VPN) До след. пары сделать нетривиальный сабмит.


09.11.17 лекция Отбор признаков

материалы:

презентация (pdf)
09.11.17 лекция Категориальные признаки, Рекомендательные системы

материалы:


презентация (pdf), презентация (pdf)


09.11.17 дз До 15.11.17 преодолеть неизвестный бенчмарк задачи Boosters (+ задание в канале).


16.11.17 лекция Рекомендательные системы (окончание), обсуждение текущего задания


16.11.17 лекция Пост-троечные последовательности

материалы:

презентация (pdf)
16.11.17 дз
  • Превзойти результат Эмиля на 10%
  • сделать нетривиальное решение для TRAINMYDATA
  • найти интересные закономерности в TMD


23.11.17 нет лекции ПЕРЕНОС ЗАНЯТИЙ


30.11.17 лекция Теория нечётких множеств

материалы:

презентация (pdf)
30.11.17 семинар Задачи по нечётким множествам
30.11.17 дз Подготовиться к контрольной по нечётким множествам



07.12.16 лекция Исследование социальных сетей

материалы:

презентация (pdf)
07.12.16 лекция Исследование социальных сетей (продолжение)
07.12.16 дз  ???



Успеваемость

Изображение:Reiting.png

Литература

Указана локально - в сетке расписания.

История

Программы прошлых лет см. здесь:

Личные инструменты