Алгоритмы, модели, алгебры (курс лекций, Ю.И. Журавлев, А.Г. Дьяконов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Содержание курса)
(Содержание курса)
(69 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
== АЛГОРИТМЫ, МОДЕЛИ, АЛГЕБРЫ (название условное, курс посвящён анализу данных) ==
+
== ПРИКЛАДНЫЕ ЗАДАЧИ АНАЛИЗА ДАННЫХ (курс для магистров ММП ВМК МГУ) ==
-
 
+
-
{{notice|
+
-
'''Внимание магистрам 2го, которые хотят пересдавать АМА'''
+
-
 
+
-
Система оценки на пересдаче идентична системе, которая была при чтении курса. <br>
+
-
Вы должны вместе с текущими слушателями АМА выполнять все задания, <br>
+
-
чтобы гарантировать себе оценку, отличную от '''неуд'''!!! <br>
+
-
Сроки сдачи заданий и штрафные баллы такие же, как и у магистров 517 группы.
+
-
}}
+
* Обязательный курс для магистров каф. [[ММП]] 1 г/о, читается в 1-м (9-м) семестре.
* Обязательный курс для магистров каф. [[ММП]] 1 г/о, читается в 1-м (9-м) семестре.
Строка 81: Строка 72:
! Замечания
! Замечания
|-
|-
-
| 01.09.16
+
| 07.09.17
| лекция
| лекция
| '''Вводное занятие''': цели курса, материалы, правила, участие в соревнованиях.
| '''Вводное занятие''': цели курса, материалы, правила, участие в соревнованиях.
| [[Медиа:AMA2016_00_intro.pdf|презентация (pdf)]]
| [[Медиа:AMA2016_00_intro.pdf|презентация (pdf)]]
|-
|-
-
| 01.09.16
+
| 07.09.17
| семинар
| семинар
| Тест на знание основ машинного обучения.
| Тест на знание основ машинного обучения.
|
|
|-
|-
-
| 01.09.16
+
| 07.09.17
| дз
| дз
| Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники).
| Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники).
|
|
|-
|-
-
| 08.09.16
+
| 14.09.17
| лекция
| лекция
| '''Оценка среднего и вероятности'''
| '''Оценка среднего и вероятности'''
Строка 106: Строка 97:
| [[Медиа:PZAD2016_01_probweights.pdf|презентация (pdf)]]
| [[Медиа:PZAD2016_01_probweights.pdf|презентация (pdf)]]
|-
|-
-
| 08.09.16
+
| 14.09.17
| лекция
| лекция
|
|
|
|
|-
|-
-
| 08.09.16
+
| 14.09.17
| дз
| дз
| '''Первое домашнее задание:'''
| '''Первое домашнее задание:'''
-
Решение задачи [[https://inclass.kaggle.com/c/msusums]].
+
Решение задачи [[https://www.kaggle.com/c/pzadbabki]].
-
Срок - '''до 21 сентября 2016 23:59''' (с выкладкой отчёта в [[https://inclass.kaggle.com/c/msusums/forums/t/23145/2016/132732 этой ветке форума]]).
+
Срок - '''до 04 октября 2017 23:59''' (с выкладкой отчёта в [[https://www.kaggle.com/c/pzadbabki/discussion/39537 этой ветке форума]]).
-
Все вопросы задаются в [[https://inclass.kaggle.com/c/msusums/forums/ форуме]].
+
Все вопросы задаются в [[https://www.kaggle.com/c/pzadbabki/discussion/ форуме]].
Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме.
Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме.
-
'''до 14 сентября 2016 23:59 ''' - преодолеть порог 278.17435 в [[https://inclass.kaggle.com/c/msusums/leaderboard Public Liderboard]].
+
'''до 27 сентября 2017 23:59 ''' - преодолеть бенчмарк.
Напоминание: команды называть по шаблону '''''Ivan Ivanov (MMP, MSU, Russia)'''''.
Напоминание: команды называть по шаблону '''''Ivan Ivanov (MMP, MSU, Russia)'''''.
Строка 131: Строка 122:
|-
|-
-
| 15.09.16
+
| 21.09.17 <br> среда
| лекция
| лекция
-
| '''Система для анализа данных Matlab'''
+
| '''Язык программирования Python'''
-
материалы:
+
* С. Лебедев [https://compscicenter.ru/courses/python/2015-autumn/ Программирование на Python]
-
 
+
* [https://learnxinyminutes.com/docs/python/ Learn X in Y minutes]
-
# [[Публикация:Дьяконов 2010 Учебное пособие ММП| Дьяконов A.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования), МАКСПресс, 2010, 278с.]]
+
| [[Медиа:PZAD2017_c1_python.pdf|презентация (pdf)]]
-
# [https://blogs.mathworks.com/loren/ Блог Лоурен "Loren on the Art of MATLAB"]
+
-
| [[Медиа:PZAD2016_02_matlab.pdf|презентация (pdf)]]
+
|-
|-
-
| 15.09.16
+
| 21.09.17 <br> среда
-
| семинар
+
| лекция
-
| Разбор первого проверочного теста
+
| '''Язык программирования Python''' (продолжение)
|
|
|-
|-
-
| 15.09.16
+
| 21.09.17 <br> среда
| дз
| дз
-
| Быть в будущем готовым к контрольной
+
| Готовиться к к/р по языку Python.
|
|
 +
 +
|-
|-
-
| 22.09.16
+
| 28.09.16
| лекция
| лекция
| '''Визуализация данных'''
| '''Визуализация данных'''
Строка 156: Строка 147:
* Книга [http://www.amazon.com/Beautiful-Visualization-Looking-through-Practice/dp/1449379869 Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) // Edited by Julie Steele and Noah Iilinsky. Sebastopol, CA: O‘Reilly 2010, pp. 227-254. ISBN: 978-1-4493-7986-5] по визуализации данных
* Книга [http://www.amazon.com/Beautiful-Visualization-Looking-through-Practice/dp/1449379869 Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) // Edited by Julie Steele and Noah Iilinsky. Sebastopol, CA: O‘Reilly 2010, pp. 227-254. ISBN: 978-1-4493-7986-5] по визуализации данных
-
+
|
-
| [[Медиа:PZAD2016_03_visualize.pdf|презентация (pdf)]]
+
* [[Медиа:PZAD2017_02_visualize_part1.pdf|презентация (pdf)]]
 +
* [[Медиа:PZAD2017_02_visualize_part2.pdf|презентация (pdf)]]
|-
|-
-
| 22.09.16
+
| 28.09.16
-
| семинар
+
| лекция
-
| Разбор решений задачи [[https://inclass.kaggle.com/c/msusums MSUsums]]
+
| продолжение
|
|
|-
|-
-
| 22.09.16
+
| 28.09.16
| дз
| дз
|
|
Строка 170: Строка 162:
'''Второе домашнее задание:'''
'''Второе домашнее задание:'''
-
0. Найти интересную визуализацию, выложить в [[https://inclass.kaggle.com/c/msusums/forums/t/23884/ ветке форума]] (кратко обосновать, чем интересна).
+
* Найти 2е интересные визуализации, выложить в [[https://www.kaggle.com/c/pzadbabki/discussion/40193 форуме(1)]] (см. внимательно правила по ссылке). [10 штрафных / +10 анти]
 +
* Найти ещё одну визуализацию для игры "что за данные" (добавить её в конец презентации про решение 1й задачи к 5.10.2017)
 +
* Выбрать набор данных на kaggle.com в разделе [[https://www.kaggle.com/datasets]]. См. правила и как выбрать на [[https://www.kaggle.com/c/pzadbabki/discussion/40194 форуме(2)]]. Оформить презентацию-доклад. [10 штрафных / +10 анти]
 +
* След занятие: отчёт по 1й задаче и к/р Питон
-
Не обязательно на тему анализа данных (главное: интересная тематика и/или стиль визуализации).
 
-
Если кто-то выкладывает визуализацию, то источник (например, какой-то блог) уже не может быть использован остальными магистрами!
 
-
1. Выбрать набор данных на kaggle.com в разделе [[https://www.kaggle.com/datasets Kaggle/Datasets]].
+
|-
 +
| 05.10.17
 +
| семинар
 +
| '''Отчёт по ДЗ №1''' (определение суммы 1й покупки)
 +
|
 +
|-
 +
| 05.10.17
 +
| лекция
 +
| '''Отчёт по ДЗ №1''' (определение суммы 1й покупки)
 +
|
 +
|-
 +
| 05.10.17
 +
| дз
 +
| Следующее реашемое нами соревнование - https://sascompetitions.ru/ - задача Хоум Кредит Банка (подробности на след. занятии).
 +
|
-
Будьте внимательны: смотрите на данные. Ограничение: не более двух магистров на один датасет.
 
-
Выбор надо '''сразу же''' "застолбить" в [[https://inclass.kaggle.com/c/msusums/forums/t/23884/ ветке форума]].
 
-
2. Сделать визуализацию по этой задаче (по каждой уже есть какие-то визуализации - см. раздел "Kernels"). Вот [[https://www.kaggle.com/adhok93/d/deepmatrix/imdb-5000-movie-dataset/eda-with-plotly/notebook пример]] одной из уже сделанных визуализаций.
 
-
 
-
3. Оформить её в виде скрипта на сайте (предпочтительно) и / или в виде отдельного pdf-отчёта. Вот пример [[https://inclass.kaggle.com/blobs/download/forum-message-attachment-files/3096/Senderovich517VisualReport.pdf отчёта прошлого года]].
 
-
 
-
4. В любом случае - сделать по своей работе презентацию.
 
-
 
-
5. Что будет оцениваться (точнее, не штрафоваться)
 
-
* красота картинок
 
-
* нетривиальность данных для визуализации (необходимость получить их по представленным таблицам)
 
-
* непохожесть на другие визуализации
 
-
* качество выводов
 
-
* подробность описания своей работы над задачей
 
-
* лайки на сайте kaggle
 
-
 
-
Срок - до '''12.10.2016 23:59'''.
 
-
 
-
Максимальный штраф: '''-10''' (плюс отдельный штраф '''-5''' за найденную визуализацию).
 
-
 
-
|
 
|-
|-
-
| 29.09.16
+
| 12.10.17
| лекция
| лекция
-
| продолжение '''Визуализация данных'''
+
| '''Функционалы качества и ошибки'''
|
|
|-
|-
-
| 29.09.16
+
| 12.10.17
| лекция
| лекция
| '''Функционалы качества и ошибки'''
| '''Функционалы качества и ошибки'''
Строка 217: Строка 203:
* видео [https://vimeo.com/119926489 Функционалы качества и функции потерь: Какие множества похожи?]
* видео [https://vimeo.com/119926489 Функционалы качества и функции потерь: Какие множества похожи?]
* видео [https://vimeo.com/119926504 Функционалы качества и функции потерь: AUC ROC - путь из (0,0) в (1,1)]
* видео [https://vimeo.com/119926504 Функционалы качества и функции потерь: AUC ROC - путь из (0,0) в (1,1)]
-
| [[Медиа:PZAD2016_04_errors.pdf|презентация (pdf)]]
+
| [[Медиа:PZAD2017_03_errors.pdf|презентация (pdf)]] **NEW**
|-
|-
-
| 29.09.16
+
| 12.10.17
| дз
| дз
-
|
+
| До следующего занятия в [https://www.kaggle.com/c/pzadbabki/discussion/41212 ветке форума] выложить найденные закономерности в задаче скоринга (штраф: -5).
|
|
-
|-
+
 
-
| 05.10.16 <br> среда
+
 
-
| лекция
+
 
-
| '''Язык программирования Python'''
+
 
-
* С. Лебедев [https://compscicenter.ru/courses/python/2015-autumn/ Программирование на Python]
+
-
* [https://learnxinyminutes.com/docs/python/ Learn X in Y minutes]
+
-
| [[Медиа:PZAD2016_05_python.pdf|презентация (pdf)]]
+
-
|-
+
-
| 05.10.16 <br> среда
+
-
| лекция
+
-
| '''Язык программирования Python''' (продолжение)
+
-
|
+
-
|-
+
-
| 05.10.16 <br> среда
+
-
| дз
+
-
| Готовиться к к/р по языку Python.
+
-
|
+
|-
|-
-
| 13.10.16
+
| 19.10.16
| лекция
| лекция
-
| продолжение '''Функционалы качества и ошибки'''
+
| продолжение '''Функционалы качества и ошибки''', '''Минимизация ошибок'''
-
|
+
| [[Медиа:PZAD2016_06_minfunc.pdf|презентация (pdf)]]
|-
|-
-
| 13.10.16
+
| 19.10.16
-
| лекция
+
| семинар
-
| '''Минимизация ошибок'''
+
| Обсуждение закономерностей в задаче '''Скоринг HC'''
-
 
+
|
-
 
+
-
| [[Медиа:PZAD2016_05_minfunc.pdf|презентация (pdf)]]
+
|-
|-
-
| 13.10.16
+
| 19.10.16
| дз
| дз
|
|
-
НОВОЕ ЗАДАНИЕ
+
НОВОЕ ЗАДАНИЕ
-
1. Поиск закономерностей в данных https://contest.sdsj.ru/
+
-
- в последующем будем решать эту задачу (можно начинать)
+
1. Подготовиться к контрольной по функционалам качества
-
- первая тройка (в глобальном соревновании и в каждой подзадаче) получает 5 автоматом
+
* Для этого пройти [https://goo.gl/93qkum тест]
 +
* Прорешать задачи из презентиций [[Медиа:PZAD2017_03_errors.pdf|по ошибкам]], [[Медиа:PZAD2016_06_minfunc.pdf|по минимизации]]
-
- сейчас до 27.10.2016 ищем интересные закономерности
+
2. Решать задачу скоринга
 +
* -10 - непреодоление бенчмарка
 +
* +10 - за см. [https://www.kaggle.com/c/pzadbabki/discussion/41573 ветку обмена кодом]
-
(в первую очередь, с прицелом на решение одной из 3х задач,
+
Файлы сабмитов в задаче скоринга начинать с 'msu_'
-
но можно и просто какие-то нетривиальные зависимости в данных)
+
-
- цель: найти зависимости, которые не нашёл лектор
 
-
- максимальный штраф: -10
 
-
- итог: выступление с презентаций (pdf) 27.10.2016
+
По просьбам
 +
[https://alexanderdyakonov.files.wordpress.com/2016/10/dj2016_sdsj_vis.pdf Визуализация по данным Сбербанка]
-
Для выполнения задания очень пригодится пакет Pandas для Python.
+
|
-
Я о нём расскажу на след. неделе,
+
-
вот
+
-
[https://alexanderdyakonov.files.wordpress.com/2015/04/ama2015_pandas.pdf презентация прошлого года].
+
-
[https://alexanderdyakonov.files.wordpress.com/2016/10/dj2016_sdsj_vis.pdf Визуализация по конкурсу]
 
-
 
-
[https://github.com/Dyakonov/case_sdsj/blob/master/dj_sdsj01_visual.ipynb код]
 
-
|
 
|-
|-
-
| 20.10.16
+
| 26.10.17
| лекция
| лекция
-
| '''Pandas'''
+
| '''Случайные леса'''
-
| [https://alexanderdyakonov.files.wordpress.com/2015/04/ama2015_pandas.pdf презентация] (ver.2015)
+
 
-
|-
+
материалы:
-
| 20.10.16
+
* А. Liaw, M. Wiener [http://www.bios.unc.edu/~dzeng/BIOS740/randomforest.pdf Classification and Regression by randomForest] // R News (2002) Vol. 2/3 p. 18.
-
| семинар
+
* И. Генрихов [http://jmlda.org/papers/doc/2014/no8/Genrikhov2014Criteria.pdf О критериях ветвления, используемых при синтезе решающих деревьев] // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
-
| Функционалы качества и функции ошибки
+
* A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21.
-
|
+
| [[Медиа:PZAD2016_09_rf.pdf|презентация (pdf)]] *OLD*
-
|-
+
-
| 20.10.16
+
-
|
+
-
|
+
-
|
+
|-
|-
-
| 27.10.16
+
| 26.10.17
-
| кр
+
| лекция
 +
| '''Случайные леса'''
|
|
-
* к/р по ЯП Python
 
-
* к/р по теме '''Функционалы качества'''
 
-
* Презентации по теме '''Закономерности в задаче "Сбербанк" '''
 
-
|
 
-
 
|-
|-
-
| 3.11.16
+
| 26.10.17
-
| лекция
+
| д/з
-
| '''Scikit-learn'''
+
| Продолжаем решать задачу скоринга. Штраф -10 за непреодоление нового бенчмарка 0.697481.
|
|
-
|-
 
-
| 3.11.16
 
-
| лекция
 
-
| case (регрессия с особым функционалом качества): '''Решение задачи об определении времени перемножения матриц'''
 
-
|
 
-
|-
 
-
| 3.11.16
 
-
| дз
 
-
| Участие в конкурсе [https://contest.sdsj.ru/ СберБанка]. До следующего занятия в [https://inclass.kaggle.com/c/msusums/forums/t/25187/- ветке форума] выложить код.
 
-
|
 
|-
|-
-
| 10.11.16
+
| 02.11.17
| лекция
| лекция
-
| '''Случайные леса'''
+
| '''Градиентный бустинг'''
материалы:
материалы:
-
* А. Liaw, M. Wiener [http://www.bios.unc.edu/~dzeng/BIOS740/randomforest.pdf Classification and Regression by randomForest] // R News (2002) Vol. 2/3 p. 18.
 
-
* И. Генрихов [http://jmlda.org/papers/doc/2014/no8/Genrikhov2014Criteria.pdf О критериях ветвления, используемых при синтезе решающих деревьев] // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
 
* A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21.
* A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21.
-
| [[Медиа:PZAD2016_09_rf.pdf|презентация (pdf)]]
+
* García, Salvador, Luengo, Julián, Herrera, Francisco Data Preprocessing in Data Mining // Springer , 2015. 320 p. DOI 10.1007/978-3-319-10247-4
 +
| [[Медиа:PZAD2017_06_gradboosting.pdf|презентация (pdf)]]
|-
|-
-
| 10.11.16
+
| 02.11.17
| лекция
| лекция
-
| '''Временные и географические признаки'''
+
| '''Предобработка данных''', '''Генерация признаков'''
-
| [[Медиа:PZAD2016_10_tfeatures.pdf|презентация (pdf)]]
+
| [[Медиа:PZAD2017_07_datapreprocessing.pdf|презентация (pdf)]] , [[Медиа:PZAD2017_08_featureengenearing.pdf|презентация (pdf)]]
|-
|-
-
| 10.11.16
+
| 02.11.17
| д/з
| д/з
-
| Решение задачи [https://www.kaggle.com/c/allstate-claims-severity Allstate]
+
| Начинаем решать задачу на платформе ... [https://www.boosters.pro/champ_10 Boosters] (почему-то открывается только через VPN) До след. пары сделать нетривиальный сабмит.
|
|
|-
|-
-
| 17.11.16
+
| 09.11.17
| лекция
| лекция
-
| '''Категориальные признаки'''
+
| '''Отбор признаков'''
 +
 
 +
материалы:
 +
 
 +
* Jundong Li, Kewei Cheng, Suhang Wang, Fred Morstatter, Robert P. Trevino, Jiliang Tang, Huan Liu [https://arxiv.org/abs/1601.07996 Feature Selection: A Data Perspective]
 +
* Sean Luke [https://cs.gmu.edu/~sean/book/metaheuristics/ Essentials of Metaheuristics]. — Lulu, 2009. — 235 p.
 +
 
 +
| [[Медиа:PZAD2017_09_featureselection.pdf|презентация (pdf)]]
 +
 
 +
|-
 +
| 09.11.17
 +
| лекция
 +
| '''Категориальные признаки''', '''Рекомендательные системы'''
материалы:
материалы:
Строка 372: Строка 328:
* [http://www.csie.ntu.edu.tw/~r01922136/slides/ffm.pdf FFM – field-aware factorization machine (слайды)]
* [http://www.csie.ntu.edu.tw/~r01922136/slides/ffm.pdf FFM – field-aware factorization machine (слайды)]
-
| [[Медиа:PZAD2016_11_category.pdf|презентация (pdf)]]
+
* Дьяконов А.Г. [https://bijournal.hse.ru/2012--1(19)/53535879.html Алгоритмы для рекомендательной системы: технология LENKOR] // Бизнес-Информатика, 2012, №1(19), С. 32–39.
 +
 
 +
 
 +
| [[Медиа:PZAD2017_10_category_old.pdf|презентация (pdf)]], [[Медиа:PZAD2017_11_recsys.pdf|презентация (pdf)]]
 +
 
 +
 
 +
 
 +
|-
 +
| 09.11.17
 +
| дз
 +
| До 15.11.17 преодолеть неизвестный бенчмарк задачи [https://www.boosters.pro/champ_10 Boosters] (+ задание в канале).
 +
 
 +
 
 +
|-
 +
| 16.11.17
 +
| лекция
 +
| '''Рекомендательные системы''' (окончание), обсуждение текущего задания
 +
|
 +
 
 +
 
 +
 
|-
|-
-
| 17.11.16
+
| 16.11.17
| лекция
| лекция
| '''Пост-троечные последовательности'''
| '''Пост-троечные последовательности'''
Строка 382: Строка 358:
* Дьяконов А.Г. [http://bijournal.hse.ru/2012--1%2819%29/53535879.html Алгоритмы для рекомендательной системы: технология LENCOR] // Бизнес-Информатика, 2012, №1(19), С. 32–39.
* Дьяконов А.Г. [http://bijournal.hse.ru/2012--1%2819%29/53535879.html Алгоритмы для рекомендательной системы: технология LENCOR] // Бизнес-Информатика, 2012, №1(19), С. 32–39.
| [[Медиа:PZAD2016_12_post3.pdf|презентация (pdf)]]
| [[Медиа:PZAD2016_12_post3.pdf|презентация (pdf)]]
 +
|-
|-
-
| 17.11.16
+
| 16.11.17
| дз
| дз
-
| За неделю - получить нетривиальное решение конкурса [https://www.kaggle.com/c/allstate-claims-severity Allstate]
 
|
|
 +
* Превзойти результат Эмиля на 10%
 +
* сделать нетривиальное решение для [https://trainmydata.com/competition/844424930131977/description TRAINMYDATA]
 +
* найти интересные закономерности в TMD
 +
 +
 +
 +
|-
 +
| 23.11.17
 +
| нет лекции
 +
| ПЕРЕНОС ЗАНЯТИЙ
|-
|-
-
| 24.11.16
+
| 30.11.17
| лекция
| лекция
| '''Теория нечётких множеств'''
| '''Теория нечётких множеств'''
Строка 403: Строка 389:
| [[Медиа:PZAD2016_13_fuzzy.pdf|презентация (pdf)]]
| [[Медиа:PZAD2016_13_fuzzy.pdf|презентация (pdf)]]
|-
|-
-
| 24.11.16
+
| 30.11.17
| семинар
| семинар
| Задачи по нечётким множествам
| Задачи по нечётким множествам
|
|
|-
|-
-
| 24.11.16
+
| 30.11.17
| дз
| дз
| Подготовиться к контрольной по нечётким множествам
| Подготовиться к контрольной по нечётким множествам
 +
|
 +
 +
 +
 +
 +
|-
 +
| 07.12.16
 +
| лекция
 +
| '''Исследование социальных сетей'''
 +
 +
материалы:
 +
* Л.Жуков курс [http://leonidzhukov.net/hse/2015/socialnetworks/ Structural Analysis and Visualization of Networks] в ВШЭ
 +
| [[Медиа:PZAD2017_13_social.pdf|презентация (pdf)]]
 +
|-
 +
| 07.12.16
 +
| лекция
 +
| '''Исследование социальных сетей''' (продолжение)
 +
|
 +
|-
 +
| 07.12.16
 +
| дз
 +
| ???
 +
|
|
Строка 419: Строка 428:
== Успеваемость ==
== Успеваемость ==
-
 
-
{{notice|
 
-
'''Внимание!!!'''
 
-
Все эти баллы недействительны
 
-
до объявления на следующей лекции!!!
 
-
}}
 
-
{|class = "standard sortable"
+
[[Изображение:Reiting.png]]
-
! № п/п !! Студент !! тест !! покупки (1) !! покупки (2) !! визуализация !! кр Python !! кр ФК !! Сбербанк
+
-
|-
+
-
| align="center"|1 || Амелин Владислав Владимирович || 19 || + || +0 <br> report|| vis+/+ +2 +3 || -6 || -10 || + ||
+
-
|-
+
-
| align="center"|2 || Андрейцев Антон Игоревич || 13 || - || -6 <br> report|| vis+/+ || -8 || 0 +5 || + ||
+
-
|-
+
-
| align="center"|3 || Викулин Всеволод Александрович || 28 || + || +3 <br> report || vis+/+ +2 || -5 || -6 || +5 (result) ||
+
-
|-
+
-
| align="center"|4 || Вихрева Мария Викторовна || Н || - || -5 <br> || vis+/+ +5(good) || -10н || -10н || + ||
+
-
|-
+
-
| align="center"|5 || Гетоева Аида Артуровна || 11 || + || +0 <br> report || vis+/+ +2 +5(good) || -2 || -7 || + ||
+
-
|-
+
-
| align="center"|6 || Журавлёв Вадим Игоревич || 19 || + || +3 <br> report || vis+/+ +2 +3 || -3 || -9 || + ||
+
-
|-
+
-
| align="center"|7 || Иванов Олег Юрьевич || 32 || + || +5 <br> || vis+/+ -3 || -2 || -1 ||
+
-
|-
+
-
| align="center"|8 || Камалов Руслан Рамилевич || 11 || + || +0 <br> || vis+/+ -2 || -3 || -8 || + ||
+
-
|-
+
-
| align="center"|9 || Кудрявцев Георгий Алексеевич || 25 || + || -1 <br> report || vis+/+ -2 || out
+
-
|-
+
-
| align="center"|10 || Оспанов Аят Махатович || 17 || + || +0 <br> report || vis+/+ +3 || -6 || -8 || + ||
+
-
|-
+
-
| align="center"|11 || Попов Николай Олегович || 10 || + || +0 <br> || vis+/+ -2 || -2 || -2 || +5 (result) ||
+
-
|-
+
-
| align="center"|12 || Романов Никита Алексеевич || 8 || + || +0 <br> report|| vis+/+ +5(good) || -2 || -10 || + ||
+
-
|-
+
-
| align="center"|13 || Рысьмятова Анастасия Александровна || 37 || + || +10 (1st) <br> report|| vis+/+ +2 +10(best) || -4 || -7 || +5 (result) ||
+
-
|-
+
-
| align="center"|14 || Садекова Таснима || 10 || + || +0 <br> || vis+/+ || -7 || -7 || + ||
+
-
|-
+
-
| align="center"|15 || Скробот Дмитрий Владиславович || Н || - || -10 || -5 -10 || -9 || -10 ||
+
-
|-
+
-
| align="center"|16 || Стёпина Александра Михайловна || 18 || + || -3 <br> || vis+/+ || -6 || -6 || + ||
+
-
|-
+
-
| align="center"|17 || Тлеубаев Адиль Талгатович || 16 || + || +0 <br> || vis+/+ +3 || -8 || -9 || + +5 (report) ||
+
-
|-
+
-
| align="center"|18 || Чиркова Надежда Александровна || 24 || + || +0 <br> report || vis+/+ || -3 || -2 || +5 (report) ||
+
-
|-
+
-
| align="center"|19 || Шаповалов Никита Анатольевич || 39 || + || +0 <br> report || vis+/+ +2 || 0 + 10 + 2д || 0 + 5 || +5 (result) ||
+
-
|-
+
-
| align="center"|-- || Даулбаев Талгат Кайратулы|| 30 || + || +0 <br> || vis+/+ +2 || -4 || -5 ||
+
-
|-
+
-
| align="center"|-- || Гёри Алексей (Германия)|| Н || + || +5 <br> report|| vis+/+ || -9 || -9 || + ||
+
-
|-
+
-
| align="center"|-- || Теплов Алексей (НИВЦ)|| Н ||
+
-
|-
+
-
| align="center"|-- || Чабаненко Владислав Дмитриевич || 28 || + ||
+
-
|-
+
-
|}
+
== Литература ==
== Литература ==
Строка 483: Строка 437:
== История ==
== История ==
Программы прошлых лет см. здесь:
Программы прошлых лет см. здесь:
 +
* [[Прикладные задачи анализа данных (курс на ВМК 2016 года)]]
* [[Алгоритмы, модели, алгебры (курс на ВМК 2015 года)]]
* [[Алгоритмы, модели, алгебры (курс на ВМК 2015 года)]]
* [[Алгоритмы, модели, алгебры (курс на ВМК до 2015 года)]]
* [[Алгоритмы, модели, алгебры (курс на ВМК до 2015 года)]]

Версия 15:06, 8 декабря 2017

Содержание

ПРИКЛАДНЫЕ ЗАДАЧИ АНАЛИЗА ДАННЫХ (курс для магистров ММП ВМК МГУ)

  • Обязательный курс для магистров каф. ММП 1 г/о, читается в 1-м (9-м) семестре.
  • Лекции — 32 часа, семинаров - 32 часа.
  • Экзамен.
  • За курс отвечает кафедра Математических методов прогнозирования.
  • Автор программы: профессор А. Г. Дьяконов.



Как в прошлом году проходил экзамен:
  • Есть система штрафных баллов, по ней формируется итоговая оценка.
  • Пороги для конкретных оценок (по сумме баллов) объявлены изначально, но могут быть откорректированы лектором в пользу студентов.
  • Сам экзамен проводится письменно - на нём (при желании) можно улучшить итоговую оценку

Содержание экзамена: задания эквивалентные заданиям со всех контрольных и семинаров (плюс задания по спектральной теории графов, плюс задания на знания теории и определений, если они были на лекциях и продублированы в списке рекомендуемой литературы, плюс задания на знания языков/библиотек, если они обсуждались на семинарах и лекциях)

Исправление: хорошее написание письменного экзамена увеличивает итоговую оценку на 1 балл (порог будет заранее объявлен), безупречное написание - на 2 балла.

  • Итоговая "отлично" ставится автоматом.
  • Итоговая "неудовлетворительно" также ставится автоматом и означает недопуск к экзамену, чтобы получить допуск надо сдать все несданные задания (итоговая оценка при этом не меняется и может быть исправлена только на самом экзамене).
  • Экзамен проходит по жёсткой схеме: нельзя пользоваться ничем (кроме ручки и листка бумаги). Аналогично контроль сдаваемых заданий после окончания семестра жёсткий: лектор уже не консультирует по самим заданиям, презентации оцениваются по формальным критериям: наличие постановки задачи, описание предложенных методов, их обоснование, подробное изложение экспериментов (с графиками и таблицами), формирование итоговой модели, выводы. Оценивается и сам доклад по задаче!


Аннотация

Курс посвящён решению прикладных задач анализа данных. Разбираются реальные задачи и бизнес-кейсы. Студенты пишут и настраивают алгоритмы на языках Python, R, M (Matlab).

Семинары посвящены

  • докладам по решению прикладных задач (с презентациями),
  • опросам по выполнению домашнего задания,
  • обучению программированию на скриптовых языках (для тех, у кого их не было в бакалавриате),
  • мозговому штурму по решению задач и обсуждению решений,
  • написанию контрольных работ, решению аналитических задач, работе над ошибками.

Система оценивания

В течение семестра студенты получают задания.

При сдаче правильно выполненного задания в срок студент не получает штрафных баллов.

В противном случае - он получает от 1 до 10 штрафных баллов.

Штраф в 10 баллов допустим за позднюю сдачу (даже если решение верное) в случае отсутствия уважительных причин (болезнь, подтверждаемая справкой, и т.п. - см. требования учебной части).

В некоторых случаях (на усмотрение лектора), магистру, который лучше всех выполнил конкретное задание, списываются штрафные баллы (до 10).

На экзамене также за неверные ответы студент получает штрафные баллы.


Итоговая оценка формируется следующим образом:

  • до 10 штрафных баллов включительно - отлично,
  • до 20 штрафных баллов включительно - хорошо,
  • до 30 штрафных баллов включительно - удовлетворительно.

Содержание курса

Наполняется по мере необходимости.

Число Занятие Тема Замечания
07.09.17 лекция Вводное занятие: цели курса, материалы, правила, участие в соревнованиях. презентация (pdf)
07.09.17 семинар Тест на знание основ машинного обучения.
07.09.17 дз Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники).
14.09.17 лекция Оценка среднего и вероятности

материалы:

  1. Книга Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с. * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
  2. Статья  Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77..
  3. Видео Оценка вероятности: когда к нам придёт клиент?
презентация (pdf)
14.09.17 лекция
14.09.17 дз Первое домашнее задание:

Решение задачи [[1]]. Срок - до 04 октября 2017 23:59 (с выкладкой отчёта в [этой ветке форума]).

Все вопросы задаются в [форуме].

Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме.

до 27 сентября 2017 23:59 - преодолеть бенчмарк.

Напоминание: команды называть по шаблону Ivan Ivanov (MMP, MSU, Russia).

max штраф за задание -10.

Но дополнительно, за непреодоление бенчмарка -5.


21.09.17
среда
лекция Язык программирования Python презентация (pdf)
21.09.17
среда
лекция Язык программирования Python (продолжение)
21.09.17
среда
дз Готовиться к к/р по языку Python.


28.09.16 лекция Визуализация данных

материалы:

28.09.16 лекция продолжение
28.09.16 дз

Второе домашнее задание:

  • Найти 2е интересные визуализации, выложить в [форуме(1)] (см. внимательно правила по ссылке). [10 штрафных / +10 анти]
  • Найти ещё одну визуализацию для игры "что за данные" (добавить её в конец презентации про решение 1й задачи к 5.10.2017)
  • Выбрать набор данных на kaggle.com в разделе [[2]]. См. правила и как выбрать на [форуме(2)]. Оформить презентацию-доклад. [10 штрафных / +10 анти]
  • След занятие: отчёт по 1й задаче и к/р Питон


05.10.17 семинар Отчёт по ДЗ №1 (определение суммы 1й покупки)
05.10.17 лекция Отчёт по ДЗ №1 (определение суммы 1й покупки)
05.10.17 дз Следующее реашемое нами соревнование - https://sascompetitions.ru/ - задача Хоум Кредит Банка (подробности на след. занятии).


12.10.17 лекция Функционалы качества и ошибки
12.10.17 лекция Функционалы качества и ошибки

материалы:

презентация (pdf) **NEW**
12.10.17 дз До следующего занятия в ветке форума выложить найденные закономерности в задаче скоринга (штраф: -5).




19.10.16 лекция продолжение Функционалы качества и ошибки, Минимизация ошибок презентация (pdf)
19.10.16 семинар Обсуждение закономерностей в задаче Скоринг HC
19.10.16 дз

НОВОЕ ЗАДАНИЕ

1. Подготовиться к контрольной по функционалам качества

2. Решать задачу скоринга

Файлы сабмитов в задаче скоринга начинать с 'msu_'


По просьбам Визуализация по данным Сбербанка


26.10.17 лекция Случайные леса

материалы:

презентация (pdf) *OLD*
26.10.17 лекция Случайные леса
26.10.17 д/з Продолжаем решать задачу скоринга. Штраф -10 за непреодоление нового бенчмарка 0.697481.


02.11.17 лекция Градиентный бустинг

материалы:

  • A. Natekin, A. Knoll Gradient boosting machines, a tutorial // Front Neurorobot. 2013; 7: 21.
  • García, Salvador, Luengo, Julián, Herrera, Francisco Data Preprocessing in Data Mining // Springer , 2015. 320 p. DOI 10.1007/978-3-319-10247-4
презентация (pdf)
02.11.17 лекция Предобработка данных, Генерация признаков презентация (pdf) , презентация (pdf)
02.11.17 д/з Начинаем решать задачу на платформе ... Boosters (почему-то открывается только через VPN) До след. пары сделать нетривиальный сабмит.


09.11.17 лекция Отбор признаков

материалы:

презентация (pdf)
09.11.17 лекция Категориальные признаки, Рекомендательные системы

материалы:


презентация (pdf), презентация (pdf)


09.11.17 дз До 15.11.17 преодолеть неизвестный бенчмарк задачи Boosters (+ задание в канале).


16.11.17 лекция Рекомендательные системы (окончание), обсуждение текущего задания


16.11.17 лекция Пост-троечные последовательности

материалы:

презентация (pdf)
16.11.17 дз
  • Превзойти результат Эмиля на 10%
  • сделать нетривиальное решение для TRAINMYDATA
  • найти интересные закономерности в TMD


23.11.17 нет лекции ПЕРЕНОС ЗАНЯТИЙ


30.11.17 лекция Теория нечётких множеств

материалы:

презентация (pdf)
30.11.17 семинар Задачи по нечётким множествам
30.11.17 дз Подготовиться к контрольной по нечётким множествам



07.12.16 лекция Исследование социальных сетей

материалы:

презентация (pdf)
07.12.16 лекция Исследование социальных сетей (продолжение)
07.12.16 дз  ???



Успеваемость

Изображение:Reiting.png

Литература

Указана локально - в сетке расписания.

История

Программы прошлых лет см. здесь:

Личные инструменты