Алгоритмы, модели, алгебры (курс лекций, Ю.И. Журавлев, А.Г. Дьяконов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(+ ссылка на личную страницу Дьяконова)
(Содержание курса)
(359 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
== АЛГОРИТМЫ, МОДЕЛИ, АЛГЕБРЫ ==
+
== ПРИКЛАДНЫЕ ЗАДАЧИ АНАЛИЗА ДАННЫХ (курс для магистров ММП ВМК МГУ) ==
-
* Обязательный курс для студентов каф. [[ММП]] 3 курса, читается в 6-м семестре.
+
* Обязательный курс для магистров каф. [[ММП]] 1 г/о, читается в 1(9-м) семестре.
-
* Лекции – 32 часа, семинаров нет.
+
* Лекции — 32 часа, семинаров - 32 часа.
* Экзамен.
* Экзамен.
* За курс отвечает кафедра Математических методов прогнозирования.
* За курс отвечает кафедра Математических методов прогнозирования.
-
* Авторы программы: академик РАН [[Журавлёв, Юрий Иванович|{{S|Ю. И. Журавлёв}}]], доцент [[Участник:Dj|{{S|А. Г. Дьяконов}}]].
+
* Автор программы: профессор [[Участник:Dj|{{S|А. Г. Дьяконов}}]].
 +
 
 +
 
 +
 
 +
 
 +
{{notice|
 +
'''Как в прошлом году проходил экзамен:'''
 +
 
 +
* Есть система штрафных баллов, по ней формируется итоговая оценка.
 +
* Пороги для конкретных оценок (по сумме баллов) объявлены изначально, но могут быть откорректированы лектором в пользу студентов.
 +
* Сам экзамен проводится письменно - на нём (при желании) можно улучшить итоговую оценку
 +
 
 +
'''Содержание экзамена:''' задания эквивалентные заданиям со всех контрольных и семинаров (плюс задания по спектральной теории графов, плюс задания на знания теории и определений, если они были на лекциях и продублированы в списке рекомендуемой литературы, плюс задания на знания языков/библиотек, если они обсуждались на семинарах и лекциях)
 +
 
 +
'''Исправление:''' хорошее написание письменного экзамена увеличивает итоговую оценку на 1 балл (порог будет заранее объявлен), безупречное написание - на 2 балла.
 +
 
 +
* Итоговая "отлично" ставится автоматом.
 +
* Итоговая "неудовлетворительно" также ставится автоматом и означает недопуск к экзамену, чтобы получить допуск надо сдать все несданные задания (итоговая оценка при этом не меняется и может быть исправлена только на самом экзамене).
 +
* Экзамен проходит по жёсткой схеме: нельзя пользоваться ничем (кроме ручки и листка бумаги). Аналогично контроль сдаваемых заданий после окончания семестра жёсткий: лектор уже не консультирует по самим заданиям, презентации оцениваются по формальным критериям: наличие постановки задачи, описание предложенных методов, их обоснование, подробное изложение экспериментов (с графиками и таблицами), формирование итоговой модели, выводы. Оценивается и сам доклад по задаче!
 +
 
 +
}}
== Аннотация ==
== Аннотация ==
-
Первая часть курса «Алгоритмы, модели, алгебры» для студентов каф. ММП посвящена алгебраическому подходу к решению задач распознавания образов. Основы этого подхода заложены в работах академика РАН Ю.И. Журавлёва и развиты затем его учениками. Сам подход имеет приложения не только в теории распознавания образов, но и в теории коррекции алгоритмов, которые на выходе получают числовую информацию. Студентам излагается новая техника построения и исследования алгоритмических конструкций. Для иллюстрации её «мощности» приведены решения нескольких достаточно сложных проблем: оценки степени корректного полинома, получения критериев корректности и квазикорректности.
+
Курс посвящён решению прикладных задач анализа данных.
-
Вторая часть курса посвящена логическим алгоритмам распознавания, основанным на синтезе ДНФ. Описываются модели алгоритмов, способы решения задачи построения ДНФ по перечню её нулевых наборов. Особое внимание уделяется практическим вопросам: как на ЭВМ реализовать эффективный алгоритм синтеза ДНФ специального вида. Рассматриваются также вопросы построения нормальных форм в k-значном случае.
+
Разбираются реальные задачи и бизнес-кейсы.
-
Несмотря на отсутствие семинаров по курсу, студентам на каждой лекции даются достаточно сложные задания, выполнение которых «моделирует исследовательскую научную работу». Решения заданий потом подробно разбираются.
+
Студенты пишут и настраивают алгоритмы на языках Python, R, M (Matlab).
-
По материалам курса составлено учебное пособие. В настоящее время ведётся подготовка ещё одного пособия (по дискретной части) и задачника.
+
 
 +
Семинары посвящены
 +
* докладам по решению прикладных задач (с презентациями),
 +
* опросам по выполнению домашнего задания,
 +
* обучению программированию на скриптовых языках (для тех, у кого их не было в бакалавриате),
 +
* мозговому штурму по решению задач и обсуждению решений,
 +
* написанию контрольных работ, решению аналитических задач, работе над ошибками.
 +
 
 +
== Система оценивания ==
 +
 
 +
В течение семестра студенты получают задания.
 +
 
 +
При сдаче правильно выполненного задания '''в срок''' студент не получает штрафных баллов.
 +
 
 +
В противном случае - он получает от 1 до 10 штрафных баллов.
 +
 
 +
Штраф в 10 баллов допустим за позднюю сдачу (даже если решение верное)
 +
в случае отсутствия уважительных причин (болезнь, подтверждаемая справкой, и т.п. -
 +
см. требования учебной части).
 +
 
 +
В некоторых случаях (на усмотрение лектора), магистру, который лучше всех выполнил конкретное задание,
 +
списываются штрафные баллы (до 10).
 +
 
 +
На экзамене также за неверные ответы студент получает штрафные баллы.
 +
 
 +
 
 +
Итоговая оценка формируется следующим образом:
 +
* до 10 штрафных баллов включительно - отлично,
 +
* до 20 штрафных баллов включительно - хорошо,
 +
* до 30 штрафных баллов включительно - удовлетворительно.
== Содержание курса ==
== Содержание курса ==
-
Лекции, 6 семестр
+
Наполняется по мере необходимости.
-
=== Введение ===
+
 
-
1.1. Введение. Задача распознавания образов с прецедентной информацией (напоминание постановки, введение терминологии, обозначений). Направления исследований в теории распознавания: синтез алгоритмов, оценка надёжности обучения, анализ конфигураций точек в признаковых пространствах.
+
{| class="wikitable"
-
1.2. Алгебраический подход к проблеме распознавания.
+
|-
-
1.3. Пример анализа конфигураций точек в признаковых пространствах: получение критерия разделимости точек.
+
! Число
-
=== Алгоритмы вычисления оценок (АВО), алгебраические замыкания ===
+
! Занятие
-
2.1. Модель АВО (введение, основные обозначения, примеры, общие принципы).
+
! Тема
-
2.2. Линейное и алгебраическое замыкание модели алгоритмов распознавания.
+
! Замечания
-
2.3. Техника представления алгоритмов из линейного замыкания АВО.
+
|-
-
2.4. Функция близости (определение, примеры, общие принципы). Сведение к задачам с определённой функцией близости.
+
| 07.09.17
-
=== Корректность, операторы разметки ===
+
| лекция
-
3.1. Операторы разметки. Матрицы оценок операторов. Теорема о реализации любых матриц (для любой матрицы из описанного класса существует соответствующая задача распознавания).
+
| '''Вводное занятие''': цели курса, материалы, правила, участие в соревнованиях.
-
3.2. Корректность (определение). Критерий корректности (теорема Ю.И. Журавлёва).
+
| [[Медиа:AMA2016_00_intro.pdf|презентация (pdf)]]
-
3.3. Оценка степени корректного алгоритма.
+
|-
-
3.4. Построение корректных алгоритмов распознавания (метод Ю.И. Журавлёва – И.В. Исаева).
+
| 07.09.17
-
=== Метрики алгебраических замыканий модели АВО ===
+
| семинар
-
4.1. Метрики алгебраических замыканий, метрические критерии корректности.
+
| Тест на знание основ машинного обучения.
-
4.2. Обзор (без доказательства) некоторых результатов теории жёсткой интерполяции.
+
|
-
4.3. Анализ некоторых классов точечных конфигураций (включая задания для самостоятельной работы).
+
|-
-
=== Решающие правила, квазикорректность ===
+
| 07.09.17
-
5.1. Решающие правила.
+
| дз
-
5.2. Критерии квазикорректности (корректности относительно семейства решающих правил). Обзор (без доказательств) некоторых современных результатов.
+
| Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники).
-
5.3. Пополнение стандартной алгебры над АВО.
+
|
-
=== Логические алгоритмы распознавания ===
+
|-
-
6.1. Логические алгоритмы распознавания (напоминания, краткий обзор, основные определения и обозначения).
+
| 14.09.17
-
6.2. Алгоритмы, основанные на синтезе ДНФ. Задача синтеза ДНФ по перечню нулевых наборов (обзор некоторых методов). Формула С.В. Яблонского. Методы Ю.И. Журавлёва, А.Ю. Когана.
+
| лекция
-
=== Синтез ДНФ по перечню нулевых наборов ===
+
| '''Оценка среднего и вероятности'''
-
7.1. Тестовый подход к задаче ДНФ-реализации. Оценка сложности. Построение тупиковых ДНФ. Построение ДНФ специального вида. Построение явных ДНФ-формул.
+
 
-
7.2. Построение ДНФ последовательным умножением. Умножение ДНФ. Обобщение метода С.В. Яблонского. Эффективная реализация метода Нельсона.
+
материалы:
-
7.3. ДНФ-реализация функций k-значной логики. Различные определения ДНФ в k-значном случае. Кодировки.
+
# Книга [http://www.ozon.ru/context/detail/id/4526400/ Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с.] * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
 +
# Статья [http://bijournal.hse.ru/2014--1%20%2827%29/120486363.html  Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77.].
 +
# Видео [https://vimeo.com/119925869 Оценка вероятности: когда к нам придёт клиент?]
 +
| [[Медиа:PZAD2016_01_probweights.pdf|презентация (pdf)]]
 +
|-
 +
| 14.09.17
 +
| лекция
 +
|
 +
|
 +
|-
 +
| 14.09.17
 +
| дз
 +
| '''Первое домашнее задание:'''
 +
 
 +
Решение задачи [[https://www.kaggle.com/c/pzadbabki]].
 +
Срок - '''до 04 октября 2017 23:59''' (с выкладкой отчёта в [[https://www.kaggle.com/c/pzadbabki/discussion/39537 этой ветке форума]]).
 +
 
 +
Все вопросы задаются в [[https://www.kaggle.com/c/pzadbabki/discussion/ форуме]].
 +
 
 +
Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме.
 +
 
 +
'''до 27 сентября 2017 23:59 ''' - преодолеть бенчмарк.
 +
 
 +
Напоминание: команды называть по шаблону '''''Ivan Ivanov (MMP, MSU, Russia)'''''.
 +
| max штраф за задание -10.
 +
Но дополнительно, за непреодоление бенчмарка -5.
 +
 
 +
 
 +
 
 +
|-
 +
| 21.09.17 <br> среда
 +
| лекция
 +
| '''Язык программирования Python'''
 +
* С. Лебедев [https://compscicenter.ru/courses/python/2015-autumn/ Программирование на Python]
 +
* [https://learnxinyminutes.com/docs/python/ Learn X in Y minutes]
 +
| [[Медиа:PZAD2017_c1_python.pdf|презентация (pdf)]]
 +
|-
 +
| 21.09.17 <br> среда
 +
| лекция
 +
| '''Язык программирования Python''' (продолжение)
 +
|
 +
|-
 +
| 21.09.17 <br> среда
 +
| дз
 +
| Готовиться к к/р по языку Python.
 +
|
 +
 
 +
 
 +
|-
 +
| 28.09.16
 +
| лекция
 +
| '''Визуализация данных'''
 +
материалы:
 +
 
 +
* Книга [http://www.amazon.com/Beautiful-Visualization-Looking-through-Practice/dp/1449379869 Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) // Edited by Julie Steele and Noah Iilinsky. Sebastopol, CA: O‘Reilly 2010, pp. 227-254. ISBN: 978-1-4493-7986-5] по визуализации данных
 +
|
 +
* [[Медиа:PZAD2017_02_visualize_part1.pdf|презентация (pdf)]]
 +
* [[Медиа:PZAD2017_02_visualize_part2.pdf|презентация (pdf)]]
 +
|-
 +
| 28.09.16
 +
| лекция
 +
| продолжение
 +
|
 +
|-
 +
| 28.09.16
 +
| дз
 +
|
 +
 
 +
'''Второе домашнее задание:'''
 +
 
 +
* Найти 2е интересные визуализации, выложить в [[https://www.kaggle.com/c/pzadbabki/discussion/40193 форуме(1)]] (см. внимательно правила по ссылке). [10 штрафных / +10 анти]
 +
* Найти ещё одну визуализацию для игры "что за данные" (добавить её в конец презентации про решение 1й задачи к 5.10.2017)
 +
* Выбрать набор данных на kaggle.com в разделе [[https://www.kaggle.com/datasets]]. См. правила и как выбрать на [[https://www.kaggle.com/c/pzadbabki/discussion/40194 форуме(2)]]. Оформить презентацию-доклад. [10 штрафных / +10 анти]
 +
* След занятие: отчёт по 1й задаче и к/р Питон
 +
 
 +
 
 +
 
 +
|-
 +
| 05.10.17
 +
| семинар
 +
| '''Отчёт по ДЗ №1''' (определение суммы 1й покупки)
 +
|
 +
|-
 +
| 05.10.17
 +
| лекция
 +
| '''Отчёт по ДЗ №1''' (определение суммы 1й покупки)
 +
|
 +
|-
 +
| 05.10.17
 +
| дз
 +
| Следующее реашемое нами соревнование - https://sascompetitions.ru/ - задача Хоум Кредит Банка (подробности на след. занятии).
 +
|
 +
 
 +
 
 +
|-
 +
| 12.10.17
 +
| лекция
 +
| '''Функционалы качества и ошибки'''
 +
|
 +
|-
 +
| 12.10.17
 +
| лекция
 +
| '''Функционалы качества и ошибки'''
 +
 
 +
материалы:
 +
* [https://ccrma.stanford.edu/workshops/mir2009/references/ROCintro.pdf Tom Fawcett An introduction to ROC analysis // Pattern Recognition Letters Volume 27 Issue 8, 2006, P. 861-874.]
 +
* [http://strijov.com/papers/Strijov2012ErrorFn.pdf Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория, 2013, 79(5): 65-73.]
 +
* [http://www.ozon.ru/context/detail/id/5497130/ К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» // . — Вильямс, 2011.]
 +
* видео [https://vimeo.com/119926468 Функционалы качества и функции потерь: Константы тоже бывают разные]
 +
* видео [https://vimeo.com/119926489 Функционалы качества и функции потерь: Какие множества похожи?]
 +
* видео [https://vimeo.com/119926504 Функционалы качества и функции потерь: AUC ROC - путь из (0,0) в (1,1)]
 +
| [[Медиа:PZAD2017_03_errors.pdf|презентация (pdf)]] **NEW**
 +
|-
 +
| 12.10.17
 +
| дз
 +
| До следующего занятия в [https://www.kaggle.com/c/pzadbabki/discussion/41212 ветке форума] выложить найденные закономерности в задаче скоринга (штраф: -5).
 +
|
 +
 
 +
 
 +
 
 +
 
 +
 
 +
 
 +
 
 +
|-
 +
| 19.10.16
 +
| лекция
 +
| продолжение '''Функционалы качества и ошибки''', '''Минимизация ошибок'''
 +
| [[Медиа:PZAD2016_06_minfunc.pdf|презентация (pdf)]]
 +
|-
 +
| 19.10.16
 +
| семинар
 +
| Обсуждение закономерностей в задаче '''Скоринг HC'''
 +
|
 +
|-
 +
| 19.10.16
 +
| дз
 +
|
 +
 
 +
НОВОЕ ЗАДАНИЕ
 +
 
 +
1. Подготовиться к контрольной по функционалам качества
 +
 
 +
* Для этого пройти [https://goo.gl/93qkum тест]
 +
* Прорешать задачи из презентиций [[Медиа:PZAD2017_03_errors.pdf|по ошибкам]], [[Медиа:PZAD2016_06_minfunc.pdf|по минимизации]]
 +
 
 +
2. Решать задачу скоринга
 +
* -10 - непреодоление бенчмарка
 +
* +10 - за см. [https://www.kaggle.com/c/pzadbabki/discussion/41573 ветку обмена кодом]
 +
 
 +
Файлы сабмитов в задаче скоринга начинать с 'msu_'
 +
 
 +
 
 +
По просьбам
 +
[https://alexanderdyakonov.files.wordpress.com/2016/10/dj2016_sdsj_vis.pdf Визуализация по данным Сбербанка]
 +
 
 +
|
 +
 
 +
 
 +
 
 +
|-
 +
| 26.10.17
 +
| лекция
 +
| '''Случайные леса'''
 +
 
 +
материалы:
 +
* А. Liaw, M. Wiener [http://www.bios.unc.edu/~dzeng/BIOS740/randomforest.pdf Classification and Regression by randomForest] // R News (2002) Vol. 2/3 p. 18.
 +
* И. Генрихов [http://jmlda.org/papers/doc/2014/no8/Genrikhov2014Criteria.pdf О критериях ветвления, используемых при синтезе решающих деревьев] // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
 +
* A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21.
 +
| [[Медиа:PZAD2016_09_rf.pdf|презентация (pdf)]] *OLD*
 +
 
 +
|-
 +
| 26.10.17
 +
| лекция
 +
| '''Случайные леса'''
 +
|
 +
 
 +
|-
 +
| 26.10.17
 +
| д/з
 +
| Продолжаем решать задачу скоринга. Штраф -10 за непреодоление нового бенчмарка 0.697481.
 +
|
 +
 
 +
 
 +
 
 +
|-
 +
| 02.11.17
 +
| лекция
 +
| '''Градиентный бустинг'''
 +
 
 +
материалы:
 +
* A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21.
 +
* García, Salvador, Luengo, Julián, Herrera, Francisco Data Preprocessing in Data Mining // Springer , 2015. 320 p. DOI 10.1007/978-3-319-10247-4
 +
| [[Медиа:PZAD2017_06_gradboosting.pdf|презентация (pdf)]]
 +
 
 +
|-
 +
| 02.11.17
 +
| лекция
 +
| '''Предобработка данных''', '''Генерация признаков'''
 +
| [[Медиа:PZAD2017_07_datapreprocessing.pdf|презентация (pdf)]] , [[Медиа:PZAD2017_08_featureengenearing.pdf|презентация (pdf)]]
 +
 
 +
|-
 +
| 02.11.17
 +
| д/з
 +
| Начинаем решать задачу на платформе ... [https://www.boosters.pro/champ_10 Boosters] (почему-то открывается только через VPN) До след. пары сделать нетривиальный сабмит.
 +
|
 +
 
 +
 
 +
|-
 +
| 09.11.17
 +
| лекция
 +
| '''Отбор признаков'''
 +
 
 +
материалы:
 +
 
 +
* Jundong Li, Kewei Cheng, Suhang Wang, Fred Morstatter, Robert P. Trevino, Jiliang Tang, Huan Liu [https://arxiv.org/abs/1601.07996 Feature Selection: A Data Perspective]
 +
* Sean Luke [https://cs.gmu.edu/~sean/book/metaheuristics/ Essentials of Metaheuristics]. — Lulu, 2009. — 235 p.
 +
 
 +
| [[Медиа:PZAD2017_09_featureselection.pdf|презентация (pdf)]]
 +
 
 +
|-
 +
| 09.11.17
 +
| лекция
 +
| '''Категориальные признаки''', '''Рекомендательные системы'''
 +
 
 +
материалы:
 +
 
 +
* Дьяконов А. [http://istina.msu.ru/media/publications/article/972/9eb/7537819/sw-factors-dyakonov.pdf Методы решения задач классификации с категориальными признаками] // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова. — 2014. — № 46. — С. 103–127
 +
* Y. Koren, R.M. Bell, C. Volinsky Matrix Factorization Techniques for Recommender Systems // IEEE Computer 42(8): 30-37 (2009).
 +
* S. Funk [http://sifter.org/~simon/journal/20061211.html Netflix Update: Try This at Home]
 +
* [http://www.libfm.org/ LibFM]: Factorization Machine Library
 +
 
 +
* Дьяконов А. [https://github.com/Dyakonov/python_hacks/blob/master/dj_cat_coding.ipynb Python: Кодирование категориальных признаков (ноутбук)]
 +
 
 +
* [http://www.csie.ntu.edu.tw/~r01922136/slides/ffm.pdf FFM – field-aware factorization machine (слайды)]
 +
 
 +
* Дьяконов А.Г. [https://bijournal.hse.ru/2012--1(19)/53535879.html Алгоритмы для рекомендательной системы: технология LENKOR] // Бизнес-Информатика, 2012, №1(19), С. 32–39.
 +
 
 +
 
 +
| [[Медиа:PZAD2017_10_category_old.pdf|презентация (pdf)]], [[Медиа:PZAD2017_11_recsys.pdf|презентация (pdf)]]
 +
 
 +
 
 +
 
 +
|-
 +
| 09.11.17
 +
| дз
 +
| До 15.11.17 преодолеть неизвестный бенчмарк задачи [https://www.boosters.pro/champ_10 Boosters] (+ задание в канале).
 +
 
 +
 
 +
|-
 +
| 16.11.17
 +
| лекция
 +
| '''Рекомендательные системы''' (окончание), обсуждение текущего задания
 +
|
 +
 
 +
 
 +
 
 +
|-
 +
| 16.11.17
 +
| лекция
 +
| '''Пост-троечные последовательности'''
 +
 
 +
материалы:
 +
 
 +
* Дьяконов А.Г. [http://bijournal.hse.ru/2012--1%2819%29/53535879.html Алгоритмы для рекомендательной системы: технология LENCOR] // Бизнес-Информатика, 2012, №1(19), С. 32–39.
 +
| [[Медиа:PZAD2016_12_post3.pdf|презентация (pdf)]]
 +
 
 +
|-
 +
| 16.11.17
 +
| дз
 +
|
 +
 
 +
* Превзойти результат Эмиля на 10%
 +
* сделать нетривиальное решение для [https://trainmydata.com/competition/844424930131977/description TRAINMYDATA]
 +
* найти интересные закономерности в TMD
 +
 
 +
 
 +
 
 +
|-
 +
| 23.11.17
 +
| нет лекции
 +
| ПЕРЕНОС ЗАНЯТИЙ
 +
 
 +
 
 +
|-
 +
| 30.11.17
 +
| лекция
 +
| '''Теория нечётких множеств'''
 +
 
 +
материалы:
 +
 
 +
* Рыжов А.П. [http://www.intsys.msu.ru/staff/ryzhov/FuzzySetsTheory&Applications.pdf Элементы теории нечетких множеств и измерения нечеткости]. Москва, Диалог-МГУ, 1998, 116 с.
 +
* [http://www.mba-topman.ru/files/Osnovnye_ponyatiya1064.pdf Основные понятия теории нечетких множеств, нейронных сетей и генетических алгоритмов] // Вспомогательные материалы к курсу проф. Рыжова А.П.
 +
* Ухоботов В. И. [http://www.lib.csu.ru/texts/UhobotovVI.pdf Избранные главы теории нечетких множеств] // Учеб. пособие. Челябинск : Изд-во Челяб. гос. ун-та, 2011. – 245 с.
 +
 
 +
| [[Медиа:PZAD2016_13_fuzzy.pdf|презентация (pdf)]]
 +
|-
 +
| 30.11.17
 +
| семинар
 +
| Задачи по нечётким множествам
 +
|
 +
|-
 +
| 30.11.17
 +
| дз
 +
| Подготовиться к контрольной по нечётким множествам
 +
|
 +
 
 +
 
 +
 
 +
 
 +
|-
 +
| 07.12.16
 +
| лекция
 +
| '''Исследование социальных сетей'''
 +
 
 +
материалы:
 +
* Л.Жуков курс [http://leonidzhukov.net/hse/2015/socialnetworks/ Structural Analysis and Visualization of Networks] в ВШЭ
 +
| [[Медиа:PZAD2017_13_social.pdf|презентация (pdf)]]
 +
|-
 +
| 07.12.16
 +
| лекция
 +
| '''Исследование социальных сетей''' (продолжение)
 +
|
 +
|-
 +
| 07.12.16
 +
| дз
 +
| ???
 +
 
 +
|
 +
 
 +
 
 +
 
 +
 
 +
|}
 +
 
 +
== Успеваемость ==
 +
 
 +
 
 +
[[Изображение:Reiting.png]]
== Литература ==
== Литература ==
-
# Дьяконов А.Г. Алгебра над алгоритмами вычисления оценок: Учебное пособие.– М.: Издательский отдел ф-та ВМиК МГУ им. М.В. Ломоносова, 2006. – 72с. (ISBN 5-89407-252-2)
+
Указана локально - в сетке расписания.
-
# Журавлёв Ю.И. Избранные научные труды. – М.: «Магистр», 1998.– 420с.
+
-
# Черников С.Н. Линейные неравенства. М. Наука. 1968. 488 с.
+
-
# Дискретная математика и математические вопросы кибернетики / Под ред. С.В. Яблонского и О.Б. Лупанова. – М.: Наука, 1974. – 312с.
+
-
# Дюкова Е.В. Дискретные (логические) процедуры распознавания: принципы конструирования, сложность реализации и основные модели / Учебное пособие для студентов математических факультетов педвузов. – М.: Прометей, 2003. – С. 29. (ISBN 5-70420-1092-9)
+
 +
== История ==
 +
Программы прошлых лет см. здесь:
 +
* [[Прикладные задачи анализа данных (курс на ВМК 2016 года)]]
 +
* [[Алгоритмы, модели, алгебры (курс на ВМК 2015 года)]]
 +
* [[Алгоритмы, модели, алгебры (курс на ВМК до 2015 года)]]
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]
 +
[[Категория:МГУ]]

Версия 15:06, 8 декабря 2017

Содержание

ПРИКЛАДНЫЕ ЗАДАЧИ АНАЛИЗА ДАННЫХ (курс для магистров ММП ВМК МГУ)

  • Обязательный курс для магистров каф. ММП 1 г/о, читается в 1-м (9-м) семестре.
  • Лекции — 32 часа, семинаров - 32 часа.
  • Экзамен.
  • За курс отвечает кафедра Математических методов прогнозирования.
  • Автор программы: профессор А. Г. Дьяконов.



Как в прошлом году проходил экзамен:
  • Есть система штрафных баллов, по ней формируется итоговая оценка.
  • Пороги для конкретных оценок (по сумме баллов) объявлены изначально, но могут быть откорректированы лектором в пользу студентов.
  • Сам экзамен проводится письменно - на нём (при желании) можно улучшить итоговую оценку

Содержание экзамена: задания эквивалентные заданиям со всех контрольных и семинаров (плюс задания по спектральной теории графов, плюс задания на знания теории и определений, если они были на лекциях и продублированы в списке рекомендуемой литературы, плюс задания на знания языков/библиотек, если они обсуждались на семинарах и лекциях)

Исправление: хорошее написание письменного экзамена увеличивает итоговую оценку на 1 балл (порог будет заранее объявлен), безупречное написание - на 2 балла.

  • Итоговая "отлично" ставится автоматом.
  • Итоговая "неудовлетворительно" также ставится автоматом и означает недопуск к экзамену, чтобы получить допуск надо сдать все несданные задания (итоговая оценка при этом не меняется и может быть исправлена только на самом экзамене).
  • Экзамен проходит по жёсткой схеме: нельзя пользоваться ничем (кроме ручки и листка бумаги). Аналогично контроль сдаваемых заданий после окончания семестра жёсткий: лектор уже не консультирует по самим заданиям, презентации оцениваются по формальным критериям: наличие постановки задачи, описание предложенных методов, их обоснование, подробное изложение экспериментов (с графиками и таблицами), формирование итоговой модели, выводы. Оценивается и сам доклад по задаче!


Аннотация

Курс посвящён решению прикладных задач анализа данных. Разбираются реальные задачи и бизнес-кейсы. Студенты пишут и настраивают алгоритмы на языках Python, R, M (Matlab).

Семинары посвящены

  • докладам по решению прикладных задач (с презентациями),
  • опросам по выполнению домашнего задания,
  • обучению программированию на скриптовых языках (для тех, у кого их не было в бакалавриате),
  • мозговому штурму по решению задач и обсуждению решений,
  • написанию контрольных работ, решению аналитических задач, работе над ошибками.

Система оценивания

В течение семестра студенты получают задания.

При сдаче правильно выполненного задания в срок студент не получает штрафных баллов.

В противном случае - он получает от 1 до 10 штрафных баллов.

Штраф в 10 баллов допустим за позднюю сдачу (даже если решение верное) в случае отсутствия уважительных причин (болезнь, подтверждаемая справкой, и т.п. - см. требования учебной части).

В некоторых случаях (на усмотрение лектора), магистру, который лучше всех выполнил конкретное задание, списываются штрафные баллы (до 10).

На экзамене также за неверные ответы студент получает штрафные баллы.


Итоговая оценка формируется следующим образом:

  • до 10 штрафных баллов включительно - отлично,
  • до 20 штрафных баллов включительно - хорошо,
  • до 30 штрафных баллов включительно - удовлетворительно.

Содержание курса

Наполняется по мере необходимости.

Число Занятие Тема Замечания
07.09.17 лекция Вводное занятие: цели курса, материалы, правила, участие в соревнованиях. презентация (pdf)
07.09.17 семинар Тест на знание основ машинного обучения.
07.09.17 дз Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники).
14.09.17 лекция Оценка среднего и вероятности

материалы:

  1. Книга Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с. * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
  2. Статья  Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77..
  3. Видео Оценка вероятности: когда к нам придёт клиент?
презентация (pdf)
14.09.17 лекция
14.09.17 дз Первое домашнее задание:

Решение задачи [[1]]. Срок - до 04 октября 2017 23:59 (с выкладкой отчёта в [этой ветке форума]).

Все вопросы задаются в [форуме].

Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме.

до 27 сентября 2017 23:59 - преодолеть бенчмарк.

Напоминание: команды называть по шаблону Ivan Ivanov (MMP, MSU, Russia).

max штраф за задание -10.

Но дополнительно, за непреодоление бенчмарка -5.


21.09.17
среда
лекция Язык программирования Python презентация (pdf)
21.09.17
среда
лекция Язык программирования Python (продолжение)
21.09.17
среда
дз Готовиться к к/р по языку Python.


28.09.16 лекция Визуализация данных

материалы:

28.09.16 лекция продолжение
28.09.16 дз

Второе домашнее задание:

  • Найти 2е интересные визуализации, выложить в [форуме(1)] (см. внимательно правила по ссылке). [10 штрафных / +10 анти]
  • Найти ещё одну визуализацию для игры "что за данные" (добавить её в конец презентации про решение 1й задачи к 5.10.2017)
  • Выбрать набор данных на kaggle.com в разделе [[2]]. См. правила и как выбрать на [форуме(2)]. Оформить презентацию-доклад. [10 штрафных / +10 анти]
  • След занятие: отчёт по 1й задаче и к/р Питон


05.10.17 семинар Отчёт по ДЗ №1 (определение суммы 1й покупки)
05.10.17 лекция Отчёт по ДЗ №1 (определение суммы 1й покупки)
05.10.17 дз Следующее реашемое нами соревнование - https://sascompetitions.ru/ - задача Хоум Кредит Банка (подробности на след. занятии).


12.10.17 лекция Функционалы качества и ошибки
12.10.17 лекция Функционалы качества и ошибки

материалы:

презентация (pdf) **NEW**
12.10.17 дз До следующего занятия в ветке форума выложить найденные закономерности в задаче скоринга (штраф: -5).




19.10.16 лекция продолжение Функционалы качества и ошибки, Минимизация ошибок презентация (pdf)
19.10.16 семинар Обсуждение закономерностей в задаче Скоринг HC
19.10.16 дз

НОВОЕ ЗАДАНИЕ

1. Подготовиться к контрольной по функционалам качества

2. Решать задачу скоринга

Файлы сабмитов в задаче скоринга начинать с 'msu_'


По просьбам Визуализация по данным Сбербанка


26.10.17 лекция Случайные леса

материалы:

презентация (pdf) *OLD*
26.10.17 лекция Случайные леса
26.10.17 д/з Продолжаем решать задачу скоринга. Штраф -10 за непреодоление нового бенчмарка 0.697481.


02.11.17 лекция Градиентный бустинг

материалы:

  • A. Natekin, A. Knoll Gradient boosting machines, a tutorial // Front Neurorobot. 2013; 7: 21.
  • García, Salvador, Luengo, Julián, Herrera, Francisco Data Preprocessing in Data Mining // Springer , 2015. 320 p. DOI 10.1007/978-3-319-10247-4
презентация (pdf)
02.11.17 лекция Предобработка данных, Генерация признаков презентация (pdf) , презентация (pdf)
02.11.17 д/з Начинаем решать задачу на платформе ... Boosters (почему-то открывается только через VPN) До след. пары сделать нетривиальный сабмит.


09.11.17 лекция Отбор признаков

материалы:

презентация (pdf)
09.11.17 лекция Категориальные признаки, Рекомендательные системы

материалы:


презентация (pdf), презентация (pdf)


09.11.17 дз До 15.11.17 преодолеть неизвестный бенчмарк задачи Boosters (+ задание в канале).


16.11.17 лекция Рекомендательные системы (окончание), обсуждение текущего задания


16.11.17 лекция Пост-троечные последовательности

материалы:

презентация (pdf)
16.11.17 дз
  • Превзойти результат Эмиля на 10%
  • сделать нетривиальное решение для TRAINMYDATA
  • найти интересные закономерности в TMD


23.11.17 нет лекции ПЕРЕНОС ЗАНЯТИЙ


30.11.17 лекция Теория нечётких множеств

материалы:

презентация (pdf)
30.11.17 семинар Задачи по нечётким множествам
30.11.17 дз Подготовиться к контрольной по нечётким множествам



07.12.16 лекция Исследование социальных сетей

материалы:

презентация (pdf)
07.12.16 лекция Исследование социальных сетей (продолжение)
07.12.16 дз  ???



Успеваемость

Изображение:Reiting.png

Литература

Указана локально - в сетке расписания.

История

Программы прошлых лет см. здесь:

Личные инструменты