Спецкурс «Прикладные задачи анализа данных»

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Лекции)
(Правила)
 
(141 промежуточная версия не показана)
Строка 1: Строка 1:
{{stop|
{{stop|
-
Регистрация на спецкурс завершена. Кто не успел - ждите следующего года.
+
В настоящее время курс не читается.
-
<br>
+
-
Зарегистрированные слушатели получили 3 инфо-рассылки (в них вся информация по времени и дате спецкурса).
+
}}
}}
== Аннотация ==
== Аннотация ==
{{notice|
{{notice|
-
Данный курс стал победителем конкурса [http://ria.ru/society/20140422/1004993769.html инновационных учебных технологий].
+
Данный курс был победителем конкурса [http://ria.ru/society/20140422/1004993769.html инновационных учебных технологий].
}}
}}
Строка 18: Строка 16:
* спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.
* спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.
Важно: от участников потребуется выполнение нетривиальных практических заданий!
Важно: от участников потребуется выполнение нетривиальных практических заданий!
 +
 +
== Выпускники ПЗАДа, известные в спортивном анализе данных ==
 +
{| class="wikitable"
 +
|-
 +
! 2013
 +
! 2014
 +
! 2015
 +
|-
 +
| Трофимов Михаил<br>Рыжков Александр<br>Софиюк Константин<br>Фонарев Александр<br>Харациди Олег<br>
 +
| Гущин Александр<br>Семёнов Станислав<br>Фенстер Александра<br>Ульянов Дмитрий<br>Сиверский Михаил<br>Шапулин Андрей<br>Нижибицкий Евгений<br>Остапец Андрей<br>
 +
| ''это место вакантно''
 +
|}
== Правила ==
== Правила ==
Строка 24: Строка 34:
* Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
* Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
* За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
* За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
 +
* Для аспирантов и студентов ВМК: важно вовремя делать задания (опоздания штрафуются); экзамена, как такового, не будет; штрафы могут быть исправлены только качественным выполнением последующих заданий
-
{| class="wikitable"
+
{| class="standard sortable"
|-
|-
-
! ЗАПИСАЛИСЬ
+
! Участник
-
! группа
+
! Учёба/работа
-
! 08.10 - соцсети<br> email/LB
+
! Прогноз визитов
-
! 15.10 - соцсети<br> преодоление порога
+
! Rossmann
-
! 05.11 - что за данные
+
! Walmart-1
 +
! Прогноз рёбер - 1 неделя
 +
! Прогноз рёбер - отчёт
|-
|-
-
| Семёнов Станислав Георгиевич
+
| Нестеров Павел Алексеевич
-
| ВШЭ
+
| mail.ru
-
| - / 0 [-7]
+
|
 +
| +
| +
| +
| +
| +
|-
|-
-
| Арбузова Дарья Андреевна
+
| Татараидзе Александр Бидзинович
-
| 517
+
| МГТУ им. Н.Э. Баумана
-
| + / +
+
|
| +
| +
| +
| +
-
|-
 
-
| Гущин Александр Евгеньевич
 
-
| МФТИ
 
-
| + / +
 
| +
| +
| +
| +
|-
|-
-
| Потапенко Анна Александровна
+
| Николаев Владимир Владимирович
-
| 617
+
| ВМК МГУ, 317 группа
-
| + / +
+
|
| +
| +
| +
| +
 +
| +
 +
| +
 +
| '''отлично'''
|-
|-
-
| Фенстер Александра Михайловна
+
| Авдеев Вадим Александрович
-
| НИУ ВШЭ 172мАИД
+
| Аспирантура мехмата МГУ
-
| + / +
+
| 1 место
 +
| -10
| +
| +
| +
| +
|-
|-
-
| Вихрева Мария Викторовна
+
| Москвин Сергей Сергеевич
-
| 315
+
| ГУ-ВШЭ, факультет экономики
-
| + / +
+
| 3 место
 +
| -10
 +
| -10
| +
| +
 +
|-
 +
| Тильга Сергей Денисович
 +
| Мех-мат, МГУ, 408 группа
 +
|
 +
| -10
| +
| +
 +
| -10
|-
|-
-
| Бахтин Антон Вячеславович
+
| Майоров Николай Александрович
-
| МГУ, Яндекс
+
| мехмат МГУ + ШАД
-
| + / - [-5]
+
| 2 место
-
| [-5]
+
| -10
 +
| -10
| +
| +
|-
|-
-
| Ульянов Дмитрий Владимирович
+
| Ахметов Андрей Юревич
-
| 517
+
| Avon
-
| + / 0 [-2]
+
|
| +
| +
 +
| -10
| +
| +
|-
|-
-
| Шапулин Андрей Валентинович
+
| Сазонтьев Владимир Владимирович
-
| 417
+
| Аспирантура ВШЭ, Cyberplat
-
| + / +
+
|
 +
| +
 +
| +
| +
| +
| +
| +
|-
|-
-
| Сиверский Михаил Николаевич
+
| Елтышев Евгений Николаевич
-
| физфак
+
| МФТИ ФИВТ, ШАД
-
| [-10]
+
|
-
| [-5]
+
| -10
 +
| -5
 +
| -10
 +
| deleted
 +
|-
 +
| Цитко Денис Юрьевич
 +
| ООО "Информикус"
 +
|
 +
| -10
 +
| +
| +
| +
|-
|-
-
| Игнатов Алексей Николаевич
+
| Панкратов Антон Михайлович
-
| 516
+
| ВМК МГУ, 417 группа
-
| [-10]
+
|
 +
| -10
| +
| +
-
|
+
| +
 +
| +
 +
| '''отлично'''
|-
|-
-
| Сокурский Юрий Валентинович
+
| Селютина Юлия Дмитриевна
-
| 517
+
| Rambler&Co
-
| + / +
+
|
| +
| +
-
|
+
| -10
 +
| -10
|-
|-
-
| Дойков Никита Владимирович
+
| Полякова Нина Михайловна
-
| 417
+
| ВМК МГУ, 417 группа
-
| + / +
+
|
 +
| -10
| +
| +
-
|
+
| +
 +
| +
 +
| '''отлично'''
|-
|-
-
| Лукашкина Юлия Николаевна
+
| Субботин Игорь Анатольевич
-
| 417
+
| Wild Apricot
-
| [-10]
+
|
 +
| +
 +
| +
| +
| +
-
| 0
 
|-
|-
-
| Байбурин Валерий Тагирович
+
| Харченко Максим Александрович
-
| м118
+
| Lamoda group
-
| + / - [-5]
+
|
-
| [-5]
+
| -10
-
|
+
| +
 +
| +
|-
|-
-
| Дымов Григорий Андреевич
+
| Нехаев Антон Вадимович
-
| Stockholm university
+
| АлгоМост
-
| + / +
+
|
-
| [-5]
+
| +
 +
| +
| +
| +
|-
|-
-
| Чинаев Николай Николаевич
+
| Кузнецов Роман Леонидович
-
| МФТИ
+
| ФУПМ МФТИ, ШАД
-
| [-10]
+
|
-
| [-5]
+
| -10
-
|
+
| +
 +
| +
|-
|-
-
| Хальман Михаил Анатольевич
+
| Болкунов Дмитрий Сергеевич
-
| 417
+
| АлгоМост
-
| + / +
+
|
| +
| +
 +
| -5
| +
| +
|-
|-
-
| Нижибицкий Евгений
+
| Гусак Юлия Валерьевна
-
| аспВМК
+
| мехмат МГУ, аспирантура
-
| - / 0 [-7]
+
|
 +
| -10
 +
| -10
 +
| -10
 +
| deleted
 +
|-
 +
| Литвинов Денис Владимирович
 +
| аспирант ВМК МГУ
 +
|
 +
| -10
| +
| +
 +
| -10
 +
| -10
 +
| '''удовлетворительно'''
 +
|-
 +
| Мозохина Анастасия Сергеевна
 +
| ВМК, ООО "Медицина. Восток-Запад"
 +
|
| +
| +
 +
| +
 +
| +
 +
| +
 +
| '''отлично'''
|-
|-
-
| Остапец Андрей
+
| Родионов Павел Вадимович
-
| аспВМК
+
| Аспирант ВМК МГУ
-
| - / + [-5]
+
|
 +
| -10
 +
| -10
| +
| +
| +
| +
 +
| '''хорошо'''
 +
|-
 +
| Воронов Михаил Сергеевич
 +
| аспирант ВМК МГУ, ---
 +
|
 +
| -10 (нет участия)
 +
| -10
 +
| -10
 +
| -10
 +
| deleted '''неуд'''
|}
|}
==Лекции==
==Лекции==
-
Здесь будет выложена программа нового (2014 года) - по мере чтения курса.
+
Здесь будет выложена программа нового (2015 года) - по мере чтения курса.
 +
 
 +
Старые программы см. на страницах прошлых лет.
{| class="wikitable"
{| class="wikitable"
Строка 164: Строка 245:
! Материалы, замечания
! Материалы, замечания
|-
|-
-
| 24.09.14
+
| 16.09.15
-
| '''Matrix Laboratory (эффективное программирование)''': системы и языки для анализа малых данных, интерпретатор Matlab (достоинства и недостатки), типы данных (массивы ячеек, структуры, строки, логические массивы, NaN), матрицы (порождение, конкатенация, индексация, разреженные матрицы), операции над ними, фокусы с размерностями, файловый ввод и вывод, m-файлы (функции и скрипты), графика (начало), анонимные функции, поэлементные функции, основы эффективного программирования, возможности работы с большими данными
+
-
| [[Медиа:PZAD2014_slides_lecture01_matlab.pdf|слайды лекции 1]], рекомендованное учебное пособие: [[Публикация:Дьяконов 2010 Учебное пособие ММП|Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab]]
+
-
|-
+
-
| 01.10.14
+
| '''Вводное занятие''': цели курса, материалы, правила, участие в соревнованиях.
| '''Вводное занятие''': цели курса, материалы, правила, участие в соревнованиях.
-
'''Домашнее задание №1''': Соревнование [http://www.kaggle.com/c/learning-social-circles Learning Social Circles in Networks] по определению кругов в эго-подграфах графа социальной сети (задача, данные, их загрузка, редакторское расстояние), приложения анализа социальных сетей.
+
'''Разбор конкурсных задач''': решение задачи [[https://www.kaggle.com/c/crowdflower-search-relevance Search Results Relevance]]
 +
(классическая и неклассическая задачи поиска, сравнение блоков информации, 3-граммы, настройка случайного леса, деформация ответов и решающие правила,
 +
выравнивание распределений ответов).
 +
 
 +
'''Домашнее задание №1''': решение задачи [[https://inclass.kaggle.com/c/msuvisits MSUvisits]]
 +
(прогноз дня недели следующего визита клиента).
 +
| слайды в рассылке
-
'''Социальные сети''': динамические графы, приложения анализа социальных сетей, погружение графов в признаковое пространство, сходство вершин, важность вершин.
 
-
| [[Медиа:PZAD2014_slides_lecture02part1.zip|слайды лекции 2 (zip, jpg 8Mb)]], книга [1], [http://www.kaggle.com/c/learning-social-circles/forums/t/10507/data-loading-for-matlab-users код для загрузки данных]
 
|-
|-
-
| 08.10.14
+
| 23.09.15
-
| '''Социальные сети''' (продолжение): прогнозирование появления рёбер в динамическом графе, решение задачи соревнования [http://www.kaggle.com/c/socialNetwork IJCNN Social Network Challenge], признаки рёбер, алгоритм PageRank и его модификации, сообщества в графах и их выделение, спектральные методы на графах, генерация случайных графов.
+
| '''Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы.''': проблема оценки среднего, выбросы, разные целевые функционалы, оценка минимального контраста, среднее по Колмогорову, SMAPE-минимизация, двухэтапные алгоритмы и их настройка, пересчёт вероятности и прямая оценка, введение весовых схем, устойчивость весовых схем, ансамблирование, непараметрическое восстановление плотности, весовые схемы при оценке плотности. Задача [[http://www.kaggle.com/c/dunnhumbychallenge dunnhumby's Shopper Challenge]]. Задача [[http://imat2010.yandex.ru/datasets пробки]].
-
'''Домашнее задание №1''': мозговой штурм.
+
'''Домашнее задание №1''': ещё неделя на решение, потом неделя на отчёты.
-
| [[Медиа:PZAD2014_slides_lecture02part1.zip|слайды лекции 2 (zip, jpg 8Mb)]], статья [http://i.stanford.edu/~julian/pdfs/nips2012.pdf Learning to Discover Social Circles in Ego Networks], обзор [http://arxiv.org/abs/0906.0612 Community Detection in Graphs], обзор [http://www.ispras.ru/ru/proceedings/docs/2012/22/isp_22_2012_419.pdf Случайные графы, модели и генераторы].
+
 
 +
'''Материалы''':
 +
# Книга [http://www.ozon.ru/context/detail/id/4526400/ Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с.] * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
 +
# Статья [http://bijournal.hse.ru/2014--1%20%2827%29/120486363.html Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77.].
 +
# Видео [https://vimeo.com/119925869 Оценка вероятности: когда к нам придёт клиент?]
 +
 
 +
| слайды в рассылке
|-
|-
-
| 15.10.14
+
| 30.09.15
-
| '''Искусство визуализации данных''': игра "Что за данные", признаки в задаче [[http://www.kaggle.com/c/bioresponse bioresponse]], выделение групп признаков, что можно увидеть в данных, оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений, результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [[http://www.kaggle.com/c/cause-effect-pairs cause-effect-pairs]], [[http://www.kaggle.com/c/GiveMeSomeCredit GiveMeSomeCredit]], [[http://www.kaggle.com/c/DarkWorlds DarkWorlds]].
+
| продолжение '''Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы.'''
-
| [[Медиа:PZAD2014_slides_lecture03_visualize.zip|слайды лекции 3 (zip, jpg 7.6Mb)]], книга [2]
+
 
 +
'''Разбор конкурсных задач''': решение задачи [[https://www.kaggle.com/c/liberty-mutual-group-property-inspection-prediction Liberty Mutual Group: Property Inspection Prediction]]
 +
(настройка xgboost, ансамбль их сигмоид над xgboost, особенности в целевом признаке), решение задачи [[https://www.kaggle.com/c/caterpillar-tube-pricing Caterpillar Tube Pricing]].
 +
 
 +
| слайды в рассылке
|-
|-
-
| 22.10.14
+
| 07.10.2015
-
| '''Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы.''': проблема оценки среднего, выбросы, разные целевые функционалы, оценка минимального контраста, среднее по Колмогорову, SMAPE-минимизация, двухэтапные алгоритмы и их настройка, пересчёт вероятности и прямая оценка, введение весовых схем, устойчивость весовых схем, ансамблирование, непараметрическое восстановление плотности, весовые схемы при оценке плотности. Задача [[http://www.kaggle.com/c/dunnhumbychallenge dunnhumby's Shopper Challenge]]. Задача [[http://imat2010.yandex.ru/datasets пробки]].
+
| '''Искусство визуализации''': признаки в задаче [[http://www.kaggle.com/c/bioresponse bioresponse]], выделение групп признаков, что можно увидеть в данных, оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений, результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Определение свойств признака (категориальность, группы значений и т.п.). Задачи [[http://www.kaggle.com/c/cause-effect-pairs cause-effect-pairs]], [[http://www.kaggle.com/c/GiveMeSomeCredit GiveMeSomeCredit]], [[http://www.kaggle.com/c/DarkWorlds DarkWorlds]], [[https://www.kaggle.com/c/liberty-mutual-group-property-inspection-prediction Liberty]].
-
| [[Медиа:PZAD2014_slides_lecture04_weights.zip|слайды лекции 4 (zip, jpg 9.3Mb)]], книга [3], статья [4]
+
 
 +
'''Материалы''':
 +
# Книга [http://www.amazon.com/Beautiful-Visualization-Looking-through-Practice/dp/1449379869 Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice)] по визуализации данных
 +
Новое домашнее задание: [https://www.kaggle.com/c/rossmann-store-sales Rossmann Store Sales]
 +
(Сделать за неделю свой бенчмарк - появиться в лидерборде)
 +
|
|-
|-
-
| 29.10.14
+
| 14.10.2015
-
| '''Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы.''' (продолжение)
+
| '''Искусство визуализации''' (продолжение).
-
|
+
 
 +
'''Функции ошибки / функционалы качества''': MAE, RMSE, SMAPE, MAP, MRAE, REL_MAE, PB, нормированные ошибки, несимметричные ошибки, ошибки с точностью до порога,
 +
MCE, точность (Precision), полнота, специфичность, False Positive Rate, F1-мера, AUROC, GINI, Log Loss, Hamming Loss, MAP, Discounted Cumulative Gain (DCG), Quadratic Weighted Kappa, редакторское расстояние.
 +
Матожидание ошибок. Генерация признаков с помощью функций ошибок. Confusion matrix.
 +
 
 +
'''Материалы''':
 +
# [https://ccrma.stanford.edu/workshops/mir2009/references/ROCintro.pdf Tom Fawcett An introduction to ROC analysis // Pattern Recognition Letters Volume 27 Issue 8, 2006, P. 861-874.]
 +
# [http://strijov.com/papers/Strijov2012ErrorFn.pdf Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория, 2013, 79(5): 65-73.]
 +
# [http://www.ozon.ru/context/detail/id/5497130/ К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» // М. — Вильямс, 2011.]
 +
 
 +
Домашнее задание: [https://www.kaggle.com/c/rossmann-store-sales Rossmann Store Sales]
 +
(Сделать небольшой отчёт по исследованию задачи и простым методам в [https://www.kaggle.com/c/rossmann-store-sales/forums/t/17094/thread-for-reports-of-pzad-fellows ветке])
 +
|
|-
|-
-
| 05.11.14
+
| 21.10.2015
-
| '''Линейные алгоритмы.'''
+
| '''Обмен опытом''' (решение домашних заданий)
-
Разбор решения задачи соревнования [http://www.kaggle.com/c/socialNetwork IJCNN Social Network Challenge].
+
-
|
+
-
|}
+
 +
# [https://github.com/Dyakonov/notebooks/blob/master/rossmann.ipynb ноутбук]
 +
Домашнее задание: [https://www.kaggle.com/c/rossmann-store-sales Rossmann Store Sales]
 +
(Сделать за 3 недели отчёт в виде pdf-презентации в [https://www.kaggle.com/c/rossmann-store-sales/forums/t/17094/thread-for-reports-of-pzad-fellows ветке])
 +
|
 +
|-
 +
| 28.10.2015
 +
| '''Функции ошибки / функционалы качества''' (продолжение).
 +
|
 +
|-
 +
| 11.11.2015
 +
| '''Минимизация ошибок''': построение дерева, максимизирующего ROC AUC, получение интервальных значений целевого признака, деформация для Root Mean Square Percentage Error, оптимизация log_loss для логистической регрессии, линейной ререссии, оптимизация СКО для логистической регрессии, линейной регрессии.
-
Старую программу см. на странице
+
'''Линейные алгоритмы''': персептронный алгоритм, режимы обучения, концепция поощрение-наказание, концепция минимизации функционала, линейная регрессия, SGD, delta-bar-delta, хэширование признаков, регуляризация, обобщения регрессии, прогноз раскупаемости, прогноз методом kNN, прогноз линейным оператором, линейный алгоритм над SVD, признаковое прогнозирование спроса, профили товаров, сезонность, LibSVM, LibLinear. Задачи: [[http://tunedit.org/challenge/JRS12Contest?m=summary JRS12]], [[http://www.neural-forecasting-competition.com/NN5/results.htm NN5]], [[http://www.kaggle.com/c/tourism2 tourism2]]'''.
-
[[Спецкурс «Прикладные задачи анализа данных» (2013 год)]].
+
 
 +
материалы:
 +
# [http://lib.mexmat.ru/books/9210 Ту Дж., Гонсалес Р. Принципы распознавания образов] // Издательство Мир , Мо-сква, 1978 - 412 стр.
 +
# [http://alexanderdyakonov.narod.ru/uptimes.pdf Прогнозирование рядов соревнования «Tourism Forecasting Part Two»] (414Кб)
 +
# [http://www.springerlink.com/content/73g4kl50m6112420/ Alexander D’yakonov A Blending of Simple Algorithms for Topical Classification]// Rough Sets and Current Trends in Computing, Lecture Notes in Computer Science, 2012, Volume 7413/2012, 432–438.
 +
# видео [https://vimeo.com/119926447 Линейная регрессия: как решать матричные уравнения]
 +
 
 +
 
 +
Домашнее задание: сделать "интеллектуальный" сабмишн в конкурсе [https://www.kaggle.com/c/walmart-recruiting-trip-type-classification Walmart Recruiting: Trip Type Classification].
 +
| слайды в рассылке
 +
|-
 +
| 18.11.2015
 +
| '''Линейные алгоритмы''' (продолжение).
 +
 
 +
'''Анализ текстов: классификация и регрессия''' - этапы работы с текстом, токенизация, стоп-слова, векторное представление документа, n-граммы, стемминг, алгоритм Портера, TF*IDF, оценки качества (точность, полнота, F-мера), классификация спама, Local and Global Consistency, этапные алгоритмы, устойчивые признаки, иерархическая классификация текстов, основные методы (Роше, kNN, SVM), приведение к шаблону, обнаружение оскорблений, распределение по топикам (задача со многими классами), блендинг алгоритмов, фонетические алгоритмы. Задачи: [[http://www.ecmlpkdd2006.org/challenge.html spam]], [[http://lib.iit.demokritos.gr/ LSHTC]], [[http://tunedit.org/challenge/JRS12Contest?m=summary JRS12]].
 +
 
 +
'''Материалы:'''
 +
* К.Д. Маннинг, П. Рагхаван, Х. Шютце [http://www.ozon.ru/context/detail/id/5497130/ «Введение в информационный поиск»] // . — Вильямс, 2011.
 +
 
 +
 
 +
Домашнее задание: сделать преодолеть порог 0.9 конкурсе [https://www.kaggle.com/c/walmart-recruiting-trip-type-classification Walmart Recruiting: Trip Type Classification].
 +
| слайды в рассылке
 +
|-
 +
| 25.11.2015
 +
| '''Анализ текстов: классификация и регрессия''' (продолжение).
 +
 
 +
 
 +
Домашнее задание: сделать преодолеть порог 0.9 конкурсе [https://www.kaggle.com/c/walmart-recruiting-trip-type-classification Walmart Recruiting: Trip Type Classification].
 +
 
 +
|-
 +
| 02.12.15
 +
| '''Категориальные признаки''': терминология, задачи, one-hot-кодировки, конъюнкции признаков, хранение в sparse-матрицах, линейные методы, байесовские алгоритмы, сингулярные разложения, методы, основанные на близости (kNN+АВО), тензорные разложения, случайные кодировки, кодировки относительно вещественных признаков, SVD-кодировки, ансамбли алгоритмов, факторизационные машины,
 +
 
 +
материалы:
 +
 
 +
* Дьяконов А. [http://istina.msu.ru/media/publications/article/972/9eb/7537819/sw-factors-dyakonov.pdf Методы решения задач классификации с категориальными признаками] // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова. — 2014. — № 46. — С. 103–127
 +
* Y. Koren, R.M. Bell, C. Volinsky Matrix Factorization Techniques for Recommender Systems // IEEE Computer 42(8): 30-37 (2009).
 +
* S. Funk [http://sifter.org/~simon/journal/20061211.html Netflix Update: Try This at Home]
 +
* [http://www.libfm.org/ LibFM]: Factorization Machine Library
 +
| слайды в рассылке
 +
 
 +
 
 +
|-
 +
| 09.12.15
 +
| '''Случайные леса''': универсальные методы анализа данных, бэггинг и бустинг, построение одного дерева, OOB(out of bag)-проверка, параметры случайного леса (random forest: mtry, nodesize, samplesize) и их настройка, рейтинг признаков (importance, %IncMSE, IncNodePurity, Boruta, ACE). Программирование случайного леса. Области устойчивости функционалов. Искусство генерации признаков: географические и временные признаки. Концепция чёрного ящика на примере GBM. Настройка параметров GBM, суммирование. Нестандартные функционалы и настройка на них. Калибровка ответов алгоритмов. Сведение задачи рекомендации к регрессии. Критерии расщепления.
 +
Разбор задач [[http://www.kaggle.com/c/see-click-predict-fix/ see-click-predict-fix]], [[http://olymp.wikimart.ru/ wikimart]].
 +
 
 +
материалы:
 +
* А. Liaw, M. Wiener [http://www.bios.unc.edu/~dzeng/BIOS740/randomforest.pdf Classification and Regression by randomForest] // R News (2002) Vol. 2/3 p. 18.
 +
* И. Генрихов [http://jmlda.org/papers/doc/2014/no8/Genrikhov2014Criteria.pdf О критериях ветвления, используемых при синтезе решающих деревьев] // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
 +
* A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21.
 +
 
 +
Домашнее задание: [https://inclass.kaggle.com/c/msuedges/ соревнование "Прогнозирование появление рёбер в графе соцсети"].
 +
За неделю преодолеть бенчмарк "Решение за 5 минут".
 +
| слайды в рассылке
 +
 
 +
 
 +
|-
 +
| 16.12.15
 +
| '''Анализ социальных сетей''': примеры соцсетей, динамические графы, приложения анализа социальных сетей, понятие сложной сети (complex network), безмасштабные сети (scale-free), модель малого мира (small world), коэффициент кластеризации (clustering coefficient), признаковые пространства для графов, формализация сходства и важности вершин, разные виды центральности (centrality).
 +
 
 +
Прогнозирование появления ребра в динамическом графе (Link Prediction Problem), коэффициенты Жаккара, Адамик/Адара, Katz, PageRank, решение задачи соревнования [http://www.kaggle.com/c/socialNetwork IJCNN Social Network Challenge], признаки для рёбер.
 +
 
 +
Выделение сообществ в графах (Community detection): переборные методы, Edge betweenness, модулярность, Multilevel, распространение меток, Walktrap, спектральная теория графов, разложения матриц графа. Задача [http://www.kaggle.com/c/learning-social-circles Learning Social Circles in Networks]: определению кругов в эго-подграфах графа социальной сети (задача, данные, редакторское расстояние),
 +
 
 +
материалы:
 +
* Л.Жуков курс Structural Analysis and Visualization of Networks в ВШЭ // http://leonidzhukov.net/hse/2015/socialnetworks/
 +
 
 +
Домашнее задание: Преодолеть бенчмарк в [https://inclass.kaggle.com/c/msuedges/ соревновании "Прогнозирование появление рёбер в графе соцсети"].
 +
|
 +
 
 +
 
 +
|-
 +
| 23.12.15
 +
| '''k ближайших соседей, настройка комбинаций алгоритмов''': Сглаживание функционалов качества при использовании весовых схем. Ограничение методов типа kNN (тренд, некорректность метрики).
 +
Примитивная настройка линейных комбинаций алгоритмов и метрик. Технология LENKOR (синтез близостей, составление комбинации близостей, настройка коэффициентов, добавление нелинейностей).
 +
Подробный разбор задачи детектирования оскорблений.
 +
Задачи [[http://www.kaggle.com/c/PhotoQualityPrediction PhotoQualityPrediction]] (определение качества фотографии по метаданным), [[http://www.kaggle.com/c/unimelb unimelb]] (предсказывание успешности выполнения гранта), [[http://tunedit.org/challenge/VLNetChallenge VLNetChallenge]] (рекомендация видеолекций для просмотра).
 +
Деформация ответов, теоремы Колмогорова, Горбаня и Пинкуса, алгебраический подход к коррекции и его правильное применение на практике.
 +
 
 +
Материалы:
 +
* Дьяконов А.Г. [http://bijournal.hse.ru/2012--1%2819%29/53535879.html Алгоритмы для рекомендательной системы: технология LENCOR] // Бизнес-Информатика, 2012, №1(19), С. 32–39.
 +
 
 +
'''Пост-троечные последовательности''': проблема обезличивания информации, построение рекомендательной системы для холодного старта в задаче [[http://tunedit.org/challenge/VLNetChallenge VLNetChallenge]] (рекомендация видеолекций для просмотра).
 +
|
 +
 
 +
|}
== Отчётность ==
== Отчётность ==
Строка 211: Строка 413:
[[Спецкурс «Прикладные задачи анализа данных» (2013 год)]]
[[Спецкурс «Прикладные задачи анализа данных» (2013 год)]]
 +
 +
[[Спецкурс «Прикладные задачи анализа данных» (2014 год)]]
== Ссылки ==
== Ссылки ==
Строка 218: Строка 422:
# Книга [http://www.ozon.ru/context/detail/id/4526400/ Шурыгин А.М. Математические методы прогнозирования] * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
# Книга [http://www.ozon.ru/context/detail/id/4526400/ Шурыгин А.М. Математические методы прогнозирования] * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
# Статья [http://bijournal.hse.ru/2014--1%20%2827%29/120486363.html Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей].
# Статья [http://bijournal.hse.ru/2014--1%20%2827%29/120486363.html Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей].
 +
# Книга [http://lib.mexmat.ru/books/9210 Ту Дж., Гонсалес Р. Принципы распознавания образов] * Уже чуть устаревшая книга. Но полистать стоит! Первая «энциклопедия по методам классификации».
 +
# [http://alexanderdyakonov.narod.ru/uptimes.pdf Прогнозирование рядов соревнования «Tourism Forecasting Part Two»] (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
 +
# Статья [http://www.springerlink.com/content/73g4kl50m6112420/ A Blending of Simple Algorithms for Topical Classification] * Описание метода классификации текстов. Содержание рассказывалось на лекции.
 +
# Книга [http://www.ozon.ru/context/detail/id/5497130/ К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск»] * Простая, но хорошая книга по основам работы с текстом (прочитать обязательно).
 +
# Статья [http://bijournal.hse.ru/2012--1%2819%29/53535879.html Алгоритмы для рекомендательной системы: технология LENCOR].
# Книга [http://alexanderdyakonov.narod.ru/intro2datamining.pdf Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4&nbsp;Мб)] * Вводная лекция, которая написана для [[Математические методы прогнозирования (кафедра ВМиК МГУ)/Просеминар|просеминара]].
# Книга [http://alexanderdyakonov.narod.ru/intro2datamining.pdf Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4&nbsp;Мб)] * Вводная лекция, которая написана для [[Математические методы прогнозирования (кафедра ВМиК МГУ)/Просеминар|просеминара]].
# [[Публикация:Дьяконов 2010 Учебное пособие ММП| Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования)]] * Глава 12 «Шаманство в анализе данных».
# [[Публикация:Дьяконов 2010 Учебное пособие ММП| Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования)]] * Глава 12 «Шаманство в анализе данных».
# [http://alexanderdyakonov.narod.ru/lpotdyakonov.pdf Научно-популярная лекция «Шаманство в анализе данных»] (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
# [http://alexanderdyakonov.narod.ru/lpotdyakonov.pdf Научно-популярная лекция «Шаманство в анализе данных»] (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
# [http://alexanderdyakonov.narod.ru/lpot4emu.pdf Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении»] * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
# [http://alexanderdyakonov.narod.ru/lpot4emu.pdf Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении»] * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
-
# [http://alexanderdyakonov.narod.ru/uptimes.pdf Прогнозирование рядов соревнования «Tourism Forecasting Part Two»] (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
+
# Дьяконов А. [http://istina.msu.ru/media/publications/article/972/9eb/7537819/sw-factors-dyakonov.pdf Методы решения задач классификации с категориальными признаками] // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова. — 2014. — № 46. — С. 103–127 * Методы работы с категориальными признаками, описанные на лекции
 +
# Y. Koren, R.M. Bell, C. Volinsky Matrix Factorization Techniques for Recommender Systems // IEEE Computer 42(8): 30-37 (2009). * Классика рекомендаций
 +
# S. Funk [http://sifter.org/~simon/journal/20061211.html Netflix Update: Try This at Home] * Пост в блоге, с которого началось повальное использование SGD в Netflix
 +
# [http://www.libfm.org/ LibFM]: Factorization Machine Library * Сайт Рендела
 +
# А. Liaw, M. Wiener [http://www.bios.unc.edu/~dzeng/BIOS740/randomforest.pdf Classification and Regression by randomForest] // R News (2002) Vol. 2/3 p. 18.
 +
# И. Генрихов [http://jmlda.org/papers/doc/2014/no8/Genrikhov2014Criteria.pdf О критериях ветвления, используемых при синтезе решающих деревьев] // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
 +
# A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21.
 +
# Л.Жуков курс Structural Analysis and Visualization of Networks в ВШЭ // http://leonidzhukov.net/hse/2015/socialnetworks/
 +
 
 +
== Аналогичные курсы ==
# [http://cs109.github.io/2014/ Data Science] * Аналогичный (по духу) гарвардский курс
# [http://cs109.github.io/2014/ Data Science] * Аналогичный (по духу) гарвардский курс
# Страница спецсеминара [[Алгебра над алгоритмами и эвристический поиск закономерностей|«Алгебра над алгоритмами и эвристический поиск закономерностей»]] * Приведены ссылки на сайты с данными реальных задач анализа данных.
# Страница спецсеминара [[Алгебра над алгоритмами и эвристический поиск закономерностей|«Алгебра над алгоритмами и эвристический поиск закономерностей»]] * Приведены ссылки на сайты с данными реальных задач анализа данных.
Строка 231: Строка 449:
Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.
Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.
-
== ДОВОДИМАЯ РАНЕЕ ИНФОРМАЦИЯ (уже не актуальна) ==
+
== РАНЕЕ ДОВОДИМАЯ ИНФОРМАЦИЯ ==
-
В сентябре 2014 года будет объявлен новый набор слушателей спецкурса.
+
 
 +
В сентябре 2015 года будет объявлен новый набор слушателей спецкурса.
Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость
Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость
Строка 240: Строка 459:
* освоить (если его не было в учебной программе) курс [[Машинное обучение (курс лекций, К.В.Воронцов)|Машинное обучение]],
* освоить (если его не было в учебной программе) курс [[Машинное обучение (курс лекций, К.В.Воронцов)|Машинное обучение]],
* выступить хотя бы в одном соревновании по анализу данных (см. ниже),
* выступить хотя бы в одном соревновании по анализу данных (см. ниже),
-
* Пройти анкетирование (или собеседование в сентябре).
+
* пройти анкетирование (или собеседование в сентябре).
Список допустимых соревнований:
Список допустимых соревнований:
-
* [http://www.kaggle.com/c/criteo-display-ad-challenge Display Advertising Challenge] '''завершён'''
+
* [https://www.kaggle.com/c/crowdflower-search-relevance/ Search Results Relevance] '''соревнование уже закрыто'''
-
* [http://www.kaggle.com/c/liberty-mutual-fire-peril Liberty Mutual Group - Fire Peril Loss Cost] '''завершён'''
+
* [https://www.kaggle.com/c/caterpillar-tube-pricing Caterpillar Tube Pricing] '''соревнование уже закрыто'''
-
* [http://www.kaggle.com/c/avito-prohibited-content The Hunt for Prohibited Content] '''завершён'''
+
* [https://www.kaggle.com/c/liberty-mutual-group-property-inspection-prediction Liberty Mutual Group: Property Inspection Prediction] '''соревнование уже закрыто'''
-
* [http://www.kaggle.com/c/higgs-boson Higgs Boson Machine Learning Challenge] '''завершён'''
+
 
-
* [http://www.kaggle.com/c/decoding-the-human-brain ecMeg2014 - Decoding the Human Brain] '''завершён'''
+
-
* [http://www.kaggle.com/c/seizure-detection Detect seizures in intracranial EEG recordings] '''завершён'''
+
-
* [http://www.kaggle.com/c/kdd-cup-2014-predicting-excitement-at-donors-choose KDD Cup 2014 - Predicting Excitement at DonorsChoose.org] '''завершён'''
+
-
* [http://www.kaggle.com/c/acquire-valued-shoppers-challenge Acquire Valued Shoppers Challenge] '''завершён'''
+
-
* [http://www.kaggle.com/c/wise-2014 Greek Media Monitoring Multilabel Classification (WISE 2014)] '''завершён'''
+
Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор!
Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор!
 +
Важно: участие в соревновании должно быть индивидуальное (в команде 1 человек), называйте команду по образцу: "Team Name (I want to PZAD)".
 +
 +
Как всегда: программа нового года будет слегка отличаться от предыдущих
 +
(добавлены новые темы, улучшено содержание).
 +
 +
Курс открыт для всех желающих, но при их большом количестве студенты/аспиранты ВМК МГУ пользуются преимуществом.
 +
 +
'''Вопросы''' можно задавать в комментариях к [https://alexanderdyakonov.wordpress.com/2015/06/15/%D0%BF%D0%B7%D0%B0%D0%B4-%D0%BD%D0%BE%D0%B2%D1%8B%D0%B9-%D0%BD%D0%B0%D0%B1%D0%BE%D1%80-2015/ этому посту].
 +
 +
'''Засчитанные ники соревнования [https://www.kaggle.com/c/crowdflower-search-relevance/ Search Results Relevance]'''
 +
* 39rus (I want to PZAD) - отличный результат
 +
* Evgeny Nekrasov (I want to PZAD) - отличный результат
 +
* Artem (I want to PZAD) - отличный результат
-
В новой версии спецкурса будет серия лекций
+
* Evgeny Eltyshev (I want to PZAD)
-
по системам Matlab и R.
+
* Denis Tsitko (I want to PZAD)
-
Кроме того, будут рассмотрены новые темы:
+
* anketer (I want to PZAD)
-
например, анализ соцсетей.
+
* Andrey Akhmetov (I want to PZAD)
 +
* cheerupdude (I want to PZAD)
 +
* kvas7andy (I want to PZAD) - формальное участие
 +
* Johny Cheescutter (I want to PZAD) - низкий результат
 +
* Nonary Rustam( I want to PZAD) - формальное участие
 +
* Pavel Blinov (I want to PZAD)
 +
* Georgy Ivanov (I want to PZAD)
 +
* HeBo (I want to PZAD)
 +
* Igor Subbotin (I want to PZAD)
 +
* Pasha Podolsky (I want to PZAD)
 +
* Maxim Kharchenko (I want to PZAD)
 +
* golovan (I want to PZAD) - слабая активность
-
'''Объявлен набор слушателей на спецкурс (5 сентября 2014 года).'''
 
-
Необходима регистрация! Для этого надо прислать на почту <tt>djakonov (собака) mail (точка) ru</tt>
 
-
'''Тема письма:''' [ПЗАД] Фамилия студента
+
'''Засчитанные ники соревнования [https://www.kaggle.com/c/liberty-mutual-group-property-inspection-prediction/leaderboard Liberty Mutual Group: Property Inspection Prediction]'''
-
'''Текст:''' в первой строке через точку с запятой указываются
+
Очень высокий результат:
-
* Фамилия Имя Отчество,
+
* Iskander (I want to PZAD)
-
* группа (вуз, если из другого вуза),
+
* Vladimir Nikolaev (I want to PZAD)
-
* в скольких соревнования на сайте Kaggle участвовали (число),
+
* VA (I want to PZAD)
-
* какие курсы по машинному обучению прослушаны,
+
Остальные результаты коррелируют с бенчмарками или хуже
-
* желаемые дни и часы (в формате ПТН, 18-00),
+
* Ilya Aleshin(I Want to PZAD)
-
* знакомые языки и системы программирования, включая программы и библиотеки для машинного обучения,
+
* dioexul (I want to PZAD)
-
* страница на Kaggle,
+
* kvas7andy (I want to PZAD) формальное участие
-
* сколько часов в неделю готовы уделять выполнению практических заданий.
+
* antklen (I want to PZAD)
 +
* Янина Анастасия (I want to PZAD) формальное участие
 +
* Denis Tsitko (I want to PZAD)
 +
* Evgeny Nekrasov (I want to PZAD)
 +
* Tilga Sergey (I want to PZAD)
 +
* Igor Subbotin (I want to PZAD)
 +
* Антон Панкратов (I want to PZAD)
 +
* Kirill Lunev (I want to PZAD)
 +
* Aleksey Pogrebnyak (I want to PZAD)
 +
* WHGP (I want to PZAD)
 +
* Evgeny Eltyshev (I want to PZAD)
 +
* Btbpanda (I want to PZAD)
 +
* dsmolyakov (I want to PZAD)
 +
* Roman K (I want to PZAD) большая активность - 103
 +
* Grigory Dymov (I want to PZAD)
 +
* 39rus (I want to PZAD)
 +
* Evgeny (I want to PZAD)
 +
* Tazhoo Deen (I want to PZAD)
 +
* Roman Khalkechev (I want to PZAD) формальное участие
 +
* Mark Winogradov (I want to PZAD) формальное участие
 +
* Taygrim(I want to PZAD) формальное участие
-
В других строчках (начиная со второй) можно по желанию дать пояснения.
+
'''Засчитанные ники соревнования [https://www.kaggle.com/c/caterpillar-tube-pricing/leaderboard Caterpillar Tube Pricing]'''
-
Пример:
+
* Kaffo (I want to PZAD) высокий результат
-
<code>Дьяконов Александр Геннадьевич; 617; 25; ММРО Воронцов; ВТ 18-00, СР 16-20; R, Matlab, Python, Weka, RapidMiner, Liblinear, VW; https://www.kaggle.com/users/3090/alexander-d-yakonov; 8</code>
+
* Sergey Tilga (I want to PZAD) высокий результат
 +
* Nikolay Mayorov (I want to PZAD) высокий результат
 +
* Andrey Akhmetov (I want to PZAD) высокий результат
 +
* Vladimir (I want to PZAD) высокий результат
 +
* Evgeny Eltyshev (I want to PZAD)
 +
* Denis Tsitko (I want to PZAD)
 +
* persiyanov (I want to PZAD)
 +
* denny_sem[I want to PZAD]
 +
* WHGP (I want to PZAD) формальное участие
 +
* Антон Панкратов (I want to PZAD)
 +
* dioexul (I want to PZAD)
 +
* Янина Анастасия (I want to PZAD) формальное участие
 +
* cheerupdude (I want to PZAD)
 +
* grapefroot(I want to PZAD) формальное участие
 +
* Maxim Kharchenko (I want to PZAD)
 +
* Tazhoo Deen (I want to PZAD)
 +
* Julia Gusak (I want to PZAD)
 +
* mondgottin (I want to PZAD) формальное участие
 +
* golovan (I want to PZAD)
 +
* Roman Khalkechev (I want to PZAD) формальное участие
 +
* kittens_gonna_kitt (I want to PZAD) формальное участие
-
'''Посещение спецкурса закрытое, число мест ограничено, регистрация скоро будет закрыта – спешите…'''
 
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]
 +
[[Категория:МГУ]]

Текущая версия

В настоящее время курс не читается.


Содержание

Аннотация

Данный курс был победителем конкурса инновационных учебных технологий.


Лектор: Дьяконов Александр

Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.

Мероприятие проходит в двух режимах:

  • спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.
  • спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.

Важно: от участников потребуется выполнение нетривиальных практических заданий!

Выпускники ПЗАДа, известные в спортивном анализе данных

2013 2014 2015
Трофимов Михаил
Рыжков Александр
Софиюк Константин
Фонарев Александр
Харациди Олег
Гущин Александр
Семёнов Станислав
Фенстер Александра
Ульянов Дмитрий
Сиверский Михаил
Шапулин Андрей
Нижибицкий Евгений
Остапец Андрей
это место вакантно

Правила

  • Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
  • Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
  • За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
  • Для аспирантов и студентов ВМК: важно вовремя делать задания (опоздания штрафуются); экзамена, как такового, не будет; штрафы могут быть исправлены только качественным выполнением последующих заданий
Участник Учёба/работа Прогноз визитов Rossmann Walmart-1 Прогноз рёбер - 1 неделя Прогноз рёбер - отчёт
Нестеров Павел Алексеевич mail.ru + + +
Татараидзе Александр Бидзинович МГТУ им. Н.Э. Баумана + + + +
Николаев Владимир Владимирович ВМК МГУ, 317 группа + + + + отлично
Авдеев Вадим Александрович Аспирантура мехмата МГУ 1 место -10 + +
Москвин Сергей Сергеевич ГУ-ВШЭ, факультет экономики 3 место -10 -10 +
Тильга Сергей Денисович Мех-мат, МГУ, 408 группа -10 + -10
Майоров Николай Александрович мехмат МГУ + ШАД 2 место -10 -10 +
Ахметов Андрей Юревич Avon + -10 +
Сазонтьев Владимир Владимирович Аспирантура ВШЭ, Cyberplat + + + +
Елтышев Евгений Николаевич МФТИ ФИВТ, ШАД -10 -5 -10 deleted
Цитко Денис Юрьевич ООО "Информикус" -10 + +
Панкратов Антон Михайлович ВМК МГУ, 417 группа -10 + + + отлично
Селютина Юлия Дмитриевна Rambler&Co + -10 -10
Полякова Нина Михайловна ВМК МГУ, 417 группа -10 + + + отлично
Субботин Игорь Анатольевич Wild Apricot + + +
Харченко Максим Александрович Lamoda group -10 + +
Нехаев Антон Вадимович АлгоМост + + +
Кузнецов Роман Леонидович ФУПМ МФТИ, ШАД -10 + +
Болкунов Дмитрий Сергеевич АлгоМост + -5 +
Гусак Юлия Валерьевна мехмат МГУ, аспирантура -10 -10 -10 deleted
Литвинов Денис Владимирович аспирант ВМК МГУ -10 + -10 -10 удовлетворительно
Мозохина Анастасия Сергеевна ВМК, ООО "Медицина. Восток-Запад" + + + + отлично
Родионов Павел Вадимович Аспирант ВМК МГУ -10 -10 + + хорошо
Воронов Михаил Сергеевич аспирант ВМК МГУ, --- -10 (нет участия) -10 -10 -10 deleted неуд

Лекции

Здесь будет выложена программа нового (2015 года) - по мере чтения курса.

Старые программы см. на страницах прошлых лет.

Число Лекция Материалы, замечания
16.09.15 Вводное занятие: цели курса, материалы, правила, участие в соревнованиях.

Разбор конкурсных задач: решение задачи [Search Results Relevance] (классическая и неклассическая задачи поиска, сравнение блоков информации, 3-граммы, настройка случайного леса, деформация ответов и решающие правила, выравнивание распределений ответов).

Домашнее задание №1: решение задачи [MSUvisits] (прогноз дня недели следующего визита клиента).

слайды в рассылке
23.09.15 Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы.: проблема оценки среднего, выбросы, разные целевые функционалы, оценка минимального контраста, среднее по Колмогорову, SMAPE-минимизация, двухэтапные алгоритмы и их настройка, пересчёт вероятности и прямая оценка, введение весовых схем, устойчивость весовых схем, ансамблирование, непараметрическое восстановление плотности, весовые схемы при оценке плотности. Задача [dunnhumby's Shopper Challenge]. Задача [пробки].

Домашнее задание №1: ещё неделя на решение, потом неделя на отчёты.

Материалы:

  1. Книга Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с. * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
  2. Статья Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77..
  3. Видео Оценка вероятности: когда к нам придёт клиент?
слайды в рассылке
30.09.15 продолжение Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы.

Разбор конкурсных задач: решение задачи [Liberty Mutual Group: Property Inspection Prediction] (настройка xgboost, ансамбль их сигмоид над xgboost, особенности в целевом признаке), решение задачи [Caterpillar Tube Pricing].

слайды в рассылке
07.10.2015 Искусство визуализации: признаки в задаче [bioresponse], выделение групп признаков, что можно увидеть в данных, оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений, результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Определение свойств признака (категориальность, группы значений и т.п.). Задачи [cause-effect-pairs], [GiveMeSomeCredit], [DarkWorlds], [Liberty].

Материалы:

  1. Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных

Новое домашнее задание: Rossmann Store Sales (Сделать за неделю свой бенчмарк - появиться в лидерборде)

14.10.2015 Искусство визуализации (продолжение).

Функции ошибки / функционалы качества: MAE, RMSE, SMAPE, MAP, MRAE, REL_MAE, PB, нормированные ошибки, несимметричные ошибки, ошибки с точностью до порога, MCE, точность (Precision), полнота, специфичность, False Positive Rate, F1-мера, AUROC, GINI, Log Loss, Hamming Loss, MAP, Discounted Cumulative Gain (DCG), Quadratic Weighted Kappa, редакторское расстояние. Матожидание ошибок. Генерация признаков с помощью функций ошибок. Confusion matrix.

Материалы:

  1. Tom Fawcett An introduction to ROC analysis // Pattern Recognition Letters Volume 27 Issue 8, 2006, P. 861-874.
  2. Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория, 2013, 79(5): 65-73.
  3. К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» // М. — Вильямс, 2011.

Домашнее задание: Rossmann Store Sales (Сделать небольшой отчёт по исследованию задачи и простым методам в ветке)

21.10.2015 Обмен опытом (решение домашних заданий)
  1. ноутбук

Домашнее задание: Rossmann Store Sales (Сделать за 3 недели отчёт в виде pdf-презентации в ветке)

28.10.2015 Функции ошибки / функционалы качества (продолжение).
11.11.2015 Минимизация ошибок: построение дерева, максимизирующего ROC AUC, получение интервальных значений целевого признака, деформация для Root Mean Square Percentage Error, оптимизация log_loss для логистической регрессии, линейной ререссии, оптимизация СКО для логистической регрессии, линейной регрессии.

Линейные алгоритмы: персептронный алгоритм, режимы обучения, концепция поощрение-наказание, концепция минимизации функционала, линейная регрессия, SGD, delta-bar-delta, хэширование признаков, регуляризация, обобщения регрессии, прогноз раскупаемости, прогноз методом kNN, прогноз линейным оператором, линейный алгоритм над SVD, признаковое прогнозирование спроса, профили товаров, сезонность, LibSVM, LibLinear. Задачи: [JRS12], [NN5], [tourism2].

материалы:

  1. Ту Дж., Гонсалес Р. Принципы распознавания образов // Издательство Мир , Мо-сква, 1978 - 412 стр.
  2. Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб)
  3. Alexander D’yakonov A Blending of Simple Algorithms for Topical Classification// Rough Sets and Current Trends in Computing, Lecture Notes in Computer Science, 2012, Volume 7413/2012, 432–438.
  4. видео Линейная регрессия: как решать матричные уравнения


Домашнее задание: сделать "интеллектуальный" сабмишн в конкурсе Walmart Recruiting: Trip Type Classification.

слайды в рассылке
18.11.2015 Линейные алгоритмы (продолжение).

Анализ текстов: классификация и регрессия - этапы работы с текстом, токенизация, стоп-слова, векторное представление документа, n-граммы, стемминг, алгоритм Портера, TF*IDF, оценки качества (точность, полнота, F-мера), классификация спама, Local and Global Consistency, этапные алгоритмы, устойчивые признаки, иерархическая классификация текстов, основные методы (Роше, kNN, SVM), приведение к шаблону, обнаружение оскорблений, распределение по топикам (задача со многими классами), блендинг алгоритмов, фонетические алгоритмы. Задачи: [spam], [LSHTC], [JRS12].

Материалы:


Домашнее задание: сделать преодолеть порог 0.9 конкурсе Walmart Recruiting: Trip Type Classification.

слайды в рассылке
25.11.2015 Анализ текстов: классификация и регрессия (продолжение).


Домашнее задание: сделать преодолеть порог 0.9 конкурсе Walmart Recruiting: Trip Type Classification.

02.12.15 Категориальные признаки: терминология, задачи, one-hot-кодировки, конъюнкции признаков, хранение в sparse-матрицах, линейные методы, байесовские алгоритмы, сингулярные разложения, методы, основанные на близости (kNN+АВО), тензорные разложения, случайные кодировки, кодировки относительно вещественных признаков, SVD-кодировки, ансамбли алгоритмов, факторизационные машины,

материалы:

слайды в рассылке


09.12.15 Случайные леса: универсальные методы анализа данных, бэггинг и бустинг, построение одного дерева, OOB(out of bag)-проверка, параметры случайного леса (random forest: mtry, nodesize, samplesize) и их настройка, рейтинг признаков (importance, %IncMSE, IncNodePurity, Boruta, ACE). Программирование случайного леса. Области устойчивости функционалов. Искусство генерации признаков: географические и временные признаки. Концепция чёрного ящика на примере GBM. Настройка параметров GBM, суммирование. Нестандартные функционалы и настройка на них. Калибровка ответов алгоритмов. Сведение задачи рекомендации к регрессии. Критерии расщепления.

Разбор задач [see-click-predict-fix], [wikimart].

материалы:

Домашнее задание: соревнование "Прогнозирование появление рёбер в графе соцсети". За неделю преодолеть бенчмарк "Решение за 5 минут".

слайды в рассылке


16.12.15 Анализ социальных сетей: примеры соцсетей, динамические графы, приложения анализа социальных сетей, понятие сложной сети (complex network), безмасштабные сети (scale-free), модель малого мира (small world), коэффициент кластеризации (clustering coefficient), признаковые пространства для графов, формализация сходства и важности вершин, разные виды центральности (centrality).

Прогнозирование появления ребра в динамическом графе (Link Prediction Problem), коэффициенты Жаккара, Адамик/Адара, Katz, PageRank, решение задачи соревнования IJCNN Social Network Challenge, признаки для рёбер.

Выделение сообществ в графах (Community detection): переборные методы, Edge betweenness, модулярность, Multilevel, распространение меток, Walktrap, спектральная теория графов, разложения матриц графа. Задача Learning Social Circles in Networks: определению кругов в эго-подграфах графа социальной сети (задача, данные, редакторское расстояние),

материалы:

Домашнее задание: Преодолеть бенчмарк в соревновании "Прогнозирование появление рёбер в графе соцсети".


23.12.15 k ближайших соседей, настройка комбинаций алгоритмов: Сглаживание функционалов качества при использовании весовых схем. Ограничение методов типа kNN (тренд, некорректность метрики).

Примитивная настройка линейных комбинаций алгоритмов и метрик. Технология LENKOR (синтез близостей, составление комбинации близостей, настройка коэффициентов, добавление нелинейностей). Подробный разбор задачи детектирования оскорблений. Задачи [PhotoQualityPrediction] (определение качества фотографии по метаданным), [unimelb] (предсказывание успешности выполнения гранта), [VLNetChallenge] (рекомендация видеолекций для просмотра). Деформация ответов, теоремы Колмогорова, Горбаня и Пинкуса, алгебраический подход к коррекции и его правильное применение на практике.

Материалы:

Пост-троечные последовательности: проблема обезличивания информации, построение рекомендательной системы для холодного старта в задаче [VLNetChallenge] (рекомендация видеолекций для просмотра).

Отчётность

  • отчёты по решению конкурсных задач (доклады с презентацией + исходники)
  • зачёт с оценкой в конце семестра

Страницы курсов прошлых лет

Спецкурс «Прикладные задачи анализа данных» (2013 год)

Спецкурс «Прикладные задачи анализа данных» (2014 год)

Ссылки

  1. Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
  2. Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных
  3. Книга Шурыгин А.М. Математические методы прогнозирования * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
  4. Статья Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей.
  5. Книга Ту Дж., Гонсалес Р. Принципы распознавания образов * Уже чуть устаревшая книга. Но полистать стоит! Первая «энциклопедия по методам классификации».
  6. Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
  7. Статья A Blending of Simple Algorithms for Topical Classification * Описание метода классификации текстов. Содержание рассказывалось на лекции.
  8. Книга К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» * Простая, но хорошая книга по основам работы с текстом (прочитать обязательно).
  9. Статья Алгоритмы для рекомендательной системы: технология LENCOR.
  10. Книга Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
  11. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
  12. Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
  13. Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
  14. Дьяконов А. Методы решения задач классификации с категориальными признаками // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова. — 2014. — № 46. — С. 103–127 * Методы работы с категориальными признаками, описанные на лекции
  15. Y. Koren, R.M. Bell, C. Volinsky Matrix Factorization Techniques for Recommender Systems // IEEE Computer 42(8): 30-37 (2009). * Классика рекомендаций
  16. S. Funk Netflix Update: Try This at Home * Пост в блоге, с которого началось повальное использование SGD в Netflix
  17. LibFM: Factorization Machine Library * Сайт Рендела
  18. А. Liaw, M. Wiener Classification and Regression by randomForest // R News (2002) Vol. 2/3 p. 18.
  19. И. Генрихов О критериях ветвления, используемых при синтезе решающих деревьев // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
  20. A. Natekin, A. Knoll Gradient boosting machines, a tutorial // Front Neurorobot. 2013; 7: 21.
  21. Л.Жуков курс Structural Analysis and Visualization of Networks в ВШЭ // http://leonidzhukov.net/hse/2015/socialnetworks/

Аналогичные курсы

  1. Data Science * Аналогичный (по духу) гарвардский курс
  2. Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей» * Приведены ссылки на сайты с данными реальных задач анализа данных.

Ещё ссылки

Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.

РАНЕЕ ДОВОДИМАЯ ИНФОРМАЦИЯ

В сентябре 2015 года будет объявлен новый набор слушателей спецкурса.

Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор.

Для участия в отборе необходимо:

  • освоить (если его не было в учебной программе) курс Машинное обучение,
  • выступить хотя бы в одном соревновании по анализу данных (см. ниже),
  • пройти анкетирование (или собеседование в сентябре).

Список допустимых соревнований:


Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор! Важно: участие в соревновании должно быть индивидуальное (в команде 1 человек), называйте команду по образцу: "Team Name (I want to PZAD)".

Как всегда: программа нового года будет слегка отличаться от предыдущих (добавлены новые темы, улучшено содержание).

Курс открыт для всех желающих, но при их большом количестве студенты/аспиранты ВМК МГУ пользуются преимуществом.

Вопросы можно задавать в комментариях к этому посту.

Засчитанные ники соревнования Search Results Relevance

  • 39rus (I want to PZAD) - отличный результат
  • Evgeny Nekrasov (I want to PZAD) - отличный результат
  • Artem (I want to PZAD) - отличный результат
  • Evgeny Eltyshev (I want to PZAD)
  • Denis Tsitko (I want to PZAD)
  • anketer (I want to PZAD)
  • Andrey Akhmetov (I want to PZAD)
  • cheerupdude (I want to PZAD)
  • kvas7andy (I want to PZAD) - формальное участие
  • Johny Cheescutter (I want to PZAD) - низкий результат
  • Nonary Rustam( I want to PZAD) - формальное участие
  • Pavel Blinov (I want to PZAD)
  • Georgy Ivanov (I want to PZAD)
  • HeBo (I want to PZAD)
  • Igor Subbotin (I want to PZAD)
  • Pasha Podolsky (I want to PZAD)
  • Maxim Kharchenko (I want to PZAD)
  • golovan (I want to PZAD) - слабая активность


Засчитанные ники соревнования Liberty Mutual Group: Property Inspection Prediction

Очень высокий результат:

  • Iskander (I want to PZAD)
  • Vladimir Nikolaev (I want to PZAD)
  • VA (I want to PZAD)

Остальные результаты коррелируют с бенчмарками или хуже

  • Ilya Aleshin(I Want to PZAD)
  • dioexul (I want to PZAD)
  • kvas7andy (I want to PZAD) формальное участие
  • antklen (I want to PZAD)
  • Янина Анастасия (I want to PZAD) формальное участие
  • Denis Tsitko (I want to PZAD)
  • Evgeny Nekrasov (I want to PZAD)
  • Tilga Sergey (I want to PZAD)
  • Igor Subbotin (I want to PZAD)
  • Антон Панкратов (I want to PZAD)
  • Kirill Lunev (I want to PZAD)
  • Aleksey Pogrebnyak (I want to PZAD)
  • WHGP (I want to PZAD)
  • Evgeny Eltyshev (I want to PZAD)
  • Btbpanda (I want to PZAD)
  • dsmolyakov (I want to PZAD)
  • Roman K (I want to PZAD) большая активность - 103
  • Grigory Dymov (I want to PZAD)
  • 39rus (I want to PZAD)
  • Evgeny (I want to PZAD)
  • Tazhoo Deen (I want to PZAD)
  • Roman Khalkechev (I want to PZAD) формальное участие
  • Mark Winogradov (I want to PZAD) формальное участие
  • Taygrim(I want to PZAD) формальное участие

Засчитанные ники соревнования Caterpillar Tube Pricing

  • Kaffo (I want to PZAD) высокий результат
  • Sergey Tilga (I want to PZAD) высокий результат
  • Nikolay Mayorov (I want to PZAD) высокий результат
  • Andrey Akhmetov (I want to PZAD) высокий результат
  • Vladimir (I want to PZAD) высокий результат
  • Evgeny Eltyshev (I want to PZAD)
  • Denis Tsitko (I want to PZAD)
  • persiyanov (I want to PZAD)
  • denny_sem[I want to PZAD]
  • WHGP (I want to PZAD) формальное участие
  • Антон Панкратов (I want to PZAD)
  • dioexul (I want to PZAD)
  • Янина Анастасия (I want to PZAD) формальное участие
  • cheerupdude (I want to PZAD)
  • grapefroot(I want to PZAD) формальное участие
  • Maxim Kharchenko (I want to PZAD)
  • Tazhoo Deen (I want to PZAD)
  • Julia Gusak (I want to PZAD)
  • mondgottin (I want to PZAD) формальное участие
  • golovan (I want to PZAD)
  • Roman Khalkechev (I want to PZAD) формальное участие
  • kittens_gonna_kitt (I want to PZAD) формальное участие
Личные инструменты