Спецкурс «Прикладные задачи анализа данных»

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Слушатели)
Строка 28: Строка 28:
Важно: от участников потребуется выполнение нетривиальных практических заданий!
Важно: от участников потребуется выполнение нетривиальных практических заданий!
-
== Слушатели ==
+
== Правила ==
-
{{notice|
+
* Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
-
Рассылки материалов делаются только зарегистрированным пользователям, которые перечислены в таблице (см. ниже).
+
* Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
-
Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
+
-
За каждое задание можно получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
+
-
 
+
-
Условные обозначения:
+
-
 
+
-
'''LB''' - есть в таблице конкурса (при конкурсном задании),
+
-
'''LB-k''' - занято высокое k-е место (среди слушателей спецкурса),
+
-
'''+r''' - сдан отчёт,
+
-
'''{-n}''' - n штрафных баллов,
+
-
'''Deleted''' - слушатель «удалён».
+
-
 
+
-
}}
+
-
 
+
-
{| class="wikitable"
+
-
|-
+
-
! ФИО
+
-
! регистрация
+
-
! задание 1
+
-
(kaggle)
+
-
! задание 2
+
-
(venture)
+
-
! задание 3
+
-
(kaggle)
+
-
! задание 4
+
-
(wikimart)
+
-
! задание 5
+
-
(game)
+
-
! штраф(сумма на 26.10)
+
-
|-
+
-
| Рыжков Александр Михайлович
+
-
| 417
+
-
| LB+r
+
-
| +r
+
-
| LB+r
+
-
| LB
+
-
| +-+00
+
-
| 0 '''отлично'''
+
-
|-
+
-
| Харациди Олег
+
-
| 417
+
-
| LB+r
+
-
| +r
+
-
| LB+r
+
-
| LB
+
-
| --+00
+
-
| 0 '''отлично'''
+
-
|-
+
-
| Шаповалов Никита Анатольевич
+
-
| 201
+
-
| LB+r
+
-
| {-10}
+
-
| LB {-7}
+
-
| {-7}
+
-
| 00000
+
-
| -24
+
-
|-
+
-
| Адимов Арсений Владимирович
+
-
| 205
+
-
| LB+r
+
-
| {-10}
+
-
| LB {-7}
+
-
| {-7}
+
-
| 00000
+
-
| -24
+
-
|-
+
-
| Рысьмятова Анастасия Александровна
+
-
| 214
+
-
| LB+r
+
-
| +r
+
-
| LB+r
+
-
| LB
+
-
| -+000
+
-
| 0 '''отлично'''
+
-
|-
+
-
| Тавыриков Юрий Евгеньевич
+
-
| 205
+
-
| LB-2+r
+
-
| +r
+
-
| LB+r
+
-
| LB
+
-
| 00000
+
-
| 0
+
-
|-
+
-
| Трофимов Михаил Игоревич
+
-
| МФТИ4
+
-
| LB+r
+
-
| {-10}
+
-
| LB-3+r
+
-
| LB-2
+
-
| 00000
+
-
| -10
+
-
|-
+
-
| Шадриков Андрей
+
-
| 417
+
-
| LB+r
+
-
| +r
+
-
| {-10}
+
-
| LB
+
-
| 00000
+
-
| -10
+
-
|-
+
-
| Кудрявцев Георгий Алексеевич
+
-
| 206
+
-
| LB-1+r
+
-
| +r
+
-
| LB-2+r
+
-
| LB-3
+
-
| ++000
+
-
| 0 отлично
+
-
|-
+
-
| Софиюк Константин Сергеевич
+
-
| 206
+
-
| LB+r
+
-
| +r
+
-
| LB-1+r
+
-
| LB-1
+
-
| ++++0
+
-
| 0 отлично
+
-
|-
+
-
| Долганов Станислав Викторович
+
-
| 206
+
-
| LB+r
+
-
| +r
+
-
| LB+r
+
-
| {-7}
+
-
| 00000
+
-
| -7
+
-
|-
+
-
| Тихонов Глеб Николаевич
+
-
| 513
+
-
| LB+r
+
-
| +r
+
-
| LB+r
+
-
| {-7}
+
-
| +++++
+
-
| -7 '''отлично'''
+
-
|-
+
-
| Купляков Денис
+
-
| 203
+
-
| LB+r
+
-
| +r
+
-
| LB+r
+
-
| {-7}
+
-
| 00000
+
-
| -7
+
-
|-
+
-
| Шабашев Фёдор Маркович
+
-
| 417
+
-
| LB+r
+
-
| {-7} (п.з.)
+
-
| {-7}+r
+
-
| {-7}
+
-
| +++++
+
-
| -21 удовлетворительно
+
-
|-
+
-
| Ломов Никита
+
-
| 417
+
-
| LB+r
+
-
| +r
+
-
| LB {-7}
+
-
| {-7}
+
-
| +++00
+
-
| -14 '''хорошо'''
+
-
|-
+
-
| Алёшин Илья
+
-
| 417
+
-
| LB+r
+
-
| +r {-1}
+
-
| LB+r
+
-
| LB
+
-
| ++000
+
-
| -1 '''отлично'''
+
-
|-
+
-
| Славнов Константин Анатольевич
+
-
| 317
+
-
| LB+r
+
-
| +r
+
-
| {-7}+r
+
-
| {-7}
+
-
| +нннн
+
-
| -22 удовлетворительно
+
-
|-
+
-
| Шевцова (Подлевских) Алена
+
-
| ВМКвып
+
-
| LB+r
+
-
| {-10}
+
-
| LB {-7}
+
-
| {-7}
+
-
| 00000
+
-
| -24
+
-
|-
+
-
| Гавриков Михаил Игоревич
+
-
| 517
+
-
| +r {-6}
+
-
| +r
+
-
| LB {-7}
+
-
| {-7}
+
-
| ++++0
+
-
| -20 '''удовлетворительно'''
+
-
|-
+
-
| Фонарев Александр Юрьевич
+
-
| 517
+
-
| +r {-3}
+
-
| +r
+
-
| LB {-7}
+
-
| {-7}
+
-
| ннннн
+
-
| -27 '''удовлетворительно'''
+
-
|-
+
-
| Дорофеев Николай Юрьевич
+
-
| Яндекс
+
-
| {-10}
+
-
| {-10}
+
-
| LB {-7}
+
-
| {-7}
+
-
| 00000
+
-
| -34
+
-
|-
+
-
| Игнатов Алексей Николаевич
+
-
| 416
+
-
| +r {-3}
+
-
| {-10}
+
-
| Deleted(03.12)
+
-
|
+
-
| Deleted
+
-
|-
+
-
| Ромов Петр Алексеевич
+
-
| 517
+
-
| {-10}
+
-
| {-10}
+
-
| Deleted(20.11)
+
-
|
+
-
| Deleted
+
-
|-
+
-
| Файзи Вахиб
+
-
| маг
+
-
| LB+r
+
-
|
+
-
| Deleted(30.10)
+
-
|
+
-
| Deleted
+
-
|-
+
-
| Кульпинов Владимир Константинович
+
-
| 202
+
-
| LB {-3}
+
-
| Deleted(30.10)
+
-
|
+
-
|
+
-
| Deleted
+
-
|-
+
-
| Бырдин Александр Владимирович
+
-
| МФТИ4
+
-
| LB-3 {-3}
+
-
| Deleted(30.10)
+
-
|
+
-
|
+
-
| Deleted
+
-
|-
+
-
| Зак Евгений
+
-
| 517
+
-
| LB {-3}
+
-
| Deleted(30.10)
+
-
|
+
-
|
+
-
| Deleted
+
-
|}
+
==Лекции==
==Лекции==

Версия 15:45, 23 мая 2014

Содержание

Объявление

Данный курс стал победителем конкурса инновационных учебных технологий.


Спецкурс начал работу 16 сентября (понедельник) в 16:20 (5я пара).

Лектор: Дьяконов Александр



Важно! Для участия в спецкурсе необходимо было зарегистрироваться.

Сейчас регистрация уже закрыта.

Желающие прослушать спецкурс могут дождаться следующего года.


Страницы курсов прошлых лет

Спецкурс «Прикладные задачи анализа данных» (2013 год)

Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.

Мероприятие проходит в двух режимах:

  • спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R) и т.п.
  • спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.

Важно: от участников потребуется выполнение нетривиальных практических заданий!

Правила

  • Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
  • Слушатели, которые перестают делать домашние задания, удаляются из таблицы.

Лекции

Число Лекция Материалы, замечания
16.09.13 Решение задачи [The Big Data Combine Engineered by BattleFin] - прогноз цены на основе многомерного ряда и анонимизированных признаков. Загрузка данных, простые модели, линейная регрессия и случайный лес, сравнение R и MATLAB. Домашнее задание: решить задачу (отчёт). Материалы см. в [ветке форума] соревнования.
07.10.13 Разбор первого домашнего задания. Искусство визуализации данных: признаки в задаче [bioresponse], оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений Слайды и материалы высланы по почте участникам.
14.10.13 Продолжение Искусство визуализации данных: Результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [cause-effect-pairs], [GiveMeSomeCredit], [DarkWorlds]. Как начать решать второе домашнее задание. Слайды и материалы высланы по почте участникам.
21.10.13 Вторая задача: мозговой штурм. Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. Задача [dunnhumby]. Слайды и материалы высланы по почте участникам.
28.10.13 Продолжение Оценка плотности. Весовые схемы. Задача [пробки]. Слайды и материалы высланы по почте участникам.
04.11.13 Праздничный день.
11.11.13 Напоминание: линейные классификаторы и линейная регрессия. Задачи: [JRS12], [NN5], [tourism2]. Мозговой штурм по задаче [see-click-predict-fix]. Слайды и материалы высланы по почте участникам.
18.11.13 Анализ текста: классификация и регрессия. Задачи: [spam]. Ежегодное соревнование [LSHTC]. Слайды и материалы высланы по почте участникам.
25.11.13 Продолжение: Анализ текста: классификация и регрессия. Задачи: [JRS12]. Слайды и материалы высланы по почте участникам.
02.12.13 Случайные леса: программирование, настройка, использование. Построение отдельных деревьев. Параметры стандартных пакетов. Области устойчивости функционалов. Способы генерации новых признаков. Разбор задачи [see-click-predict-fix]. Новая задача [wikimart]. Слайды и материалы высланы по почте участникам.
09.12.13 Продолжение: Случайные леса. Параметры градиентного бустинга. Настройка на нестандартные функционалы. Простые решения задач скоринга. Калибровка ответов алгоритмов. Сведение задач рекомендации к задачам регрессии. Задачи [bioresponse], [WhatDoYouKnow] (предсказывание правильности ответов на вопросы тестов). Слайды и материалы высланы по почте участникам.
16.12.13 Весовые схемы kNN. Примитивные способы настройки линейных комбинаций алгоритмов на нестандартные функционалы качества. Эффективная технология решения задач с разнородными данными и нестандартными функционалами качества. Задачи [PhotoQualityPrediction] (определение качества фотографии по метаданным), [unimelb] (предсказывание успешности выполнения гранта), [VLNetChallenge] (рекомендация видеолекций для просмотра).
Самостоятельное решение прикладных задач на [Кэгле].
17.03.14 Решение задач с категориальными (номинальными, факторными) признаками. Стандартные кодировки признаков, кодировки через факторные признпки (новые методы). Обобщения байесовских алгоритмов. Линейные алгоритмы над разреженными матрицами. SVD-разложение разреженных матриц. Многомерное SVD-разложение (тензоров). Обобщение алгоритмов, основанных на вычислении близости (kNN+АВО). Задача [Аmazon employee access] (разработка рекомендательной системы для службы безопасности). Лекция выслана по почте участникам.

Аннотация

2do

Автор программы: Дьяконов Александр Геннадьевич

Отчётность

  • отчёты по решению конкурсных задач (доклады с презентацией + исходники)
  • зачёт с оценкой в конце семестра

Ссылки

Вводная лекция, которая написана для просеминара.

Глава 12 «Шаманство в анализе данных».

Переработка предыдущего источника в научно-популярную лекцию.

Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.

Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.

Приведены ссылки на сайты с данными реальных задач анализа данных.

Ещё ссылки

Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.