Спецкурс «Прикладные задачи анализа данных»

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Слушатели)
(Слушатели)
Строка 42: Строка 42:
! ФИО
! ФИО
! рег
! рег
-
! задание 1
+
! задание 1 (kaggle)
-
! задание 2 (в проверке)
+
! задание 2 (venture)
-
! задание 3
+
! задание 3 (kaggle)
 +
! задание 4 (wikimart)
! штраф(сумма на 26.10)
! штраф(сумма на 26.10)
|-
|-
Строка 52: Строка 53:
| +r
| +r
| LB+r
| LB+r
 +
| ?
| 0
| 0
|-
|-
Строка 59: Строка 61:
| +r
| +r
| LB+r
| LB+r
 +
| LB
| 0
| 0
|-
|-
Строка 66: Строка 69:
| {-10}
| {-10}
| LB {-7}
| LB {-7}
 +
| ?
| -17
| -17
|-
|-
Строка 73: Строка 77:
| {-10}
| {-10}
| LB {-7}
| LB {-7}
 +
| ?
| -17
| -17
|-
|-
Строка 80: Строка 85:
| +r
| +r
| LB+r
| LB+r
 +
| LB
| 0
| 0
|-
|-
Строка 87: Строка 93:
| +r
| +r
| LB+r
| LB+r
 +
| LB
| 0
| 0
|-
|-
Строка 94: Строка 101:
| {-10}
| {-10}
| LB-3+r
| LB-3+r
 +
| LB-2
| -10
| -10
|-
|-
Строка 101: Строка 109:
| +r
| +r
| {-10}
| {-10}
 +
| ?
| -10
| -10
|-
|-
Строка 108: Строка 117:
| +r
| +r
| LB-2+r
| LB-2+r
 +
| LB-3
| 0
| 0
|-
|-
Строка 115: Строка 125:
| +r
| +r
| LB-1+r
| LB-1+r
 +
| LB-1
| 0
| 0
|-
|-
Строка 129: Строка 140:
| +r
| +r
| LB+r
| LB+r
 +
| ?
| 0
| 0
|-
|-
Строка 136: Строка 148:
| +r
| +r
| LB+r
| LB+r
 +
| ?
| 0
| 0
|-
|-
Строка 144: Строка 157:
| {-7}+r
| {-7}+r
| -14
| -14
 +
| ?
|-
|-
| Ломов Никита
| Ломов Никита
Строка 151: Строка 165:
| LB {-7}
| LB {-7}
| -7
| -7
 +
| ?
|-
|-
| Алёшин Илья
| Алёшин Илья
Строка 157: Строка 172:
| +r {-1}
| +r {-1}
| LB+r
| LB+r
 +
| LB
| -1
| -1
|-
|-
Строка 164: Строка 180:
| +r
| +r
| {-7}+r
| {-7}+r
 +
| ?
| -7
| -7
|-
|-
Строка 171: Строка 188:
| {-10}
| {-10}
| LB {-7}
| LB {-7}
 +
| ?
| -17
| -17
|-
|-
Строка 178: Строка 196:
| +r
| +r
| LB {-7}
| LB {-7}
 +
| ?
| -13
| -13
|-
|-
Строка 185: Строка 204:
| +r
| +r
| LB {-7}
| LB {-7}
 +
| ?
| -10
| -10
|-
|-
Строка 192: Строка 212:
| {-10}
| {-10}
| LB {-7}
| LB {-7}
 +
| ?
| -27
| -27
|-
|-
Строка 199: Строка 220:
| {-10}
| {-10}
| Deleted(03.12)
| Deleted(03.12)
 +
|
| Deleted
| Deleted
|-
|-
Строка 206: Строка 228:
| {-10}
| {-10}
| Deleted(20.11)
| Deleted(20.11)
 +
|
| Deleted
| Deleted
|-
|-
Строка 211: Строка 234:
| маг
| маг
| LB+r
| LB+r
 +
|
| Deleted(30.10)
| Deleted(30.10)
|
|
Строка 220: Строка 244:
| Deleted(30.10)
| Deleted(30.10)
|
|
 +
|
| Deleted
| Deleted
|-
|-
Строка 227: Строка 252:
| Deleted(30.10)
| Deleted(30.10)
|
|
 +
|
| Deleted
| Deleted
|-
|-
Строка 234: Строка 260:
| Deleted(30.10)
| Deleted(30.10)
|
|
 +
|
| Deleted
| Deleted
|}
|}

Версия 20:08, 6 декабря 2013

Содержание

Объявление

Спецкурс начал работу 16 сентября (понедельник) в 16:20 (5я пара).

Лектор: Дьяконов Александр



Важно! Для участия в спецкурсе необходимо было зарегистрироваться.

Сейчас регистрация уже закрыта.

Желающие прослушать спецкурс могут дождаться следующего года.


Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.

Мероприятие проходит в двух режимах:

  • спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R) и т.п.
  • спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.

Важно: от участников потребуется выполнение нетривиальных практических заданий!

Слушатели

Рассылки материалов делаются только зарегистрированным пользователям, которые перечислены в таблице (см. ниже).

Слушатели, которые перестают делать домашние задания, удаляются из таблицы. За каждое задание можно получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.

Условные обозначения:

LB - есть в таблице конкурса (при конкурсном задании), LB-k - занято высокое k-е место (среди слушателей спецкурса), +r - сдан отчёт, {-n} - n штрафных баллов, Deleted - слушатель «удалён».


ФИО рег задание 1 (kaggle) задание 2 (venture) задание 3 (kaggle) задание 4 (wikimart) штраф(сумма на 26.10)
Рыжков Александр Михайлович 417 LB+r +r LB+r  ? 0
Харациди Олег 417 LB+r +r LB+r LB 0
Шаповалов Никита Анатольевич 201 LB+r {-10} LB {-7}  ? -17
Адимов Арсений Владимирович 205 LB+r {-10} LB {-7}  ? -17
Рысьмятова Анастасия Александровна 214 LB+r +r LB+r LB 0
Тавыриков Юрий Евгеньевич 205 LB-2+r +r LB+r LB 0
Трофимов Михаил Игоревич МФТИ4 LB+r {-10} LB-3+r LB-2 -10
Шадриков Андрей 417 LB+r +r {-10}  ? -10
Кудрявцев Георгий Алексеевич 206 LB-1+r +r LB-2+r LB-3 0
Софиюк Константин Сергеевич 206 LB+r +r LB-1+r LB-1 0
Долганов Станислав Викторович 206 LB+r +r LB+r 0
Тихонов Глеб Николаевич 513 LB+r +r LB+r  ? 0
Купляков Денис 203 LB+r +r LB+r  ? 0
Шабашев Фёдор Маркович 417 LB+r {-7} (п.з.) {-7}+r -14  ?
Ломов Никита 417 LB+r +r LB {-7} -7  ?
Алёшин Илья 417 LB+r +r {-1} LB+r LB -1
Славнов Константин Анатольевич 317 LB+r +r {-7}+r  ? -7
Шевцова (Подлевских) Алена ВМКвып LB+r {-10} LB {-7}  ? -17
Гавриков Михаил Игоревич 517 +r {-6} +r LB {-7}  ? -13
Фонарев Александр Юрьевич 517 +r {-3} +r LB {-7}  ? -10
Дорофеев Николай Юрьевич Яндекс {-10} {-10} LB {-7}  ? -27
Игнатов Алексей Николаевич 416 +r {-3} {-10} Deleted(03.12) Deleted
Ромов Петр Алексеевич 517 {-10} {-10} Deleted(20.11) Deleted
Файзи Вахиб маг LB+r Deleted(30.10) Deleted
Кульпинов Владимир Константинович 202 LB {-3} Deleted(30.10) Deleted
Бырдин Александр Владимирович МФТИ4 LB-3 {-3} Deleted(30.10) Deleted
Зак Евгений 517 LB {-3} Deleted(30.10) Deleted

Лекции

Число Лекция Материалы, замечания
16.09.13 Решение задачи [The Big Data Combine Engineered by BattleFin] - прогноз цены на основе многомерного ряда и анонимизированных признаков. Загрузка данных, простые модели, линейная регрессия и случайный лес, сравнение R и MATLAB. Домашнее задание: решить задачу (отчёт). Материалы см. в [ветке форума] соревнования.
07.10.13 Разбор первого домашнего задания. Искусство визуализации данных: признаки в задаче [bioresponse], оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений Слайды и материалы высланы по почте участникам.
14.10.13 Продолжение Искусство визуализации данных: Результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [cause-effect-pairs], [GiveMeSomeCredit], [DarkWorlds]. Как начать решать второе домашнее задание. Слайды и материалы высланы по почте участникам.
21.10.13 Вторая задача: мозговой штурм. Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. Задача [dunnhumby]. Слайды и материалы высланы по почте участникам.
28.10.13 Продолжение Оценка плотности. Весовые схемы. Задача [пробки]. Слайды и материалы высланы по почте участникам.
04.11.13 Праздничный день.
11.11.13 Напоминание: линейные классификаторы и линейная регрессия. Задачи: [JRS12], [NN5], [tourism2]. Мозговой штурм по задаче [see-click-predict-fix]. Слайды и материалы высланы по почте участникам.
18.11.13 Анализ текста: классификация и регрессия. Задачи: [spam]. Ежегодное соревнование [LSHTC]. Слайды и материалы высланы по почте участникам.
25.11.13 Продолжение: Анализ текста: классификация и регрессия. Задачи: [JRS12]. Слайды и материалы высланы по почте участникам.
02.12.13 Случайные леса: программирование, настройка, использование. Разбор задачи [see-click-predict-fix]. Новая задача [wikimart].

Аннотация

2do

Автор программы: Дьяконов Александр Геннадьевич

Отчётность

  • отчёты по решению конкурсных задач (доклады с презентацией + исходники)
  • зачёт с оценкой в конце семестра

Ссылки

Вводная лекция, которая написана для просеминара.

Глава 12 «Шаманство в анализе данных».

Переработка предыдущего источника в научно-популярную лекцию.

Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.

Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.

Приведены ссылки на сайты с данными реальных задач анализа данных.

Ещё ссылки

Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.