Спецкурс «Прикладные задачи анализа данных» (2013 год)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: == Слушатели == {{notice| За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов ...)
Строка 266: Строка 266:
|
|
| Deleted
| Deleted
 +
|}
 +
 +
==Лекции==
 +
{| class="wikitable"
 +
|-
 +
! Число
 +
! Лекция
 +
! Материалы, замечания
 +
|-
 +
| 16.09.13
 +
| '''Решение задачи [[http://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge The Big Data Combine Engineered by BattleFin]] - прогноз цены на основе многомерного ряда и анонимизированных признаков. Загрузка данных, простые модели, линейная регрессия и случайный лес, сравнение R и MATLAB.'''
 +
| Домашнее задание: решить задачу (отчёт). Материалы см. в [[https://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge/forums/t/5775/codes-my-submissions-from-my-lecture ветке форума]] соревнования.
 +
|-
 +
| 07.10.13
 +
| Разбор первого домашнего задания. '''Искусство визуализации данных: признаки в задаче [[http://www.kaggle.com/c/bioresponse bioresponse]], оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений'''
 +
| Слайды и материалы высланы по почте участникам.
 +
|-
 +
| 14.10.13
 +
| Продолжение '''Искусство визуализации данных: Результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [[http://www.kaggle.com/c/cause-effect-pairs cause-effect-pairs]], [[http://www.kaggle.com/c/GiveMeSomeCredit GiveMeSomeCredit]], [[http://www.kaggle.com/c/DarkWorlds DarkWorlds]].''' Как начать решать второе домашнее задание.
 +
| Слайды и материалы высланы по почте участникам.
 +
|-
 +
| 21.10.13
 +
| Вторая задача: мозговой штурм. '''Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. Задача [[http://www.kaggle.com/c/dunnhumbychallenge dunnhumby]].'''
 +
| Слайды и материалы высланы по почте участникам.
 +
|-
 +
| 28.10.13
 +
| Продолжение '''Оценка плотности. Весовые схемы. Задача [[http://imat2010.yandex.ru/datasets пробки]].'''
 +
| Слайды и материалы высланы по почте участникам.
 +
|-
 +
| 04.11.13
 +
| {{Важно|Праздничный день.}}
 +
|
 +
|-
 +
| 11.11.13
 +
| Напоминание: '''линейные классификаторы и линейная регрессия. Задачи: [[http://tunedit.org/challenge/JRS12Contest?m=summary JRS12]], [[http://www.neural-forecasting-competition.com/NN5/results.htm NN5]], [[http://www.kaggle.com/c/tourism2 tourism2]]'''. Мозговой штурм по задаче [[http://www.kaggle.com/c/see-click-predict-fix/ see-click-predict-fix]].
 +
| Слайды и материалы высланы по почте участникам.
 +
|-
 +
| 18.11.13
 +
| '''Анализ текста: классификация и регрессия.''' Задачи: [[http://www.ecmlpkdd2006.org/challenge.html spam]]. Ежегодное соревнование [[http://lib.iit.demokritos.gr/ LSHTC]].
 +
| Слайды и материалы высланы по почте участникам.
 +
|-
 +
| 25.11.13
 +
| Продолжение: '''Анализ текста: классификация и регрессия.''' Задачи: [[http://tunedit.org/challenge/JRS12Contest?m=summary JRS12]].
 +
| Слайды и материалы высланы по почте участникам.
 +
|-
 +
| 02.12.13
 +
| '''Случайные леса: программирование, настройка, использование. Построение отдельных деревьев. Параметры стандартных пакетов. Области устойчивости функционалов. Способы генерации новых признаков.''' Разбор задачи [[http://www.kaggle.com/c/see-click-predict-fix/ see-click-predict-fix]]. Новая задача [[http://olymp.wikimart.ru/ wikimart]].
 +
| Слайды и материалы высланы по почте участникам.
 +
|-
 +
| 09.12.13
 +
| Продолжение: '''Случайные леса. Параметры градиентного бустинга. Настройка на нестандартные функционалы. Простые решения задач скоринга. Калибровка ответов алгоритмов. Сведение задач рекомендации к задачам регрессии.''' Задачи [[http://www.kaggle.com/c/bioresponse bioresponse]], [[http://www.kaggle.com/c/WhatDoYouKnow WhatDoYouKnow]] (предсказывание правильности ответов на вопросы тестов).
 +
| Слайды и материалы высланы по почте участникам.
 +
|-
 +
| 16.12.13
 +
| '''Весовые схемы kNN. Примитивные способы настройки линейных комбинаций алгоритмов на нестандартные функционалы качества. Эффективная технология решения задач с разнородными данными и нестандартными функционалами качества.''' Задачи [[http://www.kaggle.com/c/PhotoQualityPrediction PhotoQualityPrediction]] (определение качества фотографии по метаданным), [[http://www.kaggle.com/c/unimelb unimelb]] (предсказывание успешности выполнения гранта), [[http://tunedit.org/challenge/VLNetChallenge VLNetChallenge]] (рекомендация видеолекций для просмотра).
 +
|
 +
|-
 +
|
 +
| {{Важно|Самостоятельное решение прикладных задач на [[http://www.kaggle.com/competitions Кэгле]].}}
 +
|
 +
|-
 +
| 17.03.14
 +
| '''Решение задач с категориальными (номинальными, факторными) признаками.''' Стандартные кодировки признаков, кодировки через факторные признпки (новые методы). Обобщения байесовских алгоритмов. Линейные алгоритмы над разреженными матрицами. SVD-разложение разреженных матриц. Многомерное SVD-разложение (тензоров). Обобщение алгоритмов, основанных на вычислении близости (kNN+АВО). Задача [[http://www.kaggle.com/c/amazon-employee-access-challenge Аmazon employee access]] (разработка рекомендательной системы для службы безопасности).
 +
| Лекция выслана по почте участникам.
|}
|}

Версия 15:46, 23 мая 2014

Слушатели

За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.

Условные обозначения:

LB - есть в таблице конкурса (при конкурсном задании), LB-k - занято высокое k-е место (среди слушателей спецкурса), +r - сдан отчёт, {-n} - n штрафных баллов, Deleted - слушатель «удалён».


ФИО регистрация задание 1

(kaggle)

задание 2

(venture)

задание 3

(kaggle)

задание 4

(wikimart)

задание 5

(game)

штраф(сумма на 26.10)
Рыжков Александр Михайлович 417 LB+r +r LB+r LB +-+00 0 отлично
Харациди Олег 417 LB+r +r LB+r LB --+00 0 отлично
Шаповалов Никита Анатольевич 201 LB+r {-10} LB {-7} {-7} 00000 -24
Адимов Арсений Владимирович 205 LB+r {-10} LB {-7} {-7} 00000 -24
Рысьмятова Анастасия Александровна 214 LB+r +r LB+r LB -+000 0 отлично
Тавыриков Юрий Евгеньевич 205 LB-2+r +r LB+r LB 00000 0
Трофимов Михаил Игоревич МФТИ4 LB+r {-10} LB-3+r LB-2 00000 -10
Шадриков Андрей 417 LB+r +r {-10} LB 00000 -10
Кудрявцев Георгий Алексеевич 206 LB-1+r +r LB-2+r LB-3 ++000 0 отлично
Софиюк Константин Сергеевич 206 LB+r +r LB-1+r LB-1 ++++0 0 отлично
Долганов Станислав Викторович 206 LB+r +r LB+r {-7} 00000 -7
Тихонов Глеб Николаевич 513 LB+r +r LB+r {-7} +++++ -7 отлично
Купляков Денис 203 LB+r +r LB+r {-7} 00000 -7
Шабашев Фёдор Маркович 417 LB+r {-7} (п.з.) {-7}+r {-7} +++++ -21 удовлетворительно
Ломов Никита 417 LB+r +r LB {-7} {-7} +++00 -14 хорошо
Алёшин Илья 417 LB+r +r {-1} LB+r LB ++000 -1 отлично
Славнов Константин Анатольевич 317 LB+r +r {-7}+r {-7} +нннн -22 удовлетворительно
Шевцова (Подлевских) Алена ВМКвып LB+r {-10} LB {-7} {-7} 00000 -24
Гавриков Михаил Игоревич 517 +r {-6} +r LB {-7} {-7} ++++0 -20 удовлетворительно
Фонарев Александр Юрьевич 517 +r {-3} +r LB {-7} {-7} ннннн -27 удовлетворительно
Дорофеев Николай Юрьевич Яндекс {-10} {-10} LB {-7} {-7} 00000 -34
Игнатов Алексей Николаевич 416 +r {-3} {-10} Deleted(03.12) Deleted
Ромов Петр Алексеевич 517 {-10} {-10} Deleted(20.11) Deleted
Файзи Вахиб маг LB+r Deleted(30.10) Deleted
Кульпинов Владимир Константинович 202 LB {-3} Deleted(30.10) Deleted
Бырдин Александр Владимирович МФТИ4 LB-3 {-3} Deleted(30.10) Deleted
Зак Евгений 517 LB {-3} Deleted(30.10) Deleted

Лекции

Число Лекция Материалы, замечания
16.09.13 Решение задачи [The Big Data Combine Engineered by BattleFin] - прогноз цены на основе многомерного ряда и анонимизированных признаков. Загрузка данных, простые модели, линейная регрессия и случайный лес, сравнение R и MATLAB. Домашнее задание: решить задачу (отчёт). Материалы см. в [ветке форума] соревнования.
07.10.13 Разбор первого домашнего задания. Искусство визуализации данных: признаки в задаче [bioresponse], оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений Слайды и материалы высланы по почте участникам.
14.10.13 Продолжение Искусство визуализации данных: Результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [cause-effect-pairs], [GiveMeSomeCredit], [DarkWorlds]. Как начать решать второе домашнее задание. Слайды и материалы высланы по почте участникам.
21.10.13 Вторая задача: мозговой штурм. Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. Задача [dunnhumby]. Слайды и материалы высланы по почте участникам.
28.10.13 Продолжение Оценка плотности. Весовые схемы. Задача [пробки]. Слайды и материалы высланы по почте участникам.
04.11.13 Праздничный день.
11.11.13 Напоминание: линейные классификаторы и линейная регрессия. Задачи: [JRS12], [NN5], [tourism2]. Мозговой штурм по задаче [see-click-predict-fix]. Слайды и материалы высланы по почте участникам.
18.11.13 Анализ текста: классификация и регрессия. Задачи: [spam]. Ежегодное соревнование [LSHTC]. Слайды и материалы высланы по почте участникам.
25.11.13 Продолжение: Анализ текста: классификация и регрессия. Задачи: [JRS12]. Слайды и материалы высланы по почте участникам.
02.12.13 Случайные леса: программирование, настройка, использование. Построение отдельных деревьев. Параметры стандартных пакетов. Области устойчивости функционалов. Способы генерации новых признаков. Разбор задачи [see-click-predict-fix]. Новая задача [wikimart]. Слайды и материалы высланы по почте участникам.
09.12.13 Продолжение: Случайные леса. Параметры градиентного бустинга. Настройка на нестандартные функционалы. Простые решения задач скоринга. Калибровка ответов алгоритмов. Сведение задач рекомендации к задачам регрессии. Задачи [bioresponse], [WhatDoYouKnow] (предсказывание правильности ответов на вопросы тестов). Слайды и материалы высланы по почте участникам.
16.12.13 Весовые схемы kNN. Примитивные способы настройки линейных комбинаций алгоритмов на нестандартные функционалы качества. Эффективная технология решения задач с разнородными данными и нестандартными функционалами качества. Задачи [PhotoQualityPrediction] (определение качества фотографии по метаданным), [unimelb] (предсказывание успешности выполнения гранта), [VLNetChallenge] (рекомендация видеолекций для просмотра).
Самостоятельное решение прикладных задач на [Кэгле].
17.03.14 Решение задач с категориальными (номинальными, факторными) признаками. Стандартные кодировки признаков, кодировки через факторные признпки (новые методы). Обобщения байесовских алгоритмов. Линейные алгоритмы над разреженными матрицами. SVD-разложение разреженных матриц. Многомерное SVD-разложение (тензоров). Обобщение алгоритмов, основанных на вычислении близости (kNN+АВО). Задача [Аmazon employee access] (разработка рекомендательной системы для службы безопасности). Лекция выслана по почте участникам.
Личные инструменты