Спецкурс «Прикладные задачи анализа данных»

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 15:48, 23 мая 2014

Содержание

1 Объявление
2 Страницы курсов прошлых лет
3 Правила
4 Лекции
5 Аннотация
6 Отчётность
7 Ссылки
8 Ещё ссылки

Объявление

Данный курс стал победителем конкурса инновационных учебных технологий.

Спецкурс начал работу 16 сентября (понедельник) в 16:20 (5я пара).

Лектор: Дьяконов Александр

Важно! Для участия в спецкурсе необходимо было зарегистрироваться.

Сейчас регистрация уже закрыта.

Желающие прослушать спецкурс могут дождаться следующего года.

Страницы курсов прошлых лет

Спецкурс «Прикладные задачи анализа данных» (2013 год)

Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.

Мероприятие проходит в двух режимах:

спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R) и т.п.
спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.

Важно: от участников потребуется выполнение нетривиальных практических заданий!

Правила

Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
Слушатели, которые перестают делать домашние задания, удаляются из таблицы.

Лекции

Здесь будет выложена программа нового (2014 года) - по мере чтения курса.

Старую программу см. на странице Спецкурс «Прикладные задачи анализа данных» (2013 год).

Аннотация

2do

Автор программы: Дьяконов Александр Геннадьевич

Отчётность

отчёты по решению конкурсных задач (доклады с презентацией + исходники)
зачёт с оценкой в конце семестра

Ссылки

Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб)

Вводная лекция, которая написана для просеминара.

Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования)

Глава 12 «Шаманство в анализе данных».

Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб)

Переработка предыдущего источника в научно-популярную лекцию.

Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении»

Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.

Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб)

Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.

Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей»

Приведены ссылки на сайты с данными реальных задач анализа данных.

Ещё ссылки

Использование системы R в анализе данных

Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%A1%D0%BF%D0%B5%D1%86%D0%BA%D1%83%D1%80%D1%81_%C2%AB%D0%9F%D1%80%D0%B8%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D1%8B%D0%B5_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85%C2%BB»

Категория: Учебные курсы

@@ Строка 34: / Строка 34: @@
 ==Лекции==
-{| class="wikitable"
-|-
+Здесь будет выложена программа нового (2014 года) - по мере чтения курса.
-! Число
-! Лекция
+Старую программу см. на странице
-! Материалы, замечания
+[[Спецкурс «Прикладные задачи анализа данных» (2013 год)]].
-|-
-| 16.09.13
-| '''Решение задачи [[http://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge The Big Data Combine Engineered by BattleFin]] - прогноз цены на основе многомерного ряда и анонимизированных признаков. Загрузка данных, простые модели, линейная регрессия и случайный лес, сравнение R и MATLAB.'''
-| Домашнее задание: решить задачу (отчёт). Материалы см. в [[https://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge/forums/t/5775/codes-my-submissions-from-my-lecture ветке форума]] соревнования.
-|-
-| 07.10.13
-| Разбор первого домашнего задания. '''Искусство визуализации данных: признаки в задаче [[http://www.kaggle.com/c/bioresponse bioresponse]], оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений'''
-| Слайды и материалы высланы по почте участникам.
-|-
-| 14.10.13
-| Продолжение '''Искусство визуализации данных: Результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [[http://www.kaggle.com/c/cause-effect-pairs cause-effect-pairs]], [[http://www.kaggle.com/c/GiveMeSomeCredit GiveMeSomeCredit]], [[http://www.kaggle.com/c/DarkWorlds DarkWorlds]].''' Как начать решать второе домашнее задание.
-| Слайды и материалы высланы по почте участникам.
-|-
-| 21.10.13
-| Вторая задача: мозговой штурм. '''Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. Задача [[http://www.kaggle.com/c/dunnhumbychallenge dunnhumby]].'''
-| Слайды и материалы высланы по почте участникам.
-|-
-| 28.10.13
-| Продолжение '''Оценка плотности. Весовые схемы. Задача [[http://imat2010.yandex.ru/datasets пробки]].'''
-| Слайды и материалы высланы по почте участникам.
-|-
-| 04.11.13
-| {{Важно|Праздничный день.}}
-|
-|-
-| 11.11.13
-| Напоминание: '''линейные классификаторы и линейная регрессия. Задачи: [[http://tunedit.org/challenge/JRS12Contest?m=summary JRS12]], [[http://www.neural-forecasting-competition.com/NN5/results.htm NN5]], [[http://www.kaggle.com/c/tourism2  tourism2]]'''. Мозговой штурм по задаче [[http://www.kaggle.com/c/see-click-predict-fix/ see-click-predict-fix]].
-| Слайды и материалы высланы по почте участникам.
-|-
-| 18.11.13
-| '''Анализ текста: классификация и регрессия.''' Задачи: [[http://www.ecmlpkdd2006.org/challenge.html spam]]. Ежегодное соревнование [[http://lib.iit.demokritos.gr/ LSHTC]].
-| Слайды и материалы высланы по почте участникам.
-|-
-| 25.11.13
-| Продолжение: '''Анализ текста: классификация и регрессия.''' Задачи: [[http://tunedit.org/challenge/JRS12Contest?m=summary JRS12]].
-| Слайды и материалы высланы по почте участникам.
-|-
-| 02.12.13
-| '''Случайные леса: программирование, настройка, использование. Построение отдельных деревьев. Параметры стандартных пакетов. Области устойчивости функционалов. Способы генерации новых признаков.''' Разбор задачи [[http://www.kaggle.com/c/see-click-predict-fix/ see-click-predict-fix]]. Новая задача [[http://olymp.wikimart.ru/ wikimart]].
-| Слайды и материалы высланы по почте участникам.
-|-
-| 09.12.13
-| Продолжение: '''Случайные леса. Параметры градиентного бустинга. Настройка на нестандартные функционалы. Простые решения задач скоринга. Калибровка ответов алгоритмов. Сведение задач рекомендации к задачам регрессии.''' Задачи [[http://www.kaggle.com/c/bioresponse bioresponse]], [[http://www.kaggle.com/c/WhatDoYouKnow WhatDoYouKnow]] (предсказывание правильности ответов на вопросы тестов).
-| Слайды и материалы высланы по почте участникам.
-|-
-| 16.12.13
-| '''Весовые схемы kNN. Примитивные способы настройки линейных комбинаций алгоритмов на нестандартные функционалы качества. Эффективная технология решения задач с разнородными данными и нестандартными функционалами качества.''' Задачи [[http://www.kaggle.com/c/PhotoQualityPrediction PhotoQualityPrediction]] (определение качества фотографии по метаданным), [[http://www.kaggle.com/c/unimelb unimelb]] (предсказывание успешности выполнения гранта), [[http://tunedit.org/challenge/VLNetChallenge VLNetChallenge]] (рекомендация видеолекций для просмотра).
-|
-|-
-|
-| {{Важно|Самостоятельное решение прикладных задач на [[http://www.kaggle.com/competitions Кэгле]].}}
-|
-|-
-| 17.03.14
-| '''Решение задач с категориальными (номинальными, факторными) признаками.''' Стандартные кодировки признаков, кодировки через факторные признпки (новые методы). Обобщения байесовских алгоритмов. Линейные алгоритмы над разреженными матрицами. SVD-разложение разреженных матриц. Многомерное SVD-разложение (тензоров). Обобщение алгоритмов, основанных на вычислении близости (kNN+АВО). Задача [[http://www.kaggle.com/c/amazon-employee-access-challenge Аmazon employee access]] (разработка рекомендательной системы для службы безопасности).
-| Лекция выслана по почте участникам.
-|}
 == Аннотация ==