Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа YАД, весна 2015

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Задача 4)
(Задачи)
Строка 129: Строка 129:
=== Задача 4 ===
=== Задача 4 ===
-
* '''Название:''' Предсказание покупок по поведению пользователя на страницах интернет-магазина.
+
* '''Название:''' Предсказание покупок по поведению пользователя на страницах интернет-магазина
* '''Задача:''' [http://2015.recsyschallenge.com/challenge.html Постановка задачи на странице соревнования RecSys Challenge 2015]
* '''Задача:''' [http://2015.recsyschallenge.com/challenge.html Постановка задачи на странице соревнования RecSys Challenge 2015]
* '''Данные:''' Набор данных для [http://2015.recsyschallenge.com/challenge.html RecSys Challenge 2015] от рекомендательного сервиса [http://www.yoochoose.com/en/ Yoochoose]. В случае беспрецедентного успеха можно попробовать протестировать на данных Яндекс.Маркета.
* '''Данные:''' Набор данных для [http://2015.recsyschallenge.com/challenge.html RecSys Challenge 2015] от рекомендательного сервиса [http://www.yoochoose.com/en/ Yoochoose]. В случае беспрецедентного успеха можно попробовать протестировать на данных Яндекс.Маркета.
Строка 137: Строка 137:
* '''Новизна:''' Предлагается новый подход к решению задачи, которая не рассматривалась ранее научным сообществом в виду отсутствия открытых наборов данных.
* '''Новизна:''' Предлагается новый подход к решению задачи, которая не рассматривалась ранее научным сообществом в виду отсутствия открытых наборов данных.
* '''Консультант:''' Петр Ромов
* '''Консультант:''' Петр Ромов
 +
 +
=== Задача 5 ===
 +
* '''Название:''' Тематическое моделирование музыкальных коллекций
 +
* '''Задача:''' ?
 +
* '''Данные:''' Открытый набор данных от Оскара Сельма [http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-360K.html Last.fm 360k Users]: содержит частоты прослушиваний артистов в виде троек (user, artist, plays) для 360 тыс пользователей интернет-радио [http://www.lastfm.ru/ Last.fm]. В случае беспрецедентного успеха можно попробовать протестировать на данных Яндекс.Музыки.
 +
* '''Литература:''' ?
 +
* '''Базовой алгоритм:''' ?
 +
* '''Решение:''' ARTM + регуляризаторы, учитывающие специфику предметной области.
 +
* '''Новизна:''' Предлагается новый подход к решению задачи, которая не рассматривалась ранее научным сообществом в виду отсутствия открытых наборов данных.
 +
* '''Консультант:''' Петр Ромов
 +
=== Задача X ===
=== Задача X ===

Версия 17:28, 21 декабря 2014


Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры анализа данных ФИВТ МФТИ.


Консультанты получают доступ к этой странице у Ромашковой Лины


Результаты

Автор Тема научной работы Ссылка Консультант Буквы Сумма Оценка
Карасиков Михаил Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач code, pdf Ю.В. Максимов [MF]TAI+L+SBRC+V+TDESH(J) 15 10
Welcome!

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Расписание

Дата ДЗ Что делаем Результат для обсуждения Код
Февраль 12 -- Вводная лекция Intro
19 Расписание уточняется

Задачи

Нумерация задач может быть произвольной, но без повторения номеров.

Шаблон описания задачи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, включающих 1) формулировку решаемой задачи, 2) ссылки на новые результаты, 3) основную информацию об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
  • Консультант: Исследователь с опытом самостоятельного написания научных статей, желанием участвовать в работе еженедельно и возможностью оперативно отвечать на вопросы.

Задача 1

  • Название: Использование методов визуализации графов для предсказания ссылок.
  • Задача: Предлагается решать задачу предсказания ссылок в графе (The Link Prediction Problem), максимизируя AUC на тестовой выборке.
  • Данные: Для начала предлагается использовать данные, взятые отсюда: http://snap.stanford.edu/data/ca-CondMat.html. Данный dataset описывает научное сотрудничество между авторами документов. Сеть содержит 23133 вершины и 93497 ребер. Скорее всего попробуем и другие данные.
  • Литература:
  • Базовой алгоритм: http://cseweb.ucsd.edu/~elkan/ECML2011LinkPrediction.pdf
  • Решение: На данный момент, очень хорошие результаты в этой области получают с помощью методов Matrix Factorization. Разложение матрицы смежности графа позволяет каждой вершине графа сопоставить набор скрытых признаков, на основании которых в последующем делается вывод о наличии или отсутствии ребра. С другой стороны, при визуализации графа в n-мерном евклидовом пространстве каждой вершине сопоставляется набор координат. На основании этих координат используя некоторые метрики можно судить о наличии или отсутствии ребра. В силу особенностей алгоритмов визуализации графов, вершины, относящиеся к разным компонентам, слабо связанным между собой, располагаются тем дальше друг от друга, чем меньше этих связей. Соответственно, при большом расстоянии вероятность возникновения ребра все меньше. Предлагается исследовать, насколько такой подход дает хороший результат в сравнении с результатами, полученными с помощью Matrix Factorization. Также, интересно проследить зависимость в качестве предсказания ссылок для алгоритмов визуализации графов и Matrix Factorization от размерности пространства скрытых признаков.
  • Новизна: Предлагается новый подход к задаче предсказания ссылок в графе, вероятно позволяющий получить сравнимое с Matrix Factorization качество при меньших размерностях пространства признаков, а также лучшее качество предсказания отсутствия ссылок.
  • Консультант: Самосват Егор

Задача 2

  • Название: PageRank for the generalized prefferential attachment model
  • Задача: Исследование свойств функции распределения PageRank для модели Интернета "Generalized prefferential attachment model".
  • Данные: Синтетические данные, вебграф.
  • Литература:
  • Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается.
  • Решение: Решение задачи планируется разбить на две части: теоретическую и практическую. Сейчас сложно предсказать детали теоретического решения. Решение практической задачи представляет собой следующие этапы:
    • 1) сэмплирование вебграфа в модели Остроумовой и др., для которого мы хотим считать PageRank;
    • 2) извлечение репрезентативного куска вебграфа;
    • 3) провести эксперименты на полученных графах, в частности, проверить гипотезу о степенном законе распределения и оценить показатель степени.
  • Новизна: Задача состоит получении оценки распределения PageRank для моделей Интернета в исследовании его свойств. Исследуется подграф вебргафа. Предполагается оценить мощность произвольного подграфа вебграфа для получения репрезентативной оценки распределения PageRank. Раньше распределение PageRank для модели Интернета не изучалось.
  • Консультант: Максим Жуковский.

Задача 3

  • Название: Тематическая модель классификации
  • Задача: Дана коллекция документов, часть которых размечена по классам. Каждый документ может принадлежать многим классам. Требуется построить вероятностную тематическую модель и проверить гипотезу, что подбором стратегии инициализации и регуляризации в моделях ARTM возможно повысить качество классификации. Для реализации использовать библиотеку BigARTM.
  • Данные: Коллекции, использованные в [Rubin, 2012].
  • Литература:
    1. Rubin T. N., Chambers A., Smyth P., Steyvers M. Statistical topic models for multi-label document classification // Machine Learning. 2012, Vol.88, no.1-2., Pp.157–208.
    2. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
  • Базовой алгоритм: Алгоритмы из [Rubin, 2012] или их аналоги в BigARTM, классические методы категоризации (Naϊve Bayes, SVM)
  • Решение: Комбинация регуляризаторов разреживания, сглаживания, декоррелирования, label regularization, и др. для мультимодальной тематической модели в библиотеке BigARTM. Подбор стратегий инициализации и регуляризации.
  • Новизна: Тематические модели с комбинированием большого числа регуляризаторов ранее не использовались для задач классификации.
  • Консультант: Пётр Ромов, Мурат Апишев, Константин Воронцов.

Задача 4

  • Название: Предсказание покупок по поведению пользователя на страницах интернет-магазина
  • Задача: Постановка задачи на странице соревнования RecSys Challenge 2015
  • Данные: Набор данных для RecSys Challenge 2015 от рекомендательного сервиса Yoochoose. В случае беспрецедентного успеха можно попробовать протестировать на данных Яндекс.Маркета.
  • Литература: ?
  • Базовой алгоритм: ?
  • Решение: Факторизационные машины + feature engineering.
  • Новизна: Предлагается новый подход к решению задачи, которая не рассматривалась ранее научным сообществом в виду отсутствия открытых наборов данных.
  • Консультант: Петр Ромов

Задача 5

  • Название: Тематическое моделирование музыкальных коллекций
  • Задача: ?
  • Данные: Открытый набор данных от Оскара Сельма Last.fm 360k Users: содержит частоты прослушиваний артистов в виде троек (user, artist, plays) для 360 тыс пользователей интернет-радио Last.fm. В случае беспрецедентного успеха можно попробовать протестировать на данных Яндекс.Музыки.
  • Литература: ?
  • Базовой алгоритм: ?
  • Решение: ARTM + регуляризаторы, учитывающие специфику предметной области.
  • Новизна: Предлагается новый подход к решению задачи, которая не рассматривалась ранее научным сообществом в виду отсутствия открытых наборов данных.
  • Консультант: Петр Ромов


Задача X

  • Название:
  • Задача:
  • Данные:
  • Литература:
  • Базовой алгоритм:
  • Решение:
  • Новизна:
  • Консультант:

См. также

Личные инструменты