Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа YАД, весна 2015

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задача 8)
(Задача 9)
Строка 206: Строка 206:
* '''Название:''' Разделение смеси распадов с известным распределением массы.
* '''Название:''' Разделение смеси распадов с известным распределением массы.
* '''Задача:''' Обучение без учителя. Есть набор событий (реальные данные), описываемый N признаками, в котором содержатся представители 2 классов (сигнал и фон). Распределение этого набора данных по массе показано на рисунке 1. (см. ниже). Метки событий неизвестны. Формы распределений для сигнала и фона по массе известны (гауссиан и экспонента). Изучить изменение распределений событий, отобранных классификатором как "сигнал" при различных катах на классификатор.
* '''Задача:''' Обучение без учителя. Есть набор событий (реальные данные), описываемый N признаками, в котором содержатся представители 2 классов (сигнал и фон). Распределение этого набора данных по массе показано на рисунке 1. (см. ниже). Метки событий неизвестны. Формы распределений для сигнала и фона по массе известны (гауссиан и экспонента). Изучить изменение распределений событий, отобранных классификатором как "сигнал" при различных катах на классификатор.
-
* '''Данные:''' Данные описываются набором физических признаков (момент, импульс, время жизни, качество трэка), метки не даны, но заданы формы распределений
+
* '''Данные:''' Данные описываются набором физических признаков (момент, импульс, время жизни, качество трэка), метки не даны, но заданы формы распределений. Алгоритм проверяется на Монте-Карло симуляции (в которой метки известны).
-
file:pikeannot.png
+
[[Изображение:Pike_annot.png|thumb]]
-
**Рисунок 1.** распределение данных по массе
+
* '''Литература:''' [http://arxiv.org/pdf/physics/0402083v3.pdf Splot technique]
-
Алгоритм проверяется на Монте-Карло симуляции (в которой метки известны).
+
-
* '''Литература:'''
+
* '''Базовый алгоритм:'''
* '''Базовый алгоритм:'''
*# Для случая, когда остальные признаки не имеют корреляции с массой, работает следующий простой прием: фитируем распределения по массе, получаем вероятности каждого событи быть сигналом или шумом, далее запускаем классификатор (причем каждое событие добавляется с разными весами и в качестве сигнала, и в качестве шума)
*# Для случая, когда остальные признаки не имеют корреляции с массой, работает следующий простой прием: фитируем распределения по массе, получаем вероятности каждого событи быть сигналом или шумом, далее запускаем классификатор (причем каждое событие добавляется с разными весами и в качестве сигнала, и в качестве шума)

Версия 13:45, 29 января 2015


Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры анализа данных ФИВТ МФТИ.

  • Короткая ссылка на эту страницу: bit.ly/1yhhdTC


Вопросы по курсу можно задать на форуме Machine Learning and Data Analysis.



Консультанты получают доступ к этой странице у Ромашковой Лины.


Результаты

Автор Тема научной работы Ссылка Консультант Буквы Сумма Оценка
Карасиков Михаил Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач code, pdf Ю.В. Максимов [MF]TAI+L+SBRC+V+TDESH(J) 15 10
Welcome!

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Расписание

Дата ДЗ Что делаем Результат для обсуждения Код
Февраль 12 -- Вводная лекция Intro
19 Расписание уточняется

Задачи

Нумерация задач может быть произвольной, но без повторения номеров.

Шаблон описания задачи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, включающих 1) формулировку решаемой задачи, 2) ссылки на новые результаты, 3) основную информацию об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
  • Консультант: Исследователь с опытом самостоятельного написания научных статей, желанием участвовать в работе еженедельно и возможностью оперативно отвечать на вопросы.

Задача 1

  • Название: Использование методов визуализации графов для предсказания ссылок.
  • Задача: Предлагается решать задачу предсказания ссылок в графе (The Link Prediction Problem), максимизируя AUC на тестовой выборке.
  • Данные: Для начала предлагается использовать данные, взятые отсюда: http://snap.stanford.edu/data/ca-CondMat.html. Данный dataset описывает научное сотрудничество между авторами документов. Сеть содержит 23133 вершины и 93497 ребер. Скорее всего попробуем и другие данные.
  • Литература:
  • Базовой алгоритм: http://cseweb.ucsd.edu/~elkan/ECML2011LinkPrediction.pdf
  • Решение: На данный момент, очень хорошие результаты в этой области получают с помощью методов Matrix Factorization. Разложение матрицы смежности графа позволяет каждой вершине графа сопоставить набор скрытых признаков, на основании которых в последующем делается вывод о наличии или отсутствии ребра. С другой стороны, при визуализации графа в n-мерном евклидовом пространстве каждой вершине сопоставляется набор координат. На основании этих координат используя некоторые метрики можно судить о наличии или отсутствии ребра. В силу особенностей алгоритмов визуализации графов, вершины, относящиеся к разным компонентам, слабо связанным между собой, располагаются тем дальше друг от друга, чем меньше этих связей. Соответственно, при большом расстоянии вероятность возникновения ребра все меньше. Предлагается исследовать, насколько такой подход дает хороший результат в сравнении с результатами, полученными с помощью Matrix Factorization. Также, интересно проследить зависимость в качестве предсказания ссылок для алгоритмов визуализации графов и Matrix Factorization от размерности пространства скрытых признаков.
  • Новизна: Предлагается новый подход к задаче предсказания ссылок в графе, вероятно позволяющий получить сравнимое с Matrix Factorization качество при меньших размерностях пространства признаков, а также лучшее качество предсказания отсутствия ссылок.
  • Консультант: Самосват Егор

Задача 2

  • Название: PageRank for the generalized prefferential attachment model
  • Задача: Исследование свойств функции распределения PageRank для модели Интернета "Generalized prefferential attachment model".
  • Данные: Синтетические данные, вебграф.
  • Литература:
  • Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается.
  • Решение: Решение задачи планируется разбить на две части: теоретическую и практическую. Сейчас сложно предсказать детали теоретического решения. Решение практической задачи представляет собой следующие этапы:
    • 1) сэмплирование вебграфа в модели Остроумовой и др., для которого мы хотим считать PageRank;
    • 2) извлечение репрезентативного куска вебграфа;
    • 3) провести эксперименты на полученных графах, в частности, проверить гипотезу о степенном законе распределения и оценить показатель степени.
  • Новизна: Задача состоит получении оценки распределения PageRank для моделей Интернета в исследовании его свойств. Исследуется подграф вебргафа. Предполагается оценить мощность произвольного подграфа вебграфа для получения репрезентативной оценки распределения PageRank. Раньше распределение PageRank для модели Интернета не изучалось.
  • Консультант: Максим Жуковский.

Задача 3

  • Название: Тематическая модель классификации
  • Задача: Дана коллекция документов, часть которых размечена по классам. Каждый документ может принадлежать многим классам. Требуется построить вероятностную тематическую модель и проверить гипотезу, что подбором стратегии инициализации и регуляризации в моделях ARTM возможно повысить качество классификации. Для реализации использовать библиотеку BigARTM.
  • Данные: Коллекции, использованные в [Rubin, 2012].
  • Литература:
    1. Rubin T. N., Chambers A., Smyth P., Steyvers M. Statistical topic models for multi-label document classification // Machine Learning. 2012, Vol.88, no.1-2., Pp.157–208.
    2. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
  • Базовой алгоритм: Алгоритмы из [Rubin, 2012] или их аналоги в BigARTM, классические методы категоризации (Naϊve Bayes, SVM)
  • Решение: Комбинация регуляризаторов разреживания, сглаживания, декоррелирования, label regularization, и др. для мультимодальной тематической модели в библиотеке BigARTM. Подбор стратегий инициализации и регуляризации.
  • Новизна: Тематические модели с комбинированием большого числа регуляризаторов ранее не использовались для задач классификации.
  • Консультант: Пётр Ромов, Мурат Апишев, Константин Воронцов.

Задача 4

  • Название: Предсказание покупок по поведению пользователя на страницах интернет-магазина
  • Задача: Постановка задачи на странице соревнования RecSys Challenge 2015
  • Данные: Набор данных для RecSys Challenge 2015 от рекомендательного сервиса Yoochoose. В случае беспрецедентного успеха можно попробовать протестировать на данных Яндекс.Маркета.
  • Литература: ?
  • Базовой алгоритм: ?
  • Решение: Факторизационные машины + feature engineering.
  • Новизна: Предлагается новый подход к решению задачи, которая не рассматривалась ранее научным сообществом в виду отсутствия открытых наборов данных.
  • Консультант: Петр Ромов

Задача 5

  • Название: Тематическое моделирование музыкальных коллекций
  • Задача: TBD
  • Данные: Открытый набор данных от Оскара Сельма Last.fm 360k Users: содержит частоты прослушиваний артистов в виде троек (user, artist, plays) для 360 тыс пользователей интернет-радио Last.fm. В случае беспрецедентного успеха можно попробовать протестировать на данных Яндекс.Музыки.
  • Литература: TBD
  • Базовой алгоритм: TBD
  • Решение: ARTM + регуляризаторы, учитывающие специфику предметной области.
  • Новизна: TBD
  • Консультант: Петр Ромов

Задача 6

  • Название: Выбор эффективного подмножества семплов для MCMC-вывода в факторизационных машинах
  • Задача: TBD
  • Данные: Открытые наборы данных для тестирования рекомендательных систем: MovieLens, Netflix.
  • Литература:
    1. Steffen Rendle — Factorization Machines with libFM
    2. Freudenthaler et al. — Bayesian Factorization Machines
    3. Sample selection for MCMC-based recommender systems
  • Базовой алгоритм: В статье Sample selection for MCMC-based recommender systems предложено несколько эвристических стратегий выбора семплов, их предлагается использовать как базовый алгоритм решения задачи.
  • Решение: Сведение задачи выбора эффективного подмножества семплов к задаче оптимизации функционала качества на валидационной выборке.
  • Новизна: Предлагается новый подход к решению задачи, основанный на оптимизации функционала качества на обучающей выборке, в то время как в литературе были предложены только эвристические способы выбора подмножества семплов.
  • Консультант: Петр Ромов

Задача 7

  • Название: Выявление тематической структуры сервиса Ответы@mail.ru.
  • Задача: Построить проблемно-ориентированную тематическую модель коллекции вопросов и ответов.
  • Данные:
    1. Большая коллекция вопросов и ответов (около 11 млн. вопросов, в среднем 3-5 ответов на вопрос).
    2. Привязки к авторам и времени.
    3. Привязки к двухуровневой иерархии категорий (27 верхний уровень, 189 нижний).
  • Литература:
    1. Rubin T. N., Chambers A., Smyth P., Steyvers M. Statistical topic models for multi-label document classification // Machine Learning. 2012, Vol.88, no.1-2., Pp.157–208.
    2. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
  • Базовой алгоритм: Обычная тематическая модель PLSA или LDA без проблемно-ориентированных регуляризаторов.
  • Решение: Комбинация регуляризаторов разреживания, сглаживания, декоррелирования, классификации по авторам и категориям, сглаживания по времени, label regularization, и др. для мультимодальной динамической тематической модели в библиотеке BigARTM. Подбор стратегий инициализации и регуляризации.
  • Новизна: Тематические модели с комбинированием большого числа регуляризаторов ранее не использовались. Тематическая модель сервиса Ответы@mail.ru позволит анализировать динамику различных тем в социальной среде.
  • Консультант: Анна Потапенко, Константин Воронцов, Павел Браславский.

Задача 8

  • Название: Устойчивость и другие свойства метрики AMS.
  • Задача: необходимо построить методы машинного обучения, при которых получается сравнимое качество AMS, устойчивое к выбору оптимального порога (на тестовом датасете данный порог близок к оптимальному)

Задача 9

  • Название: Разделение смеси распадов с известным распределением массы.
  • Задача: Обучение без учителя. Есть набор событий (реальные данные), описываемый N признаками, в котором содержатся представители 2 классов (сигнал и фон). Распределение этого набора данных по массе показано на рисунке 1. (см. ниже). Метки событий неизвестны. Формы распределений для сигнала и фона по массе известны (гауссиан и экспонента). Изучить изменение распределений событий, отобранных классификатором как "сигнал" при различных катах на классификатор.
  • Данные: Данные описываются набором физических признаков (момент, импульс, время жизни, качество трэка), метки не даны, но заданы формы распределений. Алгоритм проверяется на Монте-Карло симуляции (в которой метки известны).
  • Литература: Splot technique
  • Базовый алгоритм:
    1. Для случая, когда остальные признаки не имеют корреляции с массой, работает следующий простой прием: фитируем распределения по массе, получаем вероятности каждого событи быть сигналом или шумом, далее запускаем классификатор (причем каждое событие добавляется с разными весами и в качестве сигнала, и в качестве шума)
    2. Ещё более простой вариант - если пик виден явно, можно обучить классификатор на данных из sideband (2000-4000) с меткой шума и данных в пике с меткой сигнала (450-500). Проверить качество на тестовом множестве:
  • Решение: Исследование разделение смеси при нескоррелированном признаковом описании с массой и при скоррелированном:
    1. baseline - RandomForest, в котором каждое событие входит в обучающую выборку два раза: один раз как сигнал, один раз как шум. Веса равны соответственно вероятностям, что событие сигнал или шум.
    2. sPlot позволяет реконструировать распределение остальных фичей - возможно, наивный байес или что-то похитрее
    3. модификации бустинга
  • Новизна: На данный момент используется splot, но масса обычно всегда имеет корреляцию, так что построение методов разделения смесей, учитывающих корреляцию, нет.
  • Консультант: Татьяна Лихоманенко, Андрей Устюжанин

Задача 10

  • Название: Автоматизация построения cut-based классификаторов для отбора "интересных" событий в физике частиц.
  • Задача: Есть набор фичей, типичная задача физиков - выкинуть 90% шума и почти не потерять сигнал. Для этого они долго сидят и подбирают пороги на признаки распада, но можно заставить машину делать то же самое. Единственное преимущество таких классификаторов над 'обычными': бешеная скорость и человекопонятность. Можно это преобразовать в запрос к некоторой базе данных (что при наличии индексов будет работать сильно быстрее, чем просто поэлементное применение).
  • Данные: Данные без преселектов конкретных распадов (преселекты известны из статей, с ними необходимо сравнивать качество построенной модели)
  • Литература: TMVA, A* algorithm
  • Базовый алгоритм: Пакет TMVA содержит метод Rectangular cut optimization, который решает именно данную задачу, но использует при этом только простые правила: (10 < x1 < 50) & (20 < x2 < 40) & (30 < x3 < 50)
  • Решение:
    1. умное использование TMVA Rectangular cut optimization (построить в виде запросов к базе данных)
    2. A-star как метод выбора
    3. перебор фичей (+-*/, что-то такое, если удастся использовать размерность переменных - было бы совсем здорово)
  • Новизна: На данный момент в каждом распаде физики сами подбирают каты на фичи вручную, необходимо получить алгоритм, который можно встроить в систему анализа, как триггеры
  • Консультант: Алексей Рогожников, Андрей Устюжанин

Задача 11

  • Название: Прунинг obliqiue decision trees.
  • Задача: Трудоемкой задачей при обучении модели - это выбор фичей и катов для каждого дерева. Когда это уже сделано на сервере, на локалке деревья можно модифицировать путем изменения значений в листах. Надо научиться сжимать модель - из 5000 деревьев оставлять 100 и практически не терять в качестве (жадный итеративный отбор).
  • Данные: Обученное дерево, записанное в виде хэш-таблицы.
  • Литература:
  • Базовый алгоритм: Изменять значения в листьях у деревьев - возможно, даже стоит делать не одну итерация метода второго порядка, а больше.
  • Решение:
    1. Предложить возможные алгоритмы модификации листьев (сравнение качества работы)
    2. Возможно, ввести регуляризацию, чтобы не переобучиться.
    3. посмотреть поведение алгоритма при изменении loss-функции для уже натренированной модели
  • Новизна:
    1. Это ускорит применение и сделает возможным применять в частности матрикснет крайне быстро
    2. Это позволит изменять loss-функцию для уже натренированной модели (вопрос, правда, насколько это будет оправдано)
    3. Это сделает возможным 'переобучать' модель - то есть обучили на одних данных, потом оказалось, что учиться надо на сильно бОльшей выборке (или наоборот - только на каком-то подмножестве). Операция переобучения не требует много памяти и времени - профит.
    4. Построения сложных моделей с дальнейшим сжатием позволит использовать их в триггерных системах
  • Консультант: Алексей Рогожников, Андрей Устюжанин

Задача X

  • Название:
  • Задача:
  • Данные:
  • Литература:
  • Базовой алгоритм:
  • Решение:
  • Новизна:
  • Консультант:

См. также

Личные инструменты