Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа YАД, весна 2015

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 14:56, 19 декабря 2014

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры анализа данных ФИВТ МФТИ.

Описание курса
Методика преподавания
Результаты предыдущего курса
Короткая ссылка на эту страницу: bit.ly/1yhhdTC

Консультанты получают доступ к этой странице у Ромашковой Лины

Результаты

Автор	Тема научной работы	Ссылка	Консультант	Буквы	Сумма	Оценка
Карасиков Михаил	Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач	code, pdf	Ю.В. Максимов	[MF]TAI+L+SBRC+V+TDESH(J)	15	10
Welcome!

Работа и консультации

Работы сдаются в течение недели.
Желательна итеративная сдача работ, начинать показ лучше в выходные.
Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Расписание

Дата		ДЗ	Что делаем	Результат для обсуждения	Код
Февраль	12	--	Вводная лекция		Intro
	19		Расписание уточняется

Задачи

Нумерация задач может быть произвольной, но без повторения номеров.

Шаблон описания задачи

Название: Название, под которым статья подается в журнал.
Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
Литература: Список научных работ, включающих 1) формулировку решаемой задачи, 2) ссылки на новые результаты, 3) основную информацию об исследуемой проблеме.
Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
Консультант: Исследователь с опытом самостоятельного написания научных статей, желанием участвовать в работе еженедельно и возможностью оперативно отвечать на вопросы.

Задача 1

Название: Использование методов визуализации графов для предсказания ссылок.
Задача: Предлагается решать задачу предсказания ссылок в графе (The Link Prediction Problem), максимизируя AUC на тестовой выборке.
Данные: Для начала предлагается использовать данные, взятые отсюда: http://snap.stanford.edu/data/ca-CondMat.html. Данный dataset описывает научное сотрудничество между авторами документов. Сеть содержит 23133 вершины и 93497 ребер. Скорее всего попробуем и другие данные.
Литература:
- http://cseweb.ucsd.edu/~elkan/ECML2011LinkPrediction.pdf - применение методов Matrix Factorization для предсказания ребер в графе, результаты сравниваются на различных данных.
- http://yifanhu.net/PUB/graph_draw_small.pdf - физическая модель для визуализации графов
- http://www.ics.uci.edu/~goodrich/pubs/grip_journal.pdf - визуализация в больших размерностях
Базовой алгоритм: http://cseweb.ucsd.edu/~elkan/ECML2011LinkPrediction.pdf
Решение: На данный момент, очень хорошие результаты в этой области получают с помощью методов Matrix Factorization. Разложение матрицы смежности графа позволяет каждой вершине графа сопоставить набор скрытых признаков, на основании которых в последующем делается вывод о наличии или отсутствии ребра. С другой стороны, при визуализации графа в n-мерном евклидовом пространстве каждой вершине сопоставляется набор координат. На основании этих координат используя некоторые метрики можно судить о наличии или отсутствии ребра. В силу особенностей алгоритмов визуализации графов, вершины, относящиеся к разным компонентам, слабо связанным между собой, располагаются тем дальше друг от друга, чем меньше этих связей. Соответственно, при большом расстоянии вероятность возникновения ребра все меньше. Предлагается исследовать, насколько такой подход дает хороший результат в сравнении с результатами, полученными с помощью Matrix Factorization. Также, интересно проследить зависимость в качестве предсказания ссылок для алгоритмов визуализации графов и Matrix Factorization от размерности пространства скрытых признаков.
Новизна: Предлагается новый подход к задаче предсказания ссылок в графе, вероятно позволяющий получить сравнимое с Matrix Factorization качество при меньших размерностях пространства признаков, а также лучшее качество предсказания отсутствия ссылок.
Консультант: Самосват Егор

Задача 2

Название: PageRank for the generalized prefferential attachment model
Задача: Исследование свойств функции распределения PageRank для модели Интернета "Generalized prefferential attachment model".
Данные: Синтетические данные, вебграф.
Литература:
Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается.
Решение: Решение задачи планируется разбить на две части: теоретическую и практическую. Сейчас сложно предсказать детали теоретического решения. Решение практической задачи представляет собой следующие этапы:
- 1) сэмплирование вебграфа в модели Остроумовой и др., для которого мы хотим считать PageRank;
- 2) извлечение репрезентативного куска вебграфа;
- 3) провести эксперименты на полученных графах, в частности, проверить гипотезу о степенном законе распределения и оценить показатель степени.
Новизна: [уточняется].
Консультант: Максим Жуковский.

Задача 3

Название: Тематическая модель классификации
Задача: Дана коллекция документов, часть которых размечена по классам. Каждый документ может принадлежать многим классам. Требуется построить вероятностную тематическую модель и проверить гипотезу, что подбором стратегии инициализации и регуляризации в моделях ARTM возможно повысить качество классификации. Для реализации использовать библиотеку BigARTM.
Данные: Коллекции, использованные в [Rubin, 2012].
Литература:
1. Rubin T. N., Chambers A., Smyth P., Steyvers M. Statistical topic models for multi-label document classification // Machine Learning. 2012, Vol.88, no.1-2., Pp.157–208.
2. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
Базовой алгоритм: Алгоритмы из [Rubin, 2012] или их аналоги в BigARTM, классические методы категоризации (Naϊve Bayes, SVM)
Решение: Комбинация регуляризаторов разреживания, сглаживания, декоррелирования, label regularization, и др. для мультимодальной тематической модели в библиотеке BigARTM. Подбор стратегий инициализации и регуляризации.
Новизна: Тематические модели с комбинированием большого числа регуляризаторов ранее не использовались для задач классификации.
Консультант: Пётр Ромов, Мурат Апишев, Воронцов Константин.

Задача X

Название:
Задача:
Данные:
Литература:
Базовой алгоритм:
Решение:
Новизна:
Консультант:

См. также

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_Y%D0%90%D0%94%2C_%D0%B2%D0%B5%D1%81%D0%BD%D0%B0_2015»

Категория: Учебные курсы

@@ Строка 76: / Строка 76: @@
 ''Нумерация задач может быть произвольной, но без повторения номеров.''
-=== Шаблон  описания научной статьи ===
+=== Шаблон описания задачи ===
 * '''Название:''' Название, под которым статья подается в журнал.
 * '''Задача:''' Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
@@ Строка 117: / Строка 117: @@
 === Задача 3 ===
+* '''Название:''' Тематическая модель классификации
+* '''Задача:'''  Дана коллекция документов, часть которых размечена по классам. Каждый документ может принадлежать многим классам. Требуется построить [[тематическое моделирование|вероятностную тематическую модель]] и проверить гипотезу, что подбором стратегии инициализации и регуляризации в моделях ARTM возможно повысить качество классификации. Для реализации использовать библиотеку [http://bigartm.org BigARTM].
+* '''Данные:''' Коллекции, использованные в [Rubin, 2012].
+* '''Литература:'''
+*# ''Rubin T. N., Chambers A., Smyth P., Steyvers M.'' Statistical topic models for multi-label document classification // Machine Learning. 2012, Vol.88, no.1-2., Pp.157–208.
+*# ''Vorontsov K. V., Potapenko A. A.'' [[Media:Voron14mlj.pdf|Additive Regularization of Topic Models]] // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. [[Media:Voron14mlj-rus.pdf|Русский перевод]]
+* '''Базовой алгоритм:''' Алгоритмы из [Rubin, 2012] или их аналоги в BigARTM, классические методы категоризации (Naϊve Bayes, SVM)
+* '''Решение:''' Комбинация регуляризаторов разреживания, сглаживания, декоррелирования, label regularization, и др. для мультимодальной тематической модели в библиотеке BigARTM. Подбор стратегий инициализации и регуляризации.
+* '''Новизна:''' Тематические модели с комбинированием большого числа регуляризаторов ранее не использовались для задач классификации.
+* '''Консультант:''' Пётр Ромов, Мурат Апишев, Воронцов Константин.
+=== Задача X ===
 * '''Название:'''
 * '''Задача:'''
@@ Строка 125: / Строка 137: @@
 * '''Новизна:'''
 * '''Консультант:'''
+== См. также ==
+* [[Научно-исследовательская работа (рекомендации)]]
+* [[Написание отчётов и статей (рекомендации)]]
+* [[Подготовка презентаций (рекомендации)]]
+* [[Защита выпускной квалификационной работы (рекомендации)]]
 [[Категория:Учебные курсы]]