Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа YАД, весна 2015

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задача 1)
(Задача 1)
Строка 87: Строка 87:
=== Задача 1 ===
=== Задача 1 ===
-
* '''Название:'''
+
* '''Название:''' Использование методов визуализации графов для предсказания ссылок.
-
Использование методов визуализации графов для предсказания ссылок
+
* '''Задача:''' Предлагается решать задачу предсказания ссылок в графе (The Link Prediction Problem), максимизируя AUC на тестовой выборке.
-
 
+
* '''Данные:''' Для начала предлагается использовать данные, взятые отсюда: http://snap.stanford.edu/data/ca-CondMat.html. Данный dataset описывает научное сотрудничество между авторами документов. Сеть содержит 23133 вершины и 93497 ребер. Скорее всего попробуем и другие данные.
-
* '''Задача:'''
+
-
Предлагается решать задачу предсказания ссылок в графе (The Link Prediction Problem), максимизируя AUC на тестовой выборке.
+
-
 
+
-
* '''Данные:'''
+
-
Для начала предлагается использовать данные, взятые отсюда: http://snap.stanford.edu/data/ca-CondMat.html.
+
-
 
+
-
Данный dataset описывает научное сотрудничество между авторами документов. Сеть содержит 23133 вершины и 93497 ребер.
+
-
 
+
-
Скорее всего попробуем и другие данные.
+
-
 
+
* '''Литература:'''
* '''Литература:'''
-
http://cseweb.ucsd.edu/~elkan/ECML2011LinkPrediction.pdf - применение методов Matrix Factorization для предсказания ребер в графе, результаты сравниваются на различных данных.
+
** http://cseweb.ucsd.edu/~elkan/ECML2011LinkPrediction.pdf - применение методов Matrix Factorization для предсказания ребер в графе, результаты сравниваются на различных данных.
-
 
+
** http://yifanhu.net/PUB/graph_draw_small.pdf - физическая модель для визуализации графов
-
http://yifanhu.net/PUB/graph_draw_small.pdf - физическая модель для визуализации графов
+
** http://www.ics.uci.edu/~goodrich/pubs/grip_journal.pdf - визуализация в больших размерностях
-
 
+
* '''Базовой алгоритм:''' http://cseweb.ucsd.edu/~elkan/ECML2011LinkPrediction.pdf
-
http://www.ics.uci.edu/~goodrich/pubs/grip_journal.pdf - визуализация в больших размерностях
+
* '''Решение:''' На данный момент, очень хорошие результаты в этой области получают с помощью методов Matrix Factorization. Разложение матрицы смежности графа позволяет каждой вершине графа сопоставить набор скрытых признаков, на основании которых в последующем делается вывод о наличии или отсутствии ребра. С другой стороны, при визуализации графа в n-мерном евклидовом пространстве каждой вершине сопоставляется набор координат. На основании этих координат используя некоторые метрики можно судить о наличии или отсутствии ребра. В силу особенностей алгоритмов визуализации графов, вершины, относящиеся к разным компонентам, слабо связанным между собой, располагаются тем дальше друг от друга, чем меньше этих связей. Соответственно, при большом расстоянии вероятность возникновения ребра все меньше. Предлагается исследовать, насколько такой подход дает хороший результат в сравнении с результатами, полученными с помощью Matrix Factorization. Также, интересно проследить зависимость в качестве предсказания ссылок для алгоритмов визуализации графов и Matrix Factorization от размерности пространства скрытых признаков.
-
* '''Базовой алгоритм:'''
+
* '''Новизна:''' Предлагается новый подход к задаче предсказания ссылок в графе, вероятно позволяющий получить сравнимое с Matrix Factorization качество при меньших размерностях пространства признаков, а также лучшее качество предсказания отсутствия ссылок.
-
 
+
* '''Консультант:'''Самосват Егор
-
http://cseweb.ucsd.edu/~elkan/ECML2011LinkPrediction.pdf
+
-
 
+
-
* '''Решение:'''
+
-
На дынный момент, очень хорошие результаты в этой области получают с помощью методов Matrix Factorization. Разложение матрицы смежности графа позволяет каждой вершине графа сопоставить набор скрытых признаков, на основании которых в последующем делается вывод о наличии или отсутствии ребра. С другой стороны, при визуализации графа в n-мерном евклидовом пространстве каждой вершине сопоставляется набор координат. На основании этих координат используя некоторые метрики можно судить о наличии или отсутствии ребра. В силу особенностей алгоритмов визуализации графов, вершины, относящиеся к разным компонентам, слабо связанным между собой, располагаются тем дальше друг от друга, чем меньше этих связей. Соответственно, при большом расстоянии вероятность возникновения ребра все меньше. Предлагается исследовать, насколько такой подход дает хороший результат в сравнении с результатами, полученными с помощью Matrix Factorization. Также, интересно проследить зависимость в качестве предсказания ссылок для алгоритмов визуализации графов и Matrix Factorization от размерности пространства скрытых признаков.
+
-
 
+
-
* '''Новизна:'''
+
-
Предлагается новый подход к задаче предсказания ссылок в графе, вероятно позволяющий получить сравнимое с Matrix Factorization качество при меньших размерностях пространства признаков, а также лучшее качество предсказания отсутствия ссылок.
+
-
 
+
-
* '''Консультант:'''
+
-
Самосват Егор
+
=== Задача 2 ===
=== Задача 2 ===

Версия 17:20, 4 декабря 2014


Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры анализа данных ФИВТ МФТИ.


Консультанты получают доступ к этой странице у Ромашковой Лины


Результаты

Автор Тема научной работы Ссылка Консультант Буквы Сумма Оценка
Карасиков Михаил Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач code, pdf Ю.В. Максимов [MF]TAI+L+SBRC+V+TDESH(J) 15 10
Welcome!

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Расписание

Дата ДЗ Что делаем Результат для обсуждения Код
Февраль 12 -- Вводная лекция Intro
19 Расписание уточняется

Задачи

Нумерация задач может быть произвольной, но без повторения номеров.

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, включающих 1) формулировку решаемой задачи, 2) ссылки на новые результаты, 3) основную информацию об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
  • Консультант: Исследователь с опытом самостоятельного написания научных статей, желанием участвовать в работе еженедельно и возможностью оперативно отвечать на вопросы.

Задача 1

  • Название: Использование методов визуализации графов для предсказания ссылок.
  • Задача: Предлагается решать задачу предсказания ссылок в графе (The Link Prediction Problem), максимизируя AUC на тестовой выборке.
  • Данные: Для начала предлагается использовать данные, взятые отсюда: http://snap.stanford.edu/data/ca-CondMat.html. Данный dataset описывает научное сотрудничество между авторами документов. Сеть содержит 23133 вершины и 93497 ребер. Скорее всего попробуем и другие данные.
  • Литература:
  • Базовой алгоритм: http://cseweb.ucsd.edu/~elkan/ECML2011LinkPrediction.pdf
  • Решение: На данный момент, очень хорошие результаты в этой области получают с помощью методов Matrix Factorization. Разложение матрицы смежности графа позволяет каждой вершине графа сопоставить набор скрытых признаков, на основании которых в последующем делается вывод о наличии или отсутствии ребра. С другой стороны, при визуализации графа в n-мерном евклидовом пространстве каждой вершине сопоставляется набор координат. На основании этих координат используя некоторые метрики можно судить о наличии или отсутствии ребра. В силу особенностей алгоритмов визуализации графов, вершины, относящиеся к разным компонентам, слабо связанным между собой, располагаются тем дальше друг от друга, чем меньше этих связей. Соответственно, при большом расстоянии вероятность возникновения ребра все меньше. Предлагается исследовать, насколько такой подход дает хороший результат в сравнении с результатами, полученными с помощью Matrix Factorization. Также, интересно проследить зависимость в качестве предсказания ссылок для алгоритмов визуализации графов и Matrix Factorization от размерности пространства скрытых признаков.
  • Новизна: Предлагается новый подход к задаче предсказания ссылок в графе, вероятно позволяющий получить сравнимое с Matrix Factorization качество при меньших размерностях пространства признаков, а также лучшее качество предсказания отсутствия ссылок.
  • Консультант:Самосват Егор

Задача 2

  • Название:
  • Задача:
  • Данные:
  • Литература:
  • Базовой алгоритм:
  • Решение:
  • Новизна:
  • Консультант:
Личные инструменты