Алгебра над алгоритмами и эвристический поиск закономерностей
Материал из MachineLearning.
Руководитель спецсеминара: д.ф.-м.н., профессор Дьяконов Александр Геннадьевич
Направления работы на спецсеминаре
|   | См. также «Правила для постоянных участников». | 
|   | Информация для второкурсников! | 
 
  | 
В рамках работы на спецсеминаре есть два направления исследования:
- Теоретическое. Проводится в рамках алгебраического подхода к решению задач распознавания. Суть подхода: на алгоритмах, которые решают задачи обработки и анализа данных, специальным образом вводятся алгебраические операции. Например, можно складывать алгоритмы (получается опять алгоритм), умножать и т. д. Среди получаемых алгебраических выражений над «естественными» алгоритмами есть высокоэффективные алгоритмы. На спецсеминаре рассматриваются вопросы: как их строить, анализировать, реализовывать на ЭВМ и т. д. и т. п. Здесь же возникают задачи современной теории интерполяции: построения функций специального вида, заданных частично. Можно заниматься дискретным направлением: решать подобные задачи для функций, принимающих значения 0 и 1. Данное направление представляет особую ценность студентам, которые хотят получить самостоятельные результаты в науке и продолжить обучение в аспирантуре.
 - Прикладное. Решаются реальные прикладные задачи анализа данных (data mining). Например, построение рекомендательных систем, прогнозирование свойств динамических графов (в том числе и графов социальных сетей), прогнозирование поведения потребителей, анализ метаданных, классификация сигналов головного мозга, классификация сигналов-показаний работы механизмов, настройка спам-фильтров, автоматическая рубрикация текстов, прогнозирование финансовых временных рядов. От студентов требуется желание глубоко понять задачу (данные и скрытые в них закономерности), умение быстро осваивать новые методы (в незнакомой области), хорошо программировать, выдвигать гипотезы и фантазировать (последнее очень важно).
 
Заседания спецсеминара
|   | Заседания проходят по понедельникам в ауд. 605, начало в 18:10. Вход свободный. | 
| Дата | Докладчик | Доклад | Материалы | 
|---|---|---|---|
| 17 сентября 2014 | Дьяконов Александр, руководитель | Организационные вопросы: производственная практика, курсовые и дипломные работы, распределение тем докладов | |
| 24 сентября 2014 | Нижибицкий Евгений, аспирант | Музыкальная транскрипция при помощи методов машинного обучения | Презентация (pdf) | 
| 1 октября 2014 | Остапец Андрей, аспирант | Особенности работы с большими данными | Презентация (pdf) | 
| 8 октября 2014 | Рыжков Александр, 5-й курс | Язык программирования Julia | Презентация (pdf), коды (zip) | 
| 15 октября 2014 | Славнов Константин, 4-й курс | Анализ соцсетей | Презентация (pdf) | 
| 22 октября 2014 | Рысьмятова Анастасия, 3-й курс | Основы эконометрики | --- | 
| 29 октября 2014 | Кудрявцев Георгий, 3-й курс | Закон Бенфорда | --- | 
| 5 ноября 2014 | Харациди Олег, 5-й курс | Инструменты для хранения и обработки больших данных, разработанные в Google | --- | 
| 12 ноября 2014 | Нижибицкий Евгений, аспирант | Рассказ про конкурс Avito по поиску контактной информации на изображениях | Презентация (pdf), отчет (pdf), cтраница конкурса | 
| 19 ноября 2014 | Остапец Андрей, аспирант | Иерархическая классификация текстов. Конкурс LSHTC1 | Презентация (pdf), IPython notebook (zip) | 
| 26 ноября 2014 | Нижибицкий Евгений, аспирант | Традиционный доклад про Deep Learning | Презентация (pdf) на Яндекс.Диске | 
| 3 декабря 2014 | Вихрева Мария, 3-й курс | Отбор признаков в графе | Презентация (pdf), статья (pdf) | 
| Рыжков Александр, 5-й курс | Ансамблирование алгоритмов машинного обучения | Презентация (pdf) | |
| 10 декабря 2014 | Харациди Олег, 5-й курс | Анализ сообщений в Twitter | --- | 
| 17 декабря 2014 | Славнов Константин, 4-й курс | Алгоритмы детектирования сообществ в социальных сетях | --- | 
| 16 февраля 2015 | Рысьмятова Анастасия, 3-й курс | Выявление мошенничества с кликами в интернет-рекламе | Статья (pdf) | 
| 2 марта 2015 | Трофимов Михаил, 5-й курс | Факторизационные машины | Статья 2010 г. (pdf), статья 2013 г. (pdf) | 
| Кудрявцев Георгий, 3-й курс | Сверточные сети и метод водораздела для семантической сегментации RGBD-видео | Статья (pdf) | |
| 16 марта 2015 | Гущин Александр, 4-й курс | Рассказ про конкурс АХА по выявлению поездок на машине с «неродным» водителем | Страница конкурса на kaggle.com | 
| 23 марта 2015 | Дьяконов Александр, руководитель | Спектральная теория графов | слайды | 
| 30 марта 2015 | Рыжков Александр, 5-й курс | Deep plankton learning - road to the top | Презентация(pdf) | 
| 27 апреля 2015 | Рыжков Александр, Харациди Олег, Славнов Константин | Пред-предзащита дипломных и ВКР: Композиции алгоритмов, основанные на случайном лесе | |
| 18 мая 2015 | Кудрявцев Георгий, Рысьмятова Анастасия, Вихрева Мария | Защита курсовых | 
Заседния в предыдущих семестрах:
- Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2013—2014 уч. года (осенний семестр).
 - Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2012-2013 уч. года (весенний семестр).
 - Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2012-2013 уч. года (осенний семестр).
 - Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2011-2012 уч. года (весенний семестр).
 - Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2011-2012 уч. года (осенний семестр).
 - Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2010-2011 уч. года (весенний семестр).
 
Текущие задания участников спецсеминара
| Участник | Задание (каждый сам заполняет свою ячейку) | Комментарий | 
|---|---|---|
| Нижибицкий Евгений (А1) | ||
| Остапец Андрей (А1) | ||
| Кудрявцев Георгий (417) | ||
| Рысьмятова Анастасия (417) | ||
| Вихрева Мария (317) | ||
| Каюмов Эмиль (317) | ||
| Никишин Евгений (317) | ||
| Севастопольский Артём (317) | ||
| Трофимов Михаил (МФТИ) | ||
| Гущин Александр (МФТИ) | 
Возможные темы для будущих докладов
| Источник | Пояснение | Возможные темы | 
|---|---|---|
| статьи журнала | Доклады по статьям журнала Journal of Machine Learning Research | |
| ссылки | Ансамблирование алгоритмов | |
| Mining of Massive Datasets | Много актуальных тем - доклады прямо по главам книги. Необходимо посмотреть также дополнительную литературу. | |
| Kaggle | Как всегда - обзор свежих интересных задач. | |
| pca.narod.ru | Много материалов про многомерный метод главных компонент. Тем - куча. Можно походить по ссылкам - посмотреть смежные области. | |
| hp Kleinber | Много разных интересных статей и книг по графам, соцсетям, играм и т.п. В докладе можно изложить содержание 1-3 статей. | |
| гугл: multi-dimensional sparse matrix, multi-dimensional sparse svd | Всё, что касается решения задач с факторными признаками. | Многомерный метод SVD: алгоритмы и приложения | 
Участники спецсеминара
| Год выпуска | Участники | 
|---|---|
| 2015 | 
 Харациди Олег 
  | 
| 2015 бак | 
 Славнов Константин 
  | 
| 2016 бак | 
 Кудрявцев Георгий 
 Рысьмятова Анастасия 
 Вихрева Мария 
  | 
| аспиранты 1 г.о. | 
 
  | 
Выпускники спецсеминара
| Год выпуска | Выпускники | 
|---|---|
| Аспирант, 2010 | 
 Карпович Павел 
 Диссертация: «K-сингулярные системы точек в алгебраическом подходе к распознаванию образов» (2010, успешно защищена 18.02.2011 по специальности 01.01.09).  | 
| 2014 | 
 
 
 
  | 
| 2013 | 
 Бобрик Ксения 
 Ермушева Александра 
 Кириллов Александр 
 Кондрашкин Дмитрий (перевёлся на другой спецсеминар) 
 
 
  | 
| 2012 | 
  | 
| 2010 | 
 Ахламченкова Ольга 
 Токарева (Одинокова) Евгения 
  | 
| 2009 | 
 Власова Юлия 
 Логинов Вячеслав 
 Фёдорова Валентина 
 Чучвара Алексндра (бакалавр) 
  | 
| 2008 | 
 Ломова Дарья 
 Вершкова Ирина 
  | 
| 2007 | 
 Кнорре Анна 
 Карпович Павел 
 Сиваченко Евгений 
  | 
| 2006 | 
 Ховратович (Курятникова) Татьяна 
 Мошин Николай 
  | 
| 2005 | 
 Каменева Наталия 
 Силкин Леонид 
  | 
Некоторые решаемые прикладные задачи
- Прогнозирование временных рядов По характеристикам процесса в прошлом предсказать поведение в будущем. Знание о прошлом может быть неполным или ошибочным. Типичный пример: прогнозирование денежных сумм, которые будут сниматься с банкомата в течение следующей недели.
 - Классификация технических сигналов и сигналов головного мозга По описанию изменения некоторой характеристики процесса необходимо определить её класс. Например, по электрокортикограмме определить ментальное состояние человека. При этом обучающая выборка (данные, которые у нас есть) была собрана достаточно давно, а тестирование алгоритма будет проводиться потом (при изменённых внешних условиях, а следовательно, при изменённых характеристиках данных).
 - Фильтрация спама Настроить спам-фильтр на некотором универсальном обучающем множестве (данных спам-ловушек) так, чтобы он хорошо работал на компьютере конкретного пользователя (без дополнительной донастройки).
 - Иерархическая классификация текстов Написать алгоритм автоматической категоризации документов. Например, новостные рассылки необходимо распределить по каталогам «спорт/футбол», «спорт/биатлон», «музыка/концерты», «музыка/рок/исполнители» и т. д.
 - Ранжирование документов на основе обучающего множества Написать алгоритм, который оценивает релевантность документа поисковому запросу. Для фиксированного запроса упорядочить документы (используя их признаковые описания) так, чтобы порядок отражал «адекватность» запроса.
 - Прогноз связности графа социальной сети Предсказать изменения динамического графа социальной сети, в частности, появление новых рёбер.
 - Прогнозирование успешности грантов и проектов По описанию заявки оценить перспективность выполнения данного проекта.
 - Разработка рекомендательного алгоритма, который делает актуальные предложения купить какой-то товар, воспользоваться услугой или прочитать материал.
 - Предсказывание визитов покупателей и сумм покупок для сети супермаркетов Разработка алгоритма, который предсказывает дату первого визита и сумму покупки каждого клиента.
 - Оценка фотографий по метаданным Прогноз «интересности» фото-материалов на основе анализа названия, описания, GPS-координат съёмки и т.п.
 - Задача кредитного скоринга Прогнозирование надёжности клиента банка по обязательствам выплаты процентов кредита.
 

