Автоматизация научных исследований в машинном обучении (практика, В.В. Стрижов)/Группа 694, весна 2019

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задача 18)
(Задача 41)
Строка 207: Строка 207:
* '''Авторы''': Yury Maximov (consultant and expert), Michael Chertkov (expert)
* '''Авторы''': Yury Maximov (consultant and expert), Michael Chertkov (expert)
* '''Замечания''': the problem has both the computational and the theoretical focuses, so 2 students are ok to work on this topic
* '''Замечания''': the problem has both the computational and the theoretical focuses, so 2 students are ok to work on this topic
 +
 +
=== Задача 4 ===
 +
* '''Название:''' Автоматическая настройка параметров АРТМ под широкий класс задач.
 +
* '''Задача:''' Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что задача настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации и автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
 +
*'''Данные:''' [https://archive.ics.uci.edu/ml/datasets/Victorian+Era+Authorship+Attribution Victorian Era Authorship Attribution Data Set], [https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups 20 Newsgroups], МКБ-10, триплеты для поиска/ранжирования.
 +
* '''Литература:'''
 +
*# ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
 +
*# Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
 +
*# Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
 +
* '''Базовый алгоритм:''' PLSA / LDA / логрегрессия.
 +
* '''Решение:''' bigARTM с фоновыми темами и регуляризаторами сглаживания, разреживания и декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
 +
* '''Новизна:''' Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
 +
* '''Авторы:''' консультант Виктор Булатов, эксперт К.В. Воронцов.

Версия 20:32, 20 февраля 2019

Видео докладов по курсу на канале Machine Learning на Youtube


Содержание


Моя первая научная публикация

Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.

Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылки Консультант Рецензент Доклады Буквы \Sigma
Гончаров Алексей (пример) Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук Андрей BMF AILSBRCVTDSWH>
Фамилия Имя название ссылки консультант рецензент доклад буквы оценка

Расписание

Дата N Что делаем Результат для обсуждения Буква
Февраль 14 1 Организация работы, расписание, инструменты. Инструменты подготовлены к работе.
21 2 ДЗ-1. Выбор задачи Тема в ML и ссылка на работу в SF помещена напротив фамилии.
28 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
Март 7 4 Поставить задачу и сделать описание базового алгоритма, подготовить базовый вычислительный эксперимент. Постановка задачи (0.5-1 страница), описание базового алгоритма. Подготовить доклад 45 сек. B-talk, Statement
14 5 Поставить базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Показ статьи. Базовый код, отчет о работе базового алгоритма (кратко). Basic code, Report, cHeck-1
21 6 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
28 7 Описать алгоритм. Теоретическая и алгоритмическая часть статьи (второй / третий раздел). Подготовить промежуточный доклад со слайдами, 2-3 минуты. M-talk, Theory
Апрель 4 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
11 9 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
18 10 Контрольная точка — показ статьи в целом, рецензия. Статья в варианте для рецензирования. сHeck-2, RevieW
25 11 Подготовка презентации. Доклады и обсуждение. Final show, Slides
Май 16 12 Доработка статьи. Статья подготовлена к подаче в журнал. Journal


Список проектов

Шаблон описания проекта — научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
  • Авторы: эксперт, консультант.

Задача 18

  • Название: Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.
  • Задача: Нейрокомпьютерный интерфейс (BCI) позволяет помочь людям с ограниченными возможностями вернуть их мобильность. По имеющемуся описанию сигнала прибора необходимо смоделировать поведение субъекта.
  • Данные: Наборы данных сигналов мозга ECoG/EEG.
  • Литература:
    • Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
  • Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
  • Решение: В данной работе предлагается построить единую систему, решающую задачу декодирования сигналов. В качестве этапов построения такой системы предлагается решить задачи предобработки данных, выделения признакового пространства, снижения размерности и выбора модели оптимальной сложности. Предлагается использовать тензорный вариант PLS с отбором признаков.
  • Новизна: В постановке задачи учитывается комплексная природа сигнала: непрерывная траектория движения, наличие дискретных структурных переменных (пальцы или движение суставов), наличие непрерывных переменных (позиция пальца или конечности).
  • Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко

Задача 41

  • Название: Optimal Approximation of Non-linear Power Flow Problem
  • Задача: Our goal is to approximate the solution of non-linear non-convex optimal power flow problem by solving a sequence of convex optimization problems (aka trust region approach). On this way we propose to compare various approaches for approximate solution of this problem with adaptive approximation of the power flow non-linearities with a sequence of quadratic and/or piece-wise linear functions
  • Данные: Matpower module from MATLAB contains all necessary test cases. Start considering with IEEE 57 bus case.
  • Литература:
    1. Molzahn, D. K., & Hiskens, I. A. (2019). A survey of relaxations and approximations of the power flow equations. Foundations and Trends in Electric Energy Systems, 4(1-2), 1-221. https://www.nowpublishers.com/article/DownloadSummary/EES-012
    2. The QC Relaxation: A Theoretical and Computational Study on Optimal Power Flow. Carleton Coffrin  ; Hassan L. Hijazi ; Pascal Van Hentenryck https://ieeexplore.ieee.org/abstract/document/7271127/
    3. Convex Relaxations in Power System Optimization: A Brief Introduction. Carleton Coffrin and Line Roald. https://arxiv.org/pdf/1807.07227.pdf
    4. Optimal Adaptive Linearizations of the AC Power Flow Equations. Sidhant Misra, Daniel K. Molzahn, and Krishnamurthy Dvijotham https://molzahn.github.io/pubs/misra_molzahn_dvijotham-adaptive_linearizations2018.pdf
  • Базовой алгоритм: A set of algorithms described in [1] should be considered to compare with, details behind the proposed method would be shared by the consultant (a draft of the paper)
  • Решение: to figure out the quality of the solution we propose to compare it with the ones given by IPOPT and numerous relaxations, and do some reverse engineering regarding to our method
  • Новизна: The OPF is a truly hot topic in power systems, and is of higher interest by the discrete optimization community (as a general QCQP problem). Any advance in this area is of higher interest by the community
  • Авторы: Yury Maximov (consultant and expert), Michael Chertkov (expert)
  • Замечания: the problem has both the computational and the theoretical focuses, so 2 students are ok to work on this topic

Задача 4

  • Название: Автоматическая настройка параметров АРТМ под широкий класс задач.
  • Задача: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что задача настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации и автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
  • Данные: Victorian Era Authorship Attribution Data Set, 20 Newsgroups, МКБ-10, триплеты для поиска/ранжирования.
  • Литература:
    1. ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
    2. Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
    3. Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
  • Базовый алгоритм: PLSA / LDA / логрегрессия.
  • Решение: bigARTM с фоновыми темами и регуляризаторами сглаживания, разреживания и декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
  • Новизна: Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
  • Авторы: консультант Виктор Булатов, эксперт К.В. Воронцов.
Личные инструменты