Автоматизация научных исследований в машинном обучении (практика, В.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задача 9)
(Задача 9)
Строка 125: Строка 125:
* '''Литература''': Список работ [http://www.machinelearning.ru/wiki/images/a/a2/Morozov2017Synthesis_of_medicines.pdf], в частности arXiv:1611.03199 и
* '''Литература''': Список работ [http://www.machinelearning.ru/wiki/images/a/a2/Morozov2017Synthesis_of_medicines.pdf], в частности arXiv:1611.03199 и
** Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
** Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
 +
** Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
 +
.
* '''Базовый алгоритм''': Сверточная сеть для растрового изображения.
* '''Базовый алгоритм''': Сверточная сеть для растрового изображения.
* '''Решение''': Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
* '''Решение''': Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.

Версия 16:59, 25 сентября 2018

Короткий адрес страницы http://bit.ly/AutomationML

Содержание

2019

Задача 1

  • Название: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
  • Задача: Построить и исследовать модель прогнозирования направления движения цены. Задано множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
  • Данные:
    1. Финансовые данные: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена и объем.
    2. Текстовые данные: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
  • Литература:
    1. Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
    2. Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
    3. Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
    4. Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
  • Базовый алгоритм: Метод, использованный в статье (4).
  • Решение: Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
  • Авторы: В.В. Стрижов (эксперт), К.В. Воронцов (эксперт), Иван Запутляев (консультант)

Задача 2

  • Название: Исследование опорных объектов в задаче метрической классификации временных рядов.
  • Задача: Функция DTW - это расстояние между двумя временными рядами, которые могут быть нелинейно деформированы друг относительно друга. Она ищет наилучшее выравнивание между двумя объектами, поэтому ее можно использовать в задаче метрической классификации объектов.

Один из методов решения задачи метрической классификации - измерение расстояний до опорных объектов и использование вектора этих расстояний в качестве признакового описания объекта. Метод DBA - это алгоритм построения центроидов (опорных объектов) для временных рядов на основе расстояния DTW. При построении расстояния между временным рядом и центроидом различные пары значений (например пиковые значения) более характерны для одного из классов, и влияние таких совпадений на значение расстояния должна быть выше. Необходимо исследовать различные способы построения опорных объектов, а также определение их оптимального числа. Критерием является качество работы метрического классификатора в задаче. В методе DBA для каждого центроида предлагается создавать вектор весов, который демонстрирует "значимость" измерений центриода, и использовать его в модифицированной функции расстояния weighted-DTW.

  • Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
  • Литература:
    1. DTW: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.215.7850&rep=rep1&type=pdf
    2. DBA: https://hal.sorbonne-universite.fr/hal-01630288/document
    3. weighted DTW: http://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=ia&paperid=414&option_lang=rus
  • Базовый алгоритм: Реализовать базовые методы:
    1. Выбор подмножества объектов обучающей выборки как опорных
    2. Предварительная обработка аномальных объектов
    3. Кластеризация объектов обучающей выборки для построения центроидов внутри кластера
    4. Использование метода DBA для построения опорных объектов
    5. Использование методов численной оптимизации для поиска оптимального вектора весов с заданными ограничениями
  • Решение: Расширение типов ограничений на вид вектора весов: бинарный вектор, одинаковый вектор для всех центроидов, бинарный одинаковый вектор для всех центроидов. Такое решение позволит экономить затраты энергии при работе датчиков мобильного устройства.

Исследование литературы и комбинация up-to-date методов.

  • Новизна: Не проводилось комплексного исследования различных способов построения центроидов и опорных элементов вместе с выбором их оптимального числа.
  • Авторы: Алексей Гончаров.

Задача 3

  • Название: Динамическое выравнивание многомерных временных рядов.
  • Задача: Характерным многомерным временным рядом является траектория точки в 3х-мерном пространстве. Две траектории необходимо выравнивать оптимальным образом друг относительно друга. Для этого используется расстояние DTW между двумя временными рядами. В классическом представлении DTW строится между одномерными временными рядами. Необходимо ввести различные модификации алгоритма для работы со временными рядами высокой размерности: траекториями, кортикограммами.
  • Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
  • Литература:
    1. Multidimensional DTW: https://pdfs.semanticscholar.org/76d3/5bd5a52453ebde80faaa1467d7effd74426f.pdf
  • Базовый алгоритм: Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
  • Решение: Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
  • Новизна: Нет полного обзора и исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
  • Авторы: Алексей Гончаров.

Задача 4

  • Название: Автоматическая настройка параметров АРТМ под широкий класс задач.
  • Задача: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что задача настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации и автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
  • Данные: Несколько наборов текстовых коллекций, для которых известно оптимальное решение.
  • Литература:
    1. ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
    2. Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
    3. Черновик с формулами: (файл будет позже)
  • Базовый алгоритм: PLSA / LDA / логрегрессия.
  • Решение: bigARTM с фоновыми темами и регуляризаторами сглаживания, разреживания и декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
  • Новизна: Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
  • Авторы: Виктор Булатов.

Задача 5

  • Название: Нахождение парафразов.
  • Задача: Парафразы — разные вариации одного и того же текста, одинаковые по смыслу, но отличающиеся лексически и грамматически, например: "Куда поехала машина" и "В каком направлении поехал автомобиль". Задача детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного и того же предложения.

Самый простой способ выделения парафразов — кластеризация текстов, где каждый текст представлен "мешком слов".

  • . Данные: Есть открытые датасеты вопросов для тестирования и обучения на kaggle.com, есть открытые данные для тестирования с конференций semeval.
  • Литература:
    1. Будет позже
  • Базовый алгоритм: Использовать для выделения парафразов какой-нибудь из алгоритмов кластеризации документов, где каждый документ представлен мешком слов или tf-idf.
  • Решение: Использовать нейросетевые архитектуры для поиска парафразов, использовать в качестве признаков словосочетания, выделенные с помощью синтаксических анализаторов, использовать многоуровневую кластеризацию.
  • Новизна: Отсутствие реализаций для русского языка, которые будут использовать синтаксические анализаторы для подобной задачи, все текущие решения достаточно "просты".
  • Авторы: Артём Попов.

Задача 6

  • Название: On conformational changes of proteins using collective motions in torsion angle space and L1 regularization.
  • Задача: Torsion angles are the most natural degrees of freedom for describing motions of polymers, such as proteins. This is because bond lengths and bond angles are heavily constrained by covalent forces. Thus, multiple attempts have been done to describe protein dynamics in the torsion angle space. For example, one of us has developed an elastic network model (ENM) [1] in torsion angle space called Torsional Network Model (TNM) [2].

Functional conformational changes in proteins can be described in the Cartesian space using just a subset of collective coordinates [3], or even a sparse representation of these [4]. The latter requires a solution of a LASSO optimization problem [5]. The goal of the current project is to study if a sparse subset of collective coordinates in the torsion subspace can describe functional conformational changes in proteins. This will require a solution of a ridge regression problem with a L1 regularization constraint. The starting point will be the LASSO formulation.

  • . Данные: Experimental conformations will be extracted from the Protein Docking Benchmark v5 (https://zlab.umassmed.edu/benchmark/) and a few others. The TNM model can be downloaded from https://ub.cbm.uam.es/tnm/tnm_soft_main.php
  • Литература:
    1. Tirion MM. (1996) Large Amplitude Elastic Motions in Proteins from a Single-Parameter, Atomic Anal- ysis. Phys Rev Lett. 77:1905–1908.
    2. Mendez R, Bastolla U. (2011) Torsional network model: normal modes in torsion angle space better correlate with conformation changes in proteins. Phys Rev Lett. 2010 104:228103.
    3. SwarmDock and the use of normal modes in protein-protein docking. IH Moal, PA Bates - International journal of molecular sciences, 2010
    4. Modeling protein conformational transition pathways using collective motions and the LASSO method. TW Hayes, IH Moal - Journal of chemical theory and computation, 2017
    5. https://en.wikipedia.org/wiki/Lasso_(statistics)
    6. E. Frezza, R. Lavery, Internal normal mode analysis (iNMA) applied to protein conformational flexibility, Journal of Chemical Theory and Computation 11 (2015) 5503–5512.
  • Базовый алгоритм: The starting point will be a combination of methods from references 2 and 4. It has to be a LASSO formulation with the direction vectors reconstructed from the internal coordinates. The quality will be computed based on the RMSD measure between the prediction and the solution on several benchmarks. Results will be presented with statistical plots (see examples in references 3-4.
  • Новизна: This is an important and open question in computational structural bioinformatics - how to efficiently represent transitions between protein structures. Not much has been done in the torsional angle subspace (internal coordinates)[6] and nearly nothing has been done using L1 regularization [4].
  • Авторы: Ugo Bastolla on the torsional subspace (https://ub.cbm.uam.es/home/ugo.php), Sergei Grudinin on L1 minimization (https://team.inria.fr/nano-d/team-members/sergei-grudinin/)

Задача 7

  • Название: Привилегированное обучение в задаче аппроксимации границ радужки глаза
  • Задача: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю и внешнюю границу радужки.
  • Данные: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны и другие размеры)[1], [2].
  • Литература:
    • Адуенко А.А. Выбор мультимоделей в задачах классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [3]
    • К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория и системы управления, 2014, № 2, с. 78–92.
    • Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
  • Базовый алгоритм: Ефимов Юрий. Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
  • Решение: См. Iris_circle_problem.pdf
  • Новизна: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
  • Консультант: Радослав Нейчев (автор Стрижов В.В., эксперт Матвеев И.А.)

Задача 8

  • Название: Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
  • Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
  • Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
    • WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
  • Литература:
    • Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
    • Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
    • Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
    • Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
    • Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
    • Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
  • Базовый алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
  • Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные. Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
  • Новизна: Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
  • Авторы: С.Д. Иванычев, Р.Г. Нейчев, В.В. Стрижов, М.П. Кузнецов, П.В. Левдик, Олег Терехов (ответственный)

Задача 9

  • Название: Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
  • Задача: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
  • Данные: Шрифты в растровом представлении.
  • Литература: Список работ [4], в частности arXiv:1611.03199 и
    • Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
    • Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.

.

  • Базовый алгоритм: Сверточная сеть для растрового изображения.
  • Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
  • Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
  • Авторы: Илья Жариков (эксперты Л.М. Местецкий, И.А. Рейер, В.В. Стрижов)

Задача 10

  • Название:
  • Задача:
  • Данные:
  • Литература:
  • Базовой алгоритм:
  • Решение:
  • Новизна::
  • Авторы: Илья Жариков
Личные инструменты