Участник:AntonVoronov

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(2019)
(Задача 4)
Строка 65: Строка 65:
* '''Новизна:''' Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
* '''Новизна:''' Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
* '''Авторы:''' Виктор Булатов (эксперт)
* '''Авторы:''' Виктор Булатов (эксперт)
-
=== Задача 4 ===
+
=== Задача 5 ===
* '''Название:''' Нахождение парафразов.
* '''Название:''' Нахождение парафразов.
* '''Задача:''' Парафразы — разные вариации одного и того же текста, одинаковые по смыслу, но отличающиеся лексически и грамматически, например: "Куда поехала машина" и "В каком направлении поехал автомобиль". Задача детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного и того же предложения.
* '''Задача:''' Парафразы — разные вариации одного и того же текста, одинаковые по смыслу, но отличающиеся лексически и грамматически, например: "Куда поехала машина" и "В каком направлении поехал автомобиль". Задача детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного и того же предложения.

Версия 15:19, 25 сентября 2018

Содержание

2019

Задача 1

  • Название: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
  • Задача: Построить и исследовать модель прогнозирования направления движения цены. Задано множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
  • Данные:
    1. Финансовые данные: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена и объем.
    2. Текстовые данные: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
  • Литература:
    1. Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
    2. Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
    3. Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
    4. Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
  • Базовый алгоритм: Метод, использованный в статье (4).
  • Решение: Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
  • Авторы: В.В. Стрижов (эксперт), К.В. Воронцов (эксперт), Иван Запутляев (консультант)

Задача 2

  • Название: Исследование опорных объектов в задаче метрической классификации временных рядов.
  • Задача: Функция DTW - это расстояние между двумя временными рядами, которые могут быть нелинейно деформированы друг относительно друга. Она ищет наилучшее выравнивание между двумя объектами, поэтому ее можно использовать в задаче метрической классификации объектов.

Один из методов решения задачи метрической классификации - измерение расстояний до опорных объектов и использование вектора этих расстояний в качестве признакового описания объекта. Метод DBA - это алгоритм построения центроидов (опорных объектов) для временных рядов на основе расстояния DTW. При построении расстояния между временным рядом и центроидом различные пары значений (например пиковые значения) более характерны для одного из классов, и влияние таких совпадений на значение расстояния должна быть выше. Необходимо исследовать различные способы построения опорных объектов, а также определение их оптимального числа. Критерием является качество работы метрического классификатора в задаче. В методе DBA для каждого центроида предлагается создавать вектор весов, который демонстрирует "значимость" измерений центриода, и использовать его в модифицированной функции расстояния weighted-DTW.

  • Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
  • Литература:
    1. DTW: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.215.7850&rep=rep1&type=pdf
    2. DBA: https://hal.sorbonne-universite.fr/hal-01630288/document
    3. weighted DTW: http://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=ia&paperid=414&option_lang=rus
  • Базовый алгоритм: Реализовать базовые методы:
    1. Выбор подмножества объектов обучающей выборки как опорных
    2. Предварительная обработка аномальных объектов
    3. Кластеризация объектов обучающей выборки для построения центроидов внутри кластера
    4. Использование метода DBA для построения опорных объектов
    5. Использование методов численной оптимизации для поиска оптимального вектора весов с заданными ограничениями
  • Решение: Расширение типов ограничений на вид вектора весов: бинарный вектор, одинаковый вектор для всех центроидов, бинарный одинаковый вектор для всех центроидов. Такое решение позволит экономить затраты энергии при работе датчиков мобильного устройства.

Исследование литературы и комбинация up-to-date методов.

  • Новизна: Не проводилось комплексного исследования различных способов построения центроидов и опорных элементов вместе с выбором их оптимального числа.
  • Авторы: Алексей Гончаров (эксперт)

Задача 3

  • Название: Динамическое выравнивание многомерных временных рядов.
  • Задача: Характерным многомерным временным рядом является траектория точки в 3х-мерном пространстве. Две траектории необходимо выравнивать оптимальным образом друг относительно друга. Для этого используется расстояние DTW между двумя временными рядами. В классическом представлении DTW строится между одномерными временными рядами. Необходимо ввести различные модификации алгоритма для работы со временными рядами высокой размерности: траекториями, кортикограммами.
  • Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
  • Литература:
    1. Multidimensional DTW: https://pdfs.semanticscholar.org/76d3/5bd5a52453ebde80faaa1467d7effd74426f.pdf
  • Базовый алгоритм: Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
  • Решение: Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
  • Новизна: Нет полного обзора и исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
  • Авторы: Алексей Гончаров (эксперт)

Задача 4

  • Название: Автоматическая настройка параметров АРТМ под широкий класс задач.
  • Задача: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов.

Однако такая гибкость приводит к тому, что задача настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации и автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач.

  • . Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование).
  • . Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель".
  • . Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете.
  • . Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
  • . Данные: Несколько наборов текстовых коллекций, для которых известно оптимальное решение.
  • Литература:
    1. ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
    2. Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
    3. Черновик с формулами: (файл будет позже)
  • Базовый алгоритм: PLSA / LDA / логрегрессия.
  • Решение: bigARTM с фоновыми темами и регуляризаторами сглаживания, разреживания и декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
  • Новизна: Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
  • Авторы: Виктор Булатов (эксперт)

Задача 5

  • Название: Нахождение парафразов.
  • Задача: Парафразы — разные вариации одного и того же текста, одинаковые по смыслу, но отличающиеся лексически и грамматически, например: "Куда поехала машина" и "В каком направлении поехал автомобиль". Задача детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного и того же предложения.

Самый простой способ выделения парафразов — кластеризация текстов, где каждый текст представлен "мешком слов".

  • . Данные: Есть открытые датасеты вопросов для тестирования и обучения на kaggle.com, есть открытые данные для тестирования с конференций semeval.
  • Литература:
    1. Будет позже
  • Базовый алгоритм: Использовать для выделения парафразов какой-нибудь из алгоритмов кластеризации документов, где каждый документ представлен мешком слов или tf-idf.
  • Решение: Использовать нейросетевые архитектуры для поиска парафразов, использовать в качестве признаков словосочетания, выделенные с помощью синтаксических анализаторов, использовать многоуровневую кластеризацию.
  • Новизна: Отсутствие реализаций для русского языка, которые будут использовать синтаксические анализаторы для подобной задачи, все текущие решения достаточно "просты".
  • Авторы: Артём Попов (эксперт)
Личные инструменты