Обсуждение:Моя первая научная статья (лекции и практика, В.В. Стрижов)/Группы 874, 821, 813, весна 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 25: Строка 25:
* '''Новизна:''' Вместо многомерного выравнивания изображений предлагается параметрическое выравнивание.
* '''Новизна:''' Вместо многомерного выравнивания изображений предлагается параметрическое выравнивание.
* '''Авторы:''' Алексей Гончаров, Вадим Стрижов
* '''Авторы:''' Алексей Гончаров, Вадим Стрижов
 +
 +
===Задача 67===
 +
* '''Название:''' Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
 +
* '''Задача:''' Построить и исследовать модель прогнозирования направления движения цены.
 +
* '''Дано:'''
 +
*# Множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S.
 +
*# Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'.
 +
*# Множество T является подмножеством периода времени T'.
 +
*# Требуется спрогнозировать направление движения цены биржевого инструмента на следующий день после выхода новости.
 +
*Данные:'''
 +
** Финансовые данные: данные о котировках (с интервалом в один день) 1500 финансовых инструментов с сайта finance.yahoo.com; для каждой точки ряда известны дата, время, 5 цен (open, high, low, close, adjusted close), и объем.
 +
** Текстовые данные: отчёты 8-K компаний, поданные в комиссию по ценным бумагам; новости каждой компании представлены отдельными файлом.
 +
* '''Литература:'''
 +
*# Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
 +
*# Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
 +
*# Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
 +
*# Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
 +
* '''Базовой алгоритм:''' Метод, использованный в статье (4).
 +
* '''Решение:''' Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание.
 +
* '''Критерий качества:''' F1-score, ROC AUC, прибыльность используемой стратегии.
 +
* '''Новизна:''' Прогнозирование распределения вероятностей движения акций.
 +
* '''Авторы:''' В.В. Стрижов (эксперт), Валентин Ахияров (консультант)

Версия 22:54, 12 февраля 2021

Задача 65

  • Название: Existence conditions for hidden feedback loops in recommender systems
  • Описание проблемы: В рекомендательных системах известен эффект искусственного непреднамеренного ограничения выбора пользователя вследствие адаптации модели к его предпочтениям (echo chamber/filter bubble). Эффект является частным случаем петель скрытой обратной связи (hidden feedback loop). (см. - Analysis H.F.L.). Выражается в том, что путем рекомендации одних и тех же интересных пользователю объектов, алгоритм максимизирует качество своей работы. Проблема в а) недостаточном разнообразии б) насыщении / изменчивости интересов пользователя.
  • Задача: Понятно, что алгоритм не знает интересов пользователя и пользователь не всегда честен в выборе. При каких условиях, каких свойствах алгоритма обучения и нечестности (отклонении выбора пользователя от его интересов) будет наблюдаться указанный эффект? Уточнение. Рекомендательный алгоритм выдает пользователю объекты a_t на выбор. Пользователь выбирает один из них c_t из Бернулли от модели интереса mu(a_t) . На основе выбора пользователя алгоритм изменяет свое внутреннее состояние w_t и выдает следующий набор объектов пользователю. На бесконечном горизонте нужно максимизировать суммарное вознаграждение sum c_t. Найти условия существования неограниченного роста интереса пользователя к предлагаемым объектам в рекомендательной системе с алгоритмом Thomson Sampling (TS) MAB в условиях зашумленности выбора пользователя c_t. Без шума известно, что всегда неограниченный рост (в модели) [1].
  • Данные: создаются в рамках эксперимента (имитационная модель) по аналогии со статьей [1], внешние данные не требуются.
  • Литература
    1. Jiang, R., Chiappa, S., Lattimore, T., György, A. and Kohli, P., 2019, January. Degenerate feedback loops in recommender systems. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society (pp. 383-390).
    2. Khritankov, A. (2021). Hidden Feedback Loops in Machine Learning Systems: A Simulation Model and Preliminary Results. In International Conference on Software Quality (pp. 54-65). Springer, Cham.
    3. Khritankov A. (2021). Hidden feedback loop experiment demo. https://github.com/prog-autom/hidden-demo
  • Базовый алгоритм: Исходная математическая модель исследуемого явления описана в статье [1]. Метод экспериментального исследования - в статье [2]. Базовый исходный код доступен в [3]
  • Решение: Нужно вывести условия существования положительной обратной связи для алгоритма Thomson Sampling Multi-armed Bandit исходя из известных теоретических свойств этого алгоритма. Затем проверить их выполнение в имитационной модели. Для проверки выполняется серия экспериментов с исследованием диапазонов параметров и оценкой ошибки (variance) моделирования. Результаты сопоставляются с построенной ранее математической моделью эффекта. Есть реализация системы проведения эксперимента, которую можно доработать для данной задачи.
  • Новизна: Исследуемый эффект положительной обратной связи наблюдается в реальных и модельных системах и описан во многих публикациях как нежелательное явление. Есть его модель для ограниченного случая отсутствия шума в действиях пользователя, что не реализуется на практике. В предлагаемых условиях задача ранее не ставилась и не решалась для рекомендательных систем. Для задачи регрессии решение известно.
  • Авторы: Эксперт, консультант - Антон Хританков

Задача 66

  • Название: Выравнивание элементов изображений с помощью метрических моделей.
  • Задача: Задан набор символов. Каждый символ представлен одним файлом - изображением. Размер изображений в пикселях может отличаться. Известно, что все изображения принадлежат одному классу, например, лица, буквы, цветы или машины. (Более сложный вариант - одному классу, который мы исследуем и шумовым классам.) Известно, что каждое изображение может быть и помощью выравнивающей трансформации совмещено с другим с точностью до шума, либо до некоторого усредненного изображения. (Это изображение может как присутствовать, так и отсутствовать в выборке). Эта выравнивающая трансформация задается в базовом случае нейросетью, а в предлагаемом - параметрическим преобразованием из некоторого заданного класса (первое - частный случай второго). Выравненное изображение сравнивается с исходным с помощью функции расстояния. Если расстояние между двумя изображениями статистически значимо, делается вывод о принадлежности изображений одному классу. Требуется 1) предложить адекватную модель выравнивающей трансформации, которая берет в расчет предположения о характере изображения (например, только вращение и пропорциональное масштабирование), 2) предложить функцию расстояния, 3) преложить способ нахождения усредненного изображения.
  • Данные: Синтетические и реальные 1) картинки - лица и символы с трансформацией вращения и растяжения, 2) лица и автомобили с транфсормацией вращения 3D с проекцией в 2D. Синтетические изображения предлагается создавать вручную с помощью 1) фотографий листа бумаги, 2) фотографий поверхности рисунка на воздушном шарике.
  • Литература
    1. опорная работы - выравнивание картинок с помощью 2D DTW,
    2. опорная работа - выравнивание картинок с помощью нейросетей,
    3. работы по выравниванию DTW в 2D,
    4. работы по параметрическому выравниванию.
  • Базовой алгоритм: из работы 1.
  • Решение: В прилагаемом файле pdf.
  • Новизна: Вместо многомерного выравнивания изображений предлагается параметрическое выравнивание.
  • Авторы: Алексей Гончаров, Вадим Стрижов

Задача 67

  • Название: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
  • Задача: Построить и исследовать модель прогнозирования направления движения цены.
  • Дано:
    1. Множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S.
    2. Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'.
    3. Множество T является подмножеством периода времени T'.
    4. Требуется спрогнозировать направление движения цены биржевого инструмента на следующий день после выхода новости.
  • Данные:
    • Финансовые данные: данные о котировках (с интервалом в один день) 1500 финансовых инструментов с сайта finance.yahoo.com; для каждой точки ряда известны дата, время, 5 цен (open, high, low, close, adjusted close), и объем.
    • Текстовые данные: отчёты 8-K компаний, поданные в комиссию по ценным бумагам; новости каждой компании представлены отдельными файлом.
  • Литература:
    1. Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
    2. Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
    3. Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
    4. Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
  • Базовой алгоритм: Метод, использованный в статье (4).
  • Решение: Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание.
  • Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
  • Новизна: Прогнозирование распределения вероятностей движения акций.
  • Авторы: В.В. Стрижов (эксперт), Валентин Ахияров (консультант)
Личные инструменты