Обсуждение:Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2015

Материал из MachineLearning.

Перейти к: навигация, поиск
(Supervised rank aggregation with monotone feature transformation)
Текущая версия (19:22, 25 февраля 2015) (править) (отменить)
(Simplification of the IR models structure)
 
(1 промежуточная версия не показана)
Строка 1: Строка 1:
 +
=== 39. Обучение метрик в задачах полного и частичного обучения ===
 +
* '''Консультант:''' Ю.В. Максимов
 +
* '''Задача:''' состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
 +
* '''Данные:''' Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом).
 +
* '''Литература:''' Список литературы и описание подробное задачи приведены [[Медиа:Maximov_Metric_Learning%28Strijov_Course%29.pdf| в файле]]
 +
* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
 +
* '''Базовый алгоритм:''' выпуклая релаксация задачи решаемая внутренней точкой через CVX.
 +
 +
=== 25. Сравнение эффективности логических методов в задачах анализа данных ===
 +
* '''Консультант:''' Ю.В. Максимов
 +
* '''Задача:''' состоит в сравнительном исследовании качества комбинаторно-логических методов при решении задач анализа данных. В частности, сравнении методов, основанных на построении ДНФ разделяющих классы(редукционный; последовательное перемножение (Дьяконов)) и др.
 +
* '''Данные:''' Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
 +
* '''Литература:''' [http://www.machinelearning.ru/wiki/images/b/b1/Logical_Methods_Maximov%28Strijov_Cource_Proposal%29.pdf приведена в файле]
 +
* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
 +
* '''Базовый алгоритм:''' Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие приведенные в файлах-описаниях.
 +
 +
 +
 +
 +
 +
 +
=== По мотивам Липатовой ===
=== По мотивам Липатовой ===
* '''Название''': Supervised rank aggregation with monotone feature transformation.
* '''Название''': Supervised rank aggregation with monotone feature transformation.
Строка 9: Строка 31:
* '''Решение''': Предлагается сравнивать модели как векторы их прогнозов. Тогда расстояния между прогнозами всех рядов всеми моделями образуют четырехиндексную матрицу. Среза матрицы, минимизирующего внутрикластерное расстояние между рядами и моделями, выбирается генетическим алгоритмом.
* '''Решение''': Предлагается сравнивать модели как векторы их прогнозов. Тогда расстояния между прогнозами всех рядов всеми моделями образуют четырехиндексную матрицу. Среза матрицы, минимизирующего внутрикластерное расстояние между рядами и моделями, выбирается генетическим алгоритмом.
* '''Новизна''': Предложен более точный метод кластеризации набора временных рядов.
* '''Новизна''': Предложен более точный метод кластеризации набора временных рядов.
-
 
-
 
== Задачи вокруг информационного поиска ==
== Задачи вокруг информационного поиска ==
-
=== Simplification of the IR models structure ===
+
 
-
* '''Название''': Simplification of the IR models structure
+
-
* '''Задача''': To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this
+
-
functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of the simple nonlinear functions and expect to obtain the comparable quality of solution.
+
-
* '''Данные''':
+
-
* '''Литература'''
+
-
** P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
+
-
** [https://www.dropbox.com/s/yw7xczcnm8fbymk/StructureSimplification.pdf?dl=0| Problem statement]
+
-
* '''Базовой алгоритм''': Exaustive search of superpositions from a set of elementary functions.
+
-
* '''Решение''': The optimal functions for the linear combination can be found by the greedy algorithm.
+
-
* '''Новизна''':
+
=== Порождение ранжирующих моделей методом Насти (ветвей и границ) ===
=== Порождение ранжирующих моделей методом Насти (ветвей и границ) ===

Текущая версия

Содержание

39. Обучение метрик в задачах полного и частичного обучения

  • Консультант: Ю.В. Максимов
  • Задача: состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
  • Данные: Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом).
  • Литература: Список литературы и описание подробное задачи приведены в файле
  • Замечания к коду: Замечания по программной реализации
  • Базовый алгоритм: выпуклая релаксация задачи решаемая внутренней точкой через CVX.

25. Сравнение эффективности логических методов в задачах анализа данных

  • Консультант: Ю.В. Максимов
  • Задача: состоит в сравнительном исследовании качества комбинаторно-логических методов при решении задач анализа данных. В частности, сравнении методов, основанных на построении ДНФ разделяющих классы(редукционный; последовательное перемножение (Дьяконов)) и др.
  • Данные: Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
  • Литература: приведена в файле
  • Замечания к коду: Замечания по программной реализации
  • Базовый алгоритм: Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие приведенные в файлах-описаниях.




По мотивам Липатовой

  • Название: Supervised rank aggregation with monotone feature transformation.
  • Задача: Сравниваются подходы к кластеризации временных рядов. Требуется кластеризовать набор временных рядов и приблизить каждый ряд прогностической моделью. Разница рассматриваемых подходов заключается в порядке выполнения шагов: 1) вначале выполнить кластеризацию, а затем приближать ряды/кластеры моделями или 2) вначале приблизить каждый ряд моделей, а затем кластеризовать набор рядов, используя информацию о сходстве моделей. Исследования, проведенные в [1] позволяют предположить, что второй подход точнее. Предлагается также рассмотреть комбинированный подход, при котором выбор модели и кластеризация временных рядов происходят одновременно [2].
  • Данные: Временные ряды акселерометра, описывающие различные типы человеческой активности.
  • Литература
    • [1] М. Кузнецов. Классификация объектов сложной структуры. pdf
    • [2] А. Липатова. Одновременная кластеризация набора временных рядов и соответствующих им прогностических моделей. pdf
  • Базовой алгоритм: Кластеризация временных рядов на основе набора интегральных признаков: среднее, дисперсия, максимальное значение и другие статистики (см. [1]).
  • Решение: Предлагается сравнивать модели как векторы их прогнозов. Тогда расстояния между прогнозами всех рядов всеми моделями образуют четырехиндексную матрицу. Среза матрицы, минимизирующего внутрикластерное расстояние между рядами и моделями, выбирается генетическим алгоритмом.
  • Новизна: Предложен более точный метод кластеризации набора временных рядов.

Задачи вокруг информационного поиска

Порождение ранжирующих моделей методом Насти (ветвей и границ)

  • Название: Направленный поиск структуры ранжирующей модели.
  • Задача: Порождение ранжирующих моделей методом Насти (ветвей и границ). Решается задача поиска ранжирующей функции в задачах информационного поиска. В работе [1] поиск осуществляется полным перебором, обеспечивающим оптимальность найденного решения решения. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой G вида: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}.Каждой порождаемой функции выставляется оценка качества, вычисляемая как MAP (mean average precision) на некоторой коллекции документов. На основе этих оценок качества выделяются множества оптимальных ранжирующих структур. Требуется проверить гипотезу о наличии структурных закономерностей среди оптимальных/неоптимальных структур для сокращения полного перебора.
  • Данные: Списки допустимых сгенерированных функций длины 4-8, список из 100 лучших функций длины 8, список из 500 лучших функций с оценками качества.
  • Литература
    • Описание задачи
    • Описание коллекции данных, используемых для оценки функций, и процедуры оценки. pdf
  • Базовой алгоритм: Алгоритм полного перебора допустимых суперпозиций порождающих функций.
    • P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
  • Решение: (В рамках гипотезы о наличии набора/наборов структурно-близких оптимальных функций) В исходном методе порождаются все структуры заданной длины k с последовательным увеличением длины. Для сокращения полного перебора и упрощения процедуры их оценки предлагается выделить набор структур некоторой длины k, такой что все оптимальные структуры длины k+1 могут быть получены применением правил грамматики G к некоторой структуре из данного набора.
  • Новизна:
    • На данный момент в [1] был проведен поиск структур длины k до 10. Был обнаружен ряд функций, по качеству соперничающих с применяемыми на практике (например - BM25, ранжирующей функцией длины 25). Проведенные в [1] исследования позволяют предположить, что перебор структур с дальнейшим увеличением их длины выявит функции, существенно превосходящие по качеству обнаруженные ранее. Ограничением становится вычислительная сложность полного перебора при увеличении k. Сокращение процедуры перебора структур позволит увеличить сложность рассматриваемых структур.
    • Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.


 ?? Про разбиение большой коллекции на маленькие подколлекции для задачи стр. обучения

  • Название: Создание выборки для задачи структурного обучения
  • Задача: Про разбиение большой коллекции на маленькие подколлекции для задачи стр. обучения/ расстояние между моделями и коллекциями

Для построения ранжирующей модели методами структурного обучения необходимо собрать выборку: набор коллекций документов и полученных на этих коллекциях ранжирующих функций. Коллекции, на которых происходит обучение ранжирующей структуры, традиционно размечаются вручную, что затрудняет процесс сбора выборки для задачи структурного обучения. Варианты: предложить способ разбиения существующих коллекций на подколлекции. Здесь же можно рассмотреть зависимость построенного набора оптимальных функций от коллекции. воспользоваться методом построения псевдо-коллекций (новизны нет)

  • Данные:
  • Литература
    • Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
    • Nima Asadi, Donald Metzler, Tamer Elsayed, Jimmy Lin, “Pseudo Test Collections for Learning Web Search Ranking Functions”, 2011. pdf
  • Базовой алгоритм: ??.
  • Решение:
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Непараметрическое прогнозирование временных рядов

Синхронизация рядов

  • Название: Обнаружение закономерностей в наборах временных рядов
  • Задача: Разработать метод выявления связей между временными рядами, определяемых структурой фазового пространства. Требуется изучить набор подходов к выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей.
  • Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
  • Литература
    • Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
    • Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
    • George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
    • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Базовой алгоритм: Алгоритм сходящегося перекрестного отображения (Convergent Cross Mapping, CCM)
  • Решение:
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Условный прогноз

  • Название: Про учет экзогенных факторов
  • Задача: При прогнозировании железнодорожных грузоперевозок предлагается учесть как предысторию самих перевозок, так и экзогенные (внешние) факторы. Для учета экзогенных факторов при прогнозировании железнодорожных грузоперевозок необходимо развить ранее предложенный метод гистограммного прогнозирования Hist, основанный на свертке гистограммы временного ряда с функцией потерь.
  • Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
  • Литература
    • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
    • Model Estimation and Validation by Daniel McFadden, Antti Talvitie, and Associates, 1977
    • Density forecasting: обзор гистограммных подходов к прогнозированию временных рядов.
    • Экспериментальные исследования свойств алгоритма Hist [1], [2]
  • Базовой алгоритм: Алгоритм Hist.
  • Решение: Чтобы включить в модель гистограммного прогнозирования экзогенные переменные, необходимо разработать методы оценки многомерных гистограмм/ условных гистограмм временных рядов при небольшой длине истории. (Длина исследуемого временного не очень велика, что при увеличении размерности гистограммы приводит к ее разреженности).
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Выделение тренда и сезонности

  • Название: Повышение качества непараметрического пронгозирования путем выявления и учета экзогенных факторов (тренд и сезонность при этом выделяются из временного ряда и учитываются как экзогенные факторы)
  • Задача: Предлагается рассматривать тренд и сезонность как экзогенные факторы при прогнозировании железнодорожных перевозок.
  • Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
  • Литература
    • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
    • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.

временных рядов.

  • Базовой алгоритм: Метод Грейнджера?
  • Решение: Для проверки наличия тренда и сезонности используются существующие методы выявления экзогенных факторов. При этом сезонность моделируется тригонометрическими рядами, тренд - экзогенными временными рядами из заданного списка.
  • Новизна: Новый подход к выделению тренда и сезонности?
Личные инструменты