Обсуждение:Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2015

Материал из MachineLearning.

Перейти к: навигация, поиск
м (Упрощение суперпозиций, доработка статьи Кулунчакова и Сологуба)
Текущая версия (19:22, 25 февраля 2015) (править) (отменить)
(Simplification of the IR models structure)
 
(24 промежуточные версии не показаны)
Строка 1: Строка 1:
-
== Порождение моделей информационного поиска ==
+
=== 39. Обучение метрик в задачах полного и частичного обучения ===
 +
* '''Консультант:''' Ю.В. Максимов
 +
* '''Задача:''' состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
 +
* '''Данные:''' Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом).
 +
* '''Литература:''' Список литературы и описание подробное задачи приведены [[Медиа:Maximov_Metric_Learning%28Strijov_Course%29.pdf| в файле]]
 +
* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
 +
* '''Базовый алгоритм:''' выпуклая релаксация задачи решаемая внутренней точкой через CVX.
 +
 
 +
=== 25. Сравнение эффективности логических методов в задачах анализа данных ===
 +
* '''Консультант:''' Ю.В. Максимов
 +
* '''Задача:''' состоит в сравнительном исследовании качества комбинаторно-логических методов при решении задач анализа данных. В частности, сравнении методов, основанных на построении ДНФ разделяющих классы(редукционный; последовательное перемножение (Дьяконов)) и др.
 +
* '''Данные:''' Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
 +
* '''Литература:''' [http://www.machinelearning.ru/wiki/images/b/b1/Logical_Methods_Maximov%28Strijov_Cource_Proposal%29.pdf приведена в файле]
 +
* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
 +
* '''Базовый алгоритм:''' Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие приведенные в файлах-описаниях.
 +
 
 +
 
 +
 
 +
 
 +
 
 +
 
 +
 
 +
=== По мотивам Липатовой ===
 +
* '''Название''': Supervised rank aggregation with monotone feature transformation.
 +
* '''Задача''': Сравниваются подходы к кластеризации временных рядов. Требуется кластеризовать набор временных рядов и приблизить каждый ряд прогностической моделью. Разница рассматриваемых подходов заключается в порядке выполнения шагов: 1) вначале выполнить кластеризацию, а затем приближать ряды/кластеры моделями или 2) вначале приблизить каждый ряд моделей, а затем кластеризовать набор рядов, используя информацию о сходстве моделей. Исследования, проведенные в [1] позволяют предположить, что второй подход точнее. Предлагается также рассмотреть комбинированный подход, при котором выбор модели и кластеризация временных рядов происходят одновременно [2].
 +
* '''Данные''': Временные ряды акселерометра, описывающие различные типы человеческой активности.
 +
* '''Литература'''
 +
** [1] М. Кузнецов. Классификация объектов сложной структуры. [http://svn.code.sf.net/p/mlalgorithms/code/TSLearning/doc/TSClassification/TSClassification.pdf?format=raw| pdf]
 +
** [2] А. Липатова. Одновременная кластеризация набора временных рядов и соответствующих им прогностических моделей. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Lipatova2014StructureLearning/doc/Lipatova2014StructureModelling.pdf?format=raw| pdf]
 +
* '''Базовой алгоритм''': Кластеризация временных рядов на основе набора интегральных признаков: среднее, дисперсия, максимальное значение и другие статистики (см. [1]).
 +
* '''Решение''': Предлагается сравнивать модели как векторы их прогнозов. Тогда расстояния между прогнозами всех рядов всеми моделями образуют четырехиндексную матрицу. Среза матрицы, минимизирующего внутрикластерное расстояние между рядами и моделями, выбирается генетическим алгоритмом.
 +
* '''Новизна''': Предложен более точный метод кластеризации набора временных рядов.
 +
 
 +
== Задачи вокруг информационного поиска ==
 +
 
 +
 
=== Порождение ранжирующих моделей методом Насти (ветвей и границ) ===
=== Порождение ранжирующих моделей методом Насти (ветвей и границ) ===
* '''Название''': Направленный поиск структуры ранжирующей модели.
* '''Название''': Направленный поиск структуры ранжирующей модели.
-
 
* '''Задача''': Порождение ранжирующих моделей методом Насти (ветвей и границ). Решается задача поиска ранжирующей функции в задачах информационного поиска. В работе [1] поиск осуществляется полным перебором, обеспечивающим оптимальность найденного решения решения. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой G вида: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}.Каждой порождаемой функции выставляется оценка качества, вычисляемая как MAP (mean average precision) на некоторой коллекции документов. На основе этих оценок качества выделяются множества оптимальных ранжирующих структур. Требуется проверить гипотезу о наличии структурных закономерностей среди оптимальных/неоптимальных структур для сокращения полного перебора.
* '''Задача''': Порождение ранжирующих моделей методом Насти (ветвей и границ). Решается задача поиска ранжирующей функции в задачах информационного поиска. В работе [1] поиск осуществляется полным перебором, обеспечивающим оптимальность найденного решения решения. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой G вида: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}.Каждой порождаемой функции выставляется оценка качества, вычисляемая как MAP (mean average precision) на некоторой коллекции документов. На основе этих оценок качества выделяются множества оптимальных ранжирующих структур. Требуется проверить гипотезу о наличии структурных закономерностей среди оптимальных/неоптимальных структур для сокращения полного перебора.
* '''Данные''': Списки допустимых сгенерированных функций длины 4-8, список из 100 лучших функций длины 8, список из 500 лучших функций с оценками качества.
* '''Данные''': Списки допустимых сгенерированных функций длины 4-8, список из 100 лучших функций длины 8, список из 500 лучших функций с оценками качества.
* '''Литература'''
* '''Литература'''
-
** [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014FunctionLearning/doc/Motrenko2014FL.pdf?format=raw|Описание задачи]
+
** [http://svn.code.sf.net/p/mlalgorithms/code/Group874/Motrenko2014FunctionLearning/doc/Motrenko2014FL.pdf?format=raw| Описание задачи]
-
** Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw|pdf]
+
** Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw| pdf]
* '''Базовой алгоритм''': Алгоритм полного перебора допустимых суперпозиций порождающих функций.
* '''Базовой алгоритм''': Алгоритм полного перебора допустимых суперпозиций порождающих функций.
** P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
** P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
Строка 16: Строка 50:
** Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.
** Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.
-
=== Структурное обучение при порождении моделей ===
 
-
* '''Название''': Структурное обучение при порождении моделей
 
-
* '''Задача''': Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
 
-
* '''Данные''': Подколлекции TREC.
 
-
* Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw|pdf]
 
-
* '''Литература'''
 
-
** Jaakkola T. Scaled structured prediction.
 
-
* [http://www.youtube.com/watch?v=LbsBguCUFEc|Лекция Tommi Jaakkola “Scaling structured prediction”]
 
-
** ''Найти все работы учеников TJ по данной тематике.''
 
-
** Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
 
-
* '''Базовой алгоритм''': Парантапа, BM25 - модели для сравнения.
 
-
* '''Решение''':
 
-
* '''Новизна''': Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
 
Строка 41: Строка 62:
* '''Литература'''
* '''Литература'''
** Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
** Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
-
** Nima Asadi, Donald Metzler, Tamer Elsayed, Jimmy Lin, “Pseudo Test Collections for Learning Web Search Ranking Functions”, 2011. [https://www.cs.umd.edu/sites/default/files/scholarly_papers/NimaAsadi_1.pdf |pdf]
+
** Nima Asadi, Donald Metzler, Tamer Elsayed, Jimmy Lin, “Pseudo Test Collections for Learning Web Search Ranking Functions”, 2011. [https://www.cs.umd.edu/sites/default/files/scholarly_papers/NimaAsadi_1.pdf| pdf]
* '''Базовой алгоритм''': ??.
* '''Базовой алгоритм''': ??.
* '''Решение''':
* '''Решение''':
Строка 47: Строка 68:
-
=== Упрощение суперпозиций, доработка статьи Кулунчакова и Сологуба ===
 
-
* '''Название''': Упрощение суперпозиций, доработка статьи Кулунчакова и Сологуба
 
-
* '''Задача''': Написать обзор по методам упрощения суперпозиции, провести их сравнение (желательно на данных TREC?)
 
-
* '''Данные''':
 
-
* '''Литература'''
 
-
** Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
 
-
** Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
 
-
** Роман Сологуб. Алгоритмы индуктивного порождения и трансформации моделей. [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/PhDThesis/Sologub2013GenerationFinal/diss/my_input_2e.pdf?format=raw]
 
-
** [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014IsomorphicStructures/doc/Kulunchakov2014IsomorphicStructures.pdf?format=raw| Kulunchakov2014IsomorphicStructures.pdf]
 
-
* '''Базовой алгоритм''': .
 
-
* '''Решение''':
 
-
* '''Новизна''': Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
 
== Непараметрическое прогнозирование временных рядов ==
== Непараметрическое прогнозирование временных рядов ==
Строка 74: Строка 83:
* '''Решение''':
* '''Решение''':
* '''Новизна''': Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
* '''Новизна''': Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
-
 
Строка 85: Строка 93:
** [http://eml.berkeley.edu/wp/utdfp/vol5/iv-3.pdf|Demand Model Estimation and Validation] by Daniel McFadden, Antti Talvitie, and Associates, 1977
** [http://eml.berkeley.edu/wp/utdfp/vol5/iv-3.pdf|Demand Model Estimation and Validation] by Daniel McFadden, Antti Talvitie, and Associates, 1977
** [https://docs.google.com/document/d/1rM94pkq9dsq4MJFPlfFA5Me2FPlu8dBDEV7VUckUT9o/pub Density forecasting]: обзор гистограммных подходов к прогнозированию временных рядов.
** [https://docs.google.com/document/d/1rM94pkq9dsq4MJFPlfFA5Me2FPlu8dBDEV7VUckUT9o/pub Density forecasting]: обзор гистограммных подходов к прогнозированию временных рядов.
 +
** Экспериментальные исследования свойств алгоритма Hist [http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/Stenina/Stenina2014HistProperties/Stenina2014HistProperties.pdf?format=raw], [http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/Stenina/Stenina2014HistProperties/Stenina2014HistKernelProperties.pdf?format=raw]
* '''Базовой алгоритм''': Алгоритм Hist.
* '''Базовой алгоритм''': Алгоритм Hist.
* '''Решение''': Чтобы включить в модель гистограммного прогнозирования экзогенные переменные, необходимо разработать методы оценки многомерных гистограмм/ условных гистограмм временных рядов при небольшой длине истории. (Длина исследуемого временного не очень велика, что при увеличении размерности гистограммы приводит к ее разреженности).
* '''Решение''': Чтобы включить в модель гистограммного прогнозирования экзогенные переменные, необходимо разработать методы оценки многомерных гистограмм/ условных гистограмм временных рядов при небольшой длине истории. (Длина исследуемого временного не очень велика, что при увеличении размерности гистограммы приводит к ее разреженности).
* '''Новизна''': Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
* '''Новизна''': Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
 +
 +
 +
=== Выделение тренда и сезонности ===
 +
* '''Название''': Повышение качества непараметрического пронгозирования путем выявления и учета экзогенных факторов (тренд и сезонность при этом выделяются из временного ряда и учитываются как экзогенные факторы)
 +
* '''Задача''': Предлагается рассматривать тренд и сезонность как экзогенные факторы при прогнозировании железнодорожных перевозок.
 +
* '''Данные''': Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
 +
* '''Литература'''
 +
** Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
 +
**Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
 +
временных рядов.
 +
* '''Базовой алгоритм''': Метод Грейнджера?
 +
* '''Решение''': Для проверки наличия тренда и сезонности используются существующие методы выявления экзогенных факторов. При этом сезонность моделируется тригонометрическими рядами, тренд - экзогенными временными рядами из заданного списка.
 +
* '''Новизна''': Новый подход к выделению тренда и сезонности?

Текущая версия

Содержание

39. Обучение метрик в задачах полного и частичного обучения

  • Консультант: Ю.В. Максимов
  • Задача: состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
  • Данные: Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом).
  • Литература: Список литературы и описание подробное задачи приведены в файле
  • Замечания к коду: Замечания по программной реализации
  • Базовый алгоритм: выпуклая релаксация задачи решаемая внутренней точкой через CVX.

25. Сравнение эффективности логических методов в задачах анализа данных

  • Консультант: Ю.В. Максимов
  • Задача: состоит в сравнительном исследовании качества комбинаторно-логических методов при решении задач анализа данных. В частности, сравнении методов, основанных на построении ДНФ разделяющих классы(редукционный; последовательное перемножение (Дьяконов)) и др.
  • Данные: Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
  • Литература: приведена в файле
  • Замечания к коду: Замечания по программной реализации
  • Базовый алгоритм: Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие приведенные в файлах-описаниях.




По мотивам Липатовой

  • Название: Supervised rank aggregation with monotone feature transformation.
  • Задача: Сравниваются подходы к кластеризации временных рядов. Требуется кластеризовать набор временных рядов и приблизить каждый ряд прогностической моделью. Разница рассматриваемых подходов заключается в порядке выполнения шагов: 1) вначале выполнить кластеризацию, а затем приближать ряды/кластеры моделями или 2) вначале приблизить каждый ряд моделей, а затем кластеризовать набор рядов, используя информацию о сходстве моделей. Исследования, проведенные в [1] позволяют предположить, что второй подход точнее. Предлагается также рассмотреть комбинированный подход, при котором выбор модели и кластеризация временных рядов происходят одновременно [2].
  • Данные: Временные ряды акселерометра, описывающие различные типы человеческой активности.
  • Литература
    • [1] М. Кузнецов. Классификация объектов сложной структуры. pdf
    • [2] А. Липатова. Одновременная кластеризация набора временных рядов и соответствующих им прогностических моделей. pdf
  • Базовой алгоритм: Кластеризация временных рядов на основе набора интегральных признаков: среднее, дисперсия, максимальное значение и другие статистики (см. [1]).
  • Решение: Предлагается сравнивать модели как векторы их прогнозов. Тогда расстояния между прогнозами всех рядов всеми моделями образуют четырехиндексную матрицу. Среза матрицы, минимизирующего внутрикластерное расстояние между рядами и моделями, выбирается генетическим алгоритмом.
  • Новизна: Предложен более точный метод кластеризации набора временных рядов.

Задачи вокруг информационного поиска

Порождение ранжирующих моделей методом Насти (ветвей и границ)

  • Название: Направленный поиск структуры ранжирующей модели.
  • Задача: Порождение ранжирующих моделей методом Насти (ветвей и границ). Решается задача поиска ранжирующей функции в задачах информационного поиска. В работе [1] поиск осуществляется полным перебором, обеспечивающим оптимальность найденного решения решения. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой G вида: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}.Каждой порождаемой функции выставляется оценка качества, вычисляемая как MAP (mean average precision) на некоторой коллекции документов. На основе этих оценок качества выделяются множества оптимальных ранжирующих структур. Требуется проверить гипотезу о наличии структурных закономерностей среди оптимальных/неоптимальных структур для сокращения полного перебора.
  • Данные: Списки допустимых сгенерированных функций длины 4-8, список из 100 лучших функций длины 8, список из 500 лучших функций с оценками качества.
  • Литература
    • Описание задачи
    • Описание коллекции данных, используемых для оценки функций, и процедуры оценки. pdf
  • Базовой алгоритм: Алгоритм полного перебора допустимых суперпозиций порождающих функций.
    • P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
  • Решение: (В рамках гипотезы о наличии набора/наборов структурно-близких оптимальных функций) В исходном методе порождаются все структуры заданной длины k с последовательным увеличением длины. Для сокращения полного перебора и упрощения процедуры их оценки предлагается выделить набор структур некоторой длины k, такой что все оптимальные структуры длины k+1 могут быть получены применением правил грамматики G к некоторой структуре из данного набора.
  • Новизна:
    • На данный момент в [1] был проведен поиск структур длины k до 10. Был обнаружен ряд функций, по качеству соперничающих с применяемыми на практике (например - BM25, ранжирующей функцией длины 25). Проведенные в [1] исследования позволяют предположить, что перебор структур с дальнейшим увеличением их длины выявит функции, существенно превосходящие по качеству обнаруженные ранее. Ограничением становится вычислительная сложность полного перебора при увеличении k. Сокращение процедуры перебора структур позволит увеличить сложность рассматриваемых структур.
    • Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.


 ?? Про разбиение большой коллекции на маленькие подколлекции для задачи стр. обучения

  • Название: Создание выборки для задачи структурного обучения
  • Задача: Про разбиение большой коллекции на маленькие подколлекции для задачи стр. обучения/ расстояние между моделями и коллекциями

Для построения ранжирующей модели методами структурного обучения необходимо собрать выборку: набор коллекций документов и полученных на этих коллекциях ранжирующих функций. Коллекции, на которых происходит обучение ранжирующей структуры, традиционно размечаются вручную, что затрудняет процесс сбора выборки для задачи структурного обучения. Варианты: предложить способ разбиения существующих коллекций на подколлекции. Здесь же можно рассмотреть зависимость построенного набора оптимальных функций от коллекции. воспользоваться методом построения псевдо-коллекций (новизны нет)

  • Данные:
  • Литература
    • Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
    • Nima Asadi, Donald Metzler, Tamer Elsayed, Jimmy Lin, “Pseudo Test Collections for Learning Web Search Ranking Functions”, 2011. pdf
  • Базовой алгоритм: ??.
  • Решение:
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Непараметрическое прогнозирование временных рядов

Синхронизация рядов

  • Название: Обнаружение закономерностей в наборах временных рядов
  • Задача: Разработать метод выявления связей между временными рядами, определяемых структурой фазового пространства. Требуется изучить набор подходов к выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей.
  • Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
  • Литература
    • Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
    • Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
    • George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
    • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Базовой алгоритм: Алгоритм сходящегося перекрестного отображения (Convergent Cross Mapping, CCM)
  • Решение:
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Условный прогноз

  • Название: Про учет экзогенных факторов
  • Задача: При прогнозировании железнодорожных грузоперевозок предлагается учесть как предысторию самих перевозок, так и экзогенные (внешние) факторы. Для учета экзогенных факторов при прогнозировании железнодорожных грузоперевозок необходимо развить ранее предложенный метод гистограммного прогнозирования Hist, основанный на свертке гистограммы временного ряда с функцией потерь.
  • Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
  • Литература
    • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
    • Model Estimation and Validation by Daniel McFadden, Antti Talvitie, and Associates, 1977
    • Density forecasting: обзор гистограммных подходов к прогнозированию временных рядов.
    • Экспериментальные исследования свойств алгоритма Hist [1], [2]
  • Базовой алгоритм: Алгоритм Hist.
  • Решение: Чтобы включить в модель гистограммного прогнозирования экзогенные переменные, необходимо разработать методы оценки многомерных гистограмм/ условных гистограмм временных рядов при небольшой длине истории. (Длина исследуемого временного не очень велика, что при увеличении размерности гистограммы приводит к ее разреженности).
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Выделение тренда и сезонности

  • Название: Повышение качества непараметрического пронгозирования путем выявления и учета экзогенных факторов (тренд и сезонность при этом выделяются из временного ряда и учитываются как экзогенные факторы)
  • Задача: Предлагается рассматривать тренд и сезонность как экзогенные факторы при прогнозировании железнодорожных перевозок.
  • Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
  • Литература
    • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
    • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.

временных рядов.

  • Базовой алгоритм: Метод Грейнджера?
  • Решение: Для проверки наличия тренда и сезонности используются существующие методы выявления экзогенных факторов. При этом сезонность моделируется тригонометрическими рядами, тренд - экзогенными временными рядами из заданного списка.
  • Новизна: Новый подход к выделению тренда и сезонности?
Личные инструменты