Прогнозирование финансовых пузырей (пример)
Материал из MachineLearning.
Содержание |
Аннотация
Рассматривается метод прогнозирования финансовых пузырей на основании информации, данной экспертом о наличии пузырей во временных рядах. Предлагается способ синтеза и отбора признаков, описывающих временной ряд. Алгоритм основан на разметке интервалов роста и падения временного ряда и применении логистической регрессии для настройки параметров линейной модели и оценки ее качества. Проведен вычислительный эксперимент на данных о ценах на сырье с 1995 по 2010 год.
Постановка задачи
Дана выборка - временные ряды, размеченные экспертом. Для простоты будем считать, что длина всех рядов одинакова и равна . Здесь целевая переменная , если в данном ряде есть пузырь, и иначе.
Предполагается, что временной ряд представляет из себя <<историю возникновения>> пузыря и сам пузырь (период раздувания и лопания). Период, который мы считаем историей, фиксируется экспертом или является параметром алгоритма.
Необходимо предложить признаковое описание временного ряда На основании этого описания требуется решить задачу классификации --- построить модель , где - пространство параметров модели.
Задача разбивается на следующие этапы.
1. Порождение множества числовых признаков , описывающих временной ряд.
2. Предложение критерия качества модели.
3. Выбор наилучшей модели.
Пути решения задачи
Временной ряд - это упорядоченная по времени последовательность значений некоторой произвольной переменной величины. Множеством меток называется конечное множество . Множество меток задается экспертом. Пример множества меток: , где “” - метка для обозначения точек возрастания, “” - убывания, “” - метка для обозначения плато.
Фиксируем множество меток . Определим разбиение временного ряда на сегменты : , при , . Разметкой временного ряда назовем пару : , .
Основная рассматриваемая задача: разметка временного ряда и определение на её основании сходства временных рядов, синтез и выбор наиболее информативных признаков.
Предлагается использовать следующие признаки.
1. Бинарные признаки --- наличие в данном временном ряде определенной комбинации повышений и падений цены.
2. Действительный признаки --- суммарное изменение цены на этом интервале.
Предлагается использовать для построения классификатора логистическую регрессию, а для оценки качества модели - площадь под ROC-кривой. Настройка параметров логистической функции производится градиентными методами оптимизации. Для отбора наилучшей модели рассматривается генетический алгоритм.
Смотри также
Данная статья была создана в рамках учебного задания.
См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |