Участник:Neychev

Материал из MachineLearning.

Перейти к: навигация, поиск

МФТИ, ФУПМ

Кафедра "Интеллектуальные системы"

Направление "Интеллектуальный анализ данных"

neychev@phystech.edu

Отчет о научно-исследовательской работе

Весна 2015, 6-й семестр

Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования

В данной статье рассматривается проблема прогнозирования временных рядов. Для получения устойчивого прогноза предлагается рассматривать входные временные ряды как матрицу объект-признак и использовать отбор признаков. В условиях мультиколлинеарности признаков необходим критерий для ее обнаружения. Для этого предлагается применить подход, основанный на методе Белсли. Исключение коррелирующих признаков при отборе позволяет сократить размерность задачи и получить устойчивые оценки параметров модели. Для отбора в работе предлагается метод добавления и удаления признаков. В качестве практической проверки данного метода в ходе вычислительного эксперимента решается задача прогнозирования почасовых значений цен на электроэнергию. Эксперименты были проведены на реальных данных о ценах на электроэнергию в Германии.

Публикация

Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. — 2015. — ISSN 1028-6861(опубликована).


Осень 2015, 7-й семестр

Построение многообразий в пространстве признаков с применением самообучающихся нейронных сетей

Решается задача построения качественной модели представления данных. Каждому объекту сопостоляется его признаковое описание высокой размерности. Необходимо понизить размерность признакового пространства, потеряв при этом наименьшее количество полезной информации. Предполагается, что существуют зависимости между признаками, описывающими объекты. Задача осложняется тем, что эти зависимости могут быть существенно нелинейными. Также информация может быть зашумлена. Для решения поставленной задачи предлагается использовать нелинейное обобщение метода главных компонент, а также, в дальнейшем, провести анализ многоиндексной ковариационной матрицы признаков. Одним из вариантов нелинейного обобщения МГК является использование автоэнкодеров, совершающих нелинейные преобразования над признаками. Предполагается что результаты данной работы смогут быть использованы для построения устойчивых моделей данных и, конкретно, в прогнозировании временных рядов. Программная часть работы реализована на языке MATLAB. В качестве тестовых данных использовались биологические данные, представляющие собой описание молекул различными химическими дескрипторами. Также предполагается использование данного проекта для работы с временными рядами.

Технический отчет

Нейчев Р.Г. Построение многообразий в пространстве признаков с применением самообучающихся нейронных сетей, Технический отчет //Сервер вычислительных экспериментов mvr.jmlda.org (дата обращения: 29.12.2015)


Доклад на научной конференции

Победитель конкурса научных работ молодых ученых на 58-й научной конференции МФТИ с международным участием. 23-28 ноября 2015г. Доклад "Отбор признаков в условиях мультиколлинеарности в задаче прогнозирования"


Весна 2016, 8-й семестр


Feature generation for multiscale time series forecasting multimodels

"The paper presents a framework for the massive multiscale time series forecast. We propose a method of constructing efficient feature description for the corresponding regression problem. The method involves feature generation and dimensionality reduction procedures. Generated features include historical information about the target time series as well as other available time series, local transformations and multiscale features. We apply several forecasting algorithms to the resulting regression problem and investigate the quality of the forecasts for various horizon values."

Работа подана на конференцию ICDM-2016


Научный консультант и соавтор в работе

Отбор мультикоррелирующих признаков в задаче векторной авторегрессии, Павел Ахтямов, Радослав Нейчев, Вадим Стрижов.

"В работе рассматривается задача отбора признаков при прогнозировании временных рядов. Для получения адекватного прогноза используется метод векторной авторегрессии. Повышение качества прогноза происходит посредством поочередного добавления и удаления рассматриваемых признаков. В качестве критерия отбора используется модификация метода Белсли. Схожие методы применялись лишь для прогнозирования единственного временного ряда. Представленный метод экспериментально проверяется на выборках, связывающих прогноз погоды и цены на электроэнергию в Германии. В качестве дополнительной выборки используются временные ряды отраслевых доходов в Великобритании"

Готовится к публикации.


Осень 2016, 9-й семестр

Доклад на научной конференции ИОИ-2016 "Multimodel forecasting multiscale time series in the internet of thing"

"Решается задача прогнозирования большого числа взаимосвязанных временных рядов. Их источником служат датчики, производящие мониторинг различных параметров устройств интернета вещей. Предполагается, что пространство параметров описания временных рядов неоднородно, выборка не является простой.

Задача построения прогноза сводится к задаче регрессии. Для получения точного и устойчивого прогноза для ее решения предлагается использовать смесь экспертов — прогностических моделей. В качестве моделей используются нейронные сети. Исследуются задачи оптимизации пространства параметров нейронных сетей, выбора нейронных сетей оптимальной сложности, выбора оптимального числа экспертов. В ходе вычислительного эксперимента сравниваются три класса моделей: смесь экспертов, градиентный бустинг, решающие деревья. Эксперимент выполнен на реальных данных, содержащих информацию о потреблении электроэнергии и погодных условиях в Польше."

Статья “LHCb trigger streams optimization“.

The LHCb experiment stores around 1011 collision events per year. A typical physics analysis deals with a final sample of up to 107 events. Event preselection algorithms (lines) are used for data reduction. Since the data are stored in a format that requires sequential access, the lines are grouped into several output file streams, in order to increase the efficiency of user analysis jobs that read these data. The scheme efficiency heavily depends on the stream composition. By putting similar lines together and balancing the stream sizes it is possible to reduce the overhead. We present a method for finding an optimal stream composition. The method is applied to a part of the LHCb data (Turbo stream) on the stage where it is prepared for user physics analysis. This results in an expected improvement of 15% in the speed of user analysis jobs, and will be applied on data to be recorded in 2017.

Подана в CHEP proceedings, препринт на arXiv: http://arxiv.org/abs/1702.05262

Личные инструменты