Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 774, осень 2010

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задачи)
Строка 83: Строка 83:
|-
|-
| [[Стохастический тетрис: задача случайного замощения в 1-2-3D (пример)]]
| [[Стохастический тетрис: задача случайного замощения в 1-2-3D (пример)]]
-
|
+
| Роман Быстрый
|
|
| Р. Фрит
| Р. Фрит

Версия 22:01, 21 сентября 2010


Перед выполнением заданий рекомендуются к прочтению

Задачи

Название задачи Работу выполняет Работу рецензируют Задачу предложил Комментарии
Классификация пациентов CVD с помощью биомаркеров (пример) Д. Брей Данные есть, закрыты
Прогнозирование финансовых пузырей (пример) Даниил Кононенко Э. Курюм Данные открыты, но надо найти
Прогнозирование класса третичной структуры белка по первичной (пример) Алексей Морозов И.Ю. Торшин Данные открыты
Поиск нелинейной модели поверхности Мохоровичича (пример) Александр Мафусалов С.Н. Агеев Данные будут подготовлены, открытость обсудим
Прогнозирование управляемых макроэкономических показателей (пример) В.В. Стрижов Часть 1: векторная авторегрессия
Прогнозирование управляемых макроэкономических показателей (пример) В.В. Стрижов Часть 2: динамическое программирование
Порождение суперпозиций при выборе модели кредитного скоринга (пример) Александр Дмитриевский В.В. Стрижов Данные открыты
Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример) Раиса Джамтырова М. Хильдман Данные есть
Краткосрочное прогнозирование почасовых цен на электроэнергию (пример) Илья Фадеев Г.-В. Вебер Идут переговоры об открытии данных
Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример) Никита Ивкин В.В. Стрижов Данные будут
Оценка эффективности природоохранных программ (пример) Михаил Кузнецов П. Летмате Данные в базе CDM
Стохастический тетрис: задача случайного замощения в 1-2-3D (пример) Роман Быстрый Р. Фрит Имитационное моделирование
Построение интегральных индикаторов по ранговым признакам (пример) Александр Фирстенко В.В. Стрижов Данные из CDM
Прогнозирование потребительского спроса (пример) Евгений Зайцев В.В. Стрижов, Д.Ю. Каневский Данные есть


Классификация пациентов CVD с помощью биомаркеров (пример)

Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что

  1. признаки-биомаркеры имеют множественную линейную зависимость;
  2. пациентов мало: желательно оценить их необходимое число;
  3. признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех;
  4. один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1);
  5. в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу.

Прогнозирование финансовых пузырей (пример)

Даны временные ряды - цены биржевых инструментов. Требуется выполнить ранний прогноз появления финансовых пузырей. Задача посвящена синтезу и выбору наиболее информативных признаков, извлеченных из временных рядов, позволяющих выполнять прогноз. При этом требуется формализовать само понятие "пузырь", например, посредством автоматической или экспертной разметки и придумать набор правил порождения признаков. (Черновик. Использовать тест Гренджера для статистического обоснования зависимости предсказываемого события от порождаемых признаков. При порождении в первую очередь использовать алгоритмы разметки временных рядов. Так как события могут быть отнесены к одному из нескольких классов, требуется предложить алгоритм определения классов на основании анализа объединения и пересечения порожденных множеств признаков.)

Прогнозирование класса третичной структуры белка по первичной (пример)

Требуется предложить алгоритм порождения признаков для восстановления регресии. При выборе признаков класс моделей (RBF, обсуждается) и метод выбора (метод моделей наибольшего правдоподобия) будут фиксированы.

Предлагается использовать базу данных "ASTRAL SCOP Genetic Domain Sequences 1.75"[1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]

Структура данных

>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]}
slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk
gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq
  • d1dlya_ -- идентификатор эксперимента (код файла в PDB),
  • a.1.1.1 -- классификатор белка, иерархическая структура разделена точками,
  • slfaklggreavea... -- последовательность аминокислот (без пробелов и переносов до символа >).


Поиск нелинейной модели поверхности Мохоровичича (пример)

Черновик. Исследуется проблема разделения наблюденного (измеренного) поля силы тяжести на две компоненты. Одна должна отражать влияние границы разделяющая земную кору и мантию Земли (так называемая поверхность Мохоровичича или просто Мохо), а вторая собственно влияние самой земной коры. Специалистов, которые занимались и занимаются уточнением глубины до поверхности Мохо и проблемой ИЗОСТАЗИИ много, выполненных сейсмических работ по данной тематике (Глубинные сеймические зондирования ГСЗ) тоже много, опубликованных работ еще больше. Если бы эталоная выборка по данным ГСЗ была хорошей (равноточной и равномерной по площади) тогда построить глубину до Мохо H=f(x,y) по экспериментальным данным с некоторой детальностью (естественно не выше некоторых пространственных частот) проблемы в целом не составляет. Задача состоит в детализации H=f(x,y) используя поле силы тяжести G измеренное с большей детальностью чем эталонная выборка. И тогда надо построить H=f(x,y,G(x,y)). Само поле силы тяжести осложнено влиянием аномалий поля силы тяжести от некоторого количества известных и неизвестных изолированных объектов A_i, и от влияния некоторого количества границ раздела \Gamma_i. Тогда все превращается в H=f(x,y,G(x,y,A_i,\Gamma_i)).

В дополнение ко всему может так получиться, что для некоторых ограниченных областей, несмотря на наши расчеты и полученные зависимости глубины H из геологических данных могут быть такими и только такими, т.е. модели в таких областях будут отличны.

Прогнозирование управляемых макроэкономических показателей (пример)

Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на сайте ЦЭМИ. Исходное описание алгоритма находится [3], [4] и [5]. Требуется обратить внимание на две проблемы. Первая: при управлении системой требуется обоснованно использовать принцип Беллмана. Вторая: требуется показать, что результат управления системой статистически значимо отличается от случайного блуждания состояния системы во времени.

Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.).

Порождение суперпозиций при выборе модели кредитного скоринга (пример)

Требуется построить систему порождения и выбора признаков, измеренных в разнородных шкалах: номинальной, ординальной и линейной. Каждый порожденный признак должен принадлежать индуктивно-заданному множеству суперпозиций; множество задается правилами. Признаки выбираются одним из стандартных алгоритмов, например, шаговой регрессией или генетическим алгоритмом. Основная задача работы -- придумать способ описания правил порождения.

Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример)

Краткосрочное прогнозирование почасовых цен на электроэнергию (пример)

Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример)

Оценка эффективности природоохранных программ (пример)

Построение интегральных индикаторов по ранговым признакам (пример)

Требуется предложить алгоритм построения интегральных индикаторов для матрицы описаний объектов, состоящей из признаков в разнородных шкалах. Используемые данные — ежегодные отчеты заповедников РФ.

Прогнозирование потребительского спроса (пример)

Требуется обобщить и формализовать постановку задачи непараметрического прогнозирования квазипериодических многомерных временных рядов. Описать общее решение задачи, включающее декомпозицию прогностических моделей. Желательно использовать данные ликвидных сезонных товаров. (NB нужна консультация Юрия Яновича).

Доклады и Экзамен

  • Доклад-1 не позднее 29 сентября
  • Доклад-2 не позднее 27 октября
  • Экзамен 1 декабря
Личные инструменты