Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 774, осень 2010

Материал из MachineLearning.

Перейти к: навигация, поиск


Появилась заготовка для русскоязычной статьи. См раздел "Правила оформления".


Перед выполнением заданий рекомендуются к прочтению

Задачи

Название задачи Работу выполняет Работу рецензируют Задачу предложил Комментарии
Классификация пациентов CVD с помощью биомаркеров (пример) Сунгуров Дмитрий Морозов Д. Брей Данные есть, Д1
Прогнозирование финансовых пузырей (пример) Даниил Кононенко Быстрый Э. Курюм Данные надо найти, Д1+
Прогнозирование класса третичной структуры белка по первичной (пример) Алексей Морозов Фирстенко И.Ю. Торшин Данные есть, Д1
Поиск нелинейной модели поверхности Мохоровичича (пример) Александр Мафусалов Кононенко, Кузнецов С.Н. Агеев Данные есть, Д1+
Прогнозирование управляемых макроэкономических показателей (пример) Павел Сечин Фадеев В.В. Стрижов Данные есть, Д1
Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример) Раиса Джамтырова Фадеев М. Хильдман Данные есть, Д1отложен
Краткосрочное прогнозирование почасовых цен на электроэнергию (пример) Илья Фадеев Фирстенко Г.-В. Вебер Данные есть, Д1
Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример) Никита Ивкин Сунгуров В.В. Стрижов Данные есть, Д1-
Оценка эффективности природоохранных программ (пример) Михаил Кузнецов Мафусалов П. Летмате Данные есть, Д1+
Стохастический тетрис: задача случайного замощения в 1-2-3D (пример) Роман Быстрый Корниенко Р. Фрит Имитационное моделирование, Д1
Построение интегральных индикаторов по ранговым признакам (пример) Александр Фирстенко Морозов В.В. Стрижов Данные есть, Д1
Исследование скоринговой модели опротестования банковских операций (пример) Алексей Корниенко Быстрый Данные есть, Д1
Прогнозирование потребительского спроса (пример) Евгений Зайцев В.В. Стрижов, Д.Ю. Каневский Проект в ожидании
Порождение суперпозиций при выборе модели кредитного скоринга (пример) В.В. Стрижов Данные открыты


Классификация пациентов CVD с помощью биомаркеров (пример)

Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что

  1. признаки-биомаркеры имеют множественную линейную зависимость;
  2. пациентов мало: желательно оценить их необходимое число;
  3. признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех;
  4. один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1);
  5. в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу.

Прогнозирование финансовых пузырей (пример)

Даны временные ряды - цены биржевых инструментов. Требуется выполнить ранний прогноз появления финансовых пузырей. Задача посвящена синтезу и выбору наиболее информативных признаков, извлеченных из временных рядов, позволяющих выполнять прогноз. При этом требуется формализовать само понятие "пузырь", например, посредством автоматической или экспертной разметки и придумать набор правил порождения признаков. (Черновик. Использовать тест Гренджера для статистического обоснования зависимости предсказываемого события от порождаемых признаков. При порождении в первую очередь использовать алгоритмы разметки временных рядов. Так как события могут быть отнесены к одному из нескольких классов, требуется предложить алгоритм определения классов на основании анализа объединения и пересечения порожденных множеств признаков.)

Прогнозирование класса третичной структуры белка по первичной (пример)

Требуется предложить алгоритм порождения признаков для восстановления регресии. При выборе признаков класс моделей (RBF, обсуждается) и метод выбора (метод моделей наибольшего правдоподобия) будут фиксированы.

Предлагается использовать базу данных "ASTRAL SCOP Genetic Domain Sequences 1.75"[1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]

Структура данных

>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]}
slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk
gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq
  • d1dlya_ -- идентификатор эксперимента (код файла в PDB),
  • a.1.1.1 -- классификатор белка, иерархическая структура разделена точками,
  • slfaklggreavea... -- последовательность аминокислот (без пробелов и переносов до символа >).


Поиск нелинейной модели поверхности Мохоровичича (пример)

Черновик. Исследуется проблема разделения наблюденного (измеренного) поля силы тяжести на две компоненты. Одна должна отражать влияние границы разделяющая земную кору и мантию Земли (так называемая поверхность Мохоровичича или просто Мохо), а вторая собственно влияние самой земной коры. Специалистов, которые занимались и занимаются уточнением глубины до поверхности Мохо и проблемой ИЗОСТАЗИИ много, выполненных сейсмических работ по данной тематике (Глубинные сеймические зондирования ГСЗ) тоже много, опубликованных работ еще больше. Если бы эталоная выборка по данным ГСЗ была хорошей (равноточной и равномерной по площади) тогда построить глубину до Мохо H=f(x,y) по экспериментальным данным с некоторой детальностью (естественно не выше некоторых пространственных частот) проблемы в целом не составляет. Задача состоит в детализации H=f(x,y) используя поле силы тяжести G измеренное с большей детальностью чем эталонная выборка. И тогда надо построить H=f(x,y,G(x,y)). Само поле силы тяжести осложнено влиянием аномалий поля силы тяжести от некоторого количества известных и неизвестных изолированных объектов A_i, и от влияния некоторого количества границ раздела \Gamma_i. Тогда все превращается в H=f(x,y,G(x,y,A_i,\Gamma_i)).

В дополнение ко всему может так получиться, что для некоторых ограниченных областей, несмотря на наши расчеты и полученные зависимости глубины H из геологических данных могут быть такими и только такими, т.е. модели в таких областях будут отличны.

Прогнозирование управляемых макроэкономических показателей (пример)

Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на [3]. Исходное описание алгоритма находится [4], [5] и [6]. Требуется обратить внимание на две проблемы. Первая: при управлении системой требуется обоснованно использовать принцип Беллмана. Вторая: требуется показать, что результат управления системой статистически значимо отличается от случайного блуждания состояния системы во времени.

Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.).

22.09.2010 - ссылка на данные открывается. Для удобства данные сведены в единую таблицу, доступно здесь [7]. (Сечин Павел)

Порождение суперпозиций при выборе модели кредитного скоринга (пример)

Требуется построить систему порождения и выбора признаков, измеренных в разнородных шкалах: номинальной, ординальной и линейной. Каждый порожденный признак должен принадлежать индуктивно-заданному множеству суперпозиций; множество задается правилами. Признаки выбираются одним из стандартных алгоритмов, например, шаговой регрессией или генетическим алгоритмом. Основная задача работы -- придумать способ описания правил порождения.

Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример)

Краткосрочное прогнозирование почасовых цен на электроэнергию (пример)

Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример)

Оценка эффективности природоохранных программ (пример)

Построение интегральных индикаторов по ранговым признакам (пример)

Требуется предложить алгоритм построения интегральных индикаторов для матрицы описаний объектов, состоящей из признаков в разнородных шкалах. Используемые данные — ежегодные отчеты заповедников РФ.

Исследование скоринговой модели опротестования банковских операций (пример)

Даны данные по операциям, которые клиент банка пытается опротестовать. Они делятся на три блока: данные о клиенте, данные по финансовой части операции и данные по резервированию средств со счёта. Требуется построить модель предсказания результатов диспутного цикла (будет ли операция успешно опротестована) и провести анализ полученной модели.

Прогнозирование потребительского спроса (пример)

Требуется обобщить и формализовать постановку задачи непараметрического прогнозирования квазипериодических многомерных временных рядов. Описать общее решение задачи, включающее декомпозицию прогностических моделей. Желательно использовать данные ликвидных сезонных товаров. (NB нужна консультация Юрия Яновича).

Доклады и Экзамен

  • Доклад-1 не позднее 29 сентября
  • Доклад-2 не позднее 27 октября
  • Экзамен 1 декабря
Личные инструменты