Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 774, осень 2010

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Задачи)
 
(29 промежуточных версий не показаны.)
Строка 1: Строка 1:
{{Main|Автоматизация и стандартизация научных исследований (практика, В.В. Стрижов)}}
{{Main|Автоматизация и стандартизация научных исследований (практика, В.В. Стрижов)}}
__NOTOC__
__NOTOC__
-
 
-
{{tip|Появилась заготовка для русскоязычной статьи. См [[Автоматизация и стандартизация научных исследований (практика, В.В. Стрижов)|раздел "Правила оформления"]].}}
 
Перед выполнением заданий рекомендуются к прочтению
Перед выполнением заданий рекомендуются к прочтению
Строка 18: Строка 16:
! Комментарии
! Комментарии
|-
|-
-
| [[Классификация пациентов CVD с помощью биомаркеров (пример)]]
+
| [[Краткосрочное прогнозирование почасовых цен на электроэнергию (пример)]]
-
| Сунгуров Дмитрий
+
| Илья Фадеев
-
|
+
| Фирстенко
-
| Д. Брей
+
| Г.-В. Вебер
-
| Данные есть, закрыты
+
| Данные есть, Д1, Д2, Э+, A
|-
|-
| [[Прогнозирование финансовых пузырей (пример)]]
| [[Прогнозирование финансовых пузырей (пример)]]
| Даниил Кононенко
| Даниил Кононенко
-
|
+
| Быстрый
| Э. Курюм
| Э. Курюм
-
| Данные открыты, но надо найти
+
| Данные надо найти, Д1+, Д2, Э+, A
|-
|-
-
| [[Прогнозирование класса третичной структуры белка по первичной (пример)]]
+
| [[Оценка эффективности природоохранных программ (пример)]]
-
| Алексей Морозов
+
| Михаил Кузнецов
-
|
+
| Мафусалов
-
| И.Ю. Торшин
+
| П. Летмате
-
| Данные открыты
+
| Данные есть, Д1+, Д2, Э+, A
 +
|-
 +
| [[Построение интегральных индикаторов по ранговым признакам (пример)]]
 +
| Александр Фирстенко
 +
| Морозов
 +
| В.В. Стрижов
 +
| Данные есть, Д1, Д2-, Э+
|-
|-
| [[Поиск нелинейной модели поверхности Мохоровичича (пример)]]
| [[Поиск нелинейной модели поверхности Мохоровичича (пример)]]
| Александр Мафусалов
| Александр Мафусалов
-
|
+
| Кононенко, Кузнецов
| С.Н. Агеев
| С.Н. Агеев
-
| Данные будут подготовлены, открытость обсудим
+
| Данные есть, Д1+, Д2, Э+, A
-
|-
+
-
| [[Прогнозирование управляемых макроэкономических показателей (пример)]]
+
-
| Павел Сечин
+
-
|
+
-
| В.В. Стрижов
+
-
|
+
-
|-
+
-
| [[Порождение суперпозиций при выборе модели кредитного скоринга (пример)]]
+
-
|
+
-
|
+
-
| В.В. Стрижов
+
-
| Данные открыты
+
|-
|-
| [[Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример)]]
| [[Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример)]]
| Раиса Джамтырова
| Раиса Джамтырова
-
|
+
| Фадеев
| М. Хильдман
| М. Хильдман
-
| Данные есть
+
| Данные есть, Д1, Д2, Э+
-
|-
+
-
| [[Краткосрочное прогнозирование почасовых цен на электроэнергию (пример)]]
+
-
| Илья Фадеев
+
-
|
+
-
| Г.-В. Вебер
+
-
| Идут переговоры об открытии данных
+
|-
|-
| [[Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример)]]
| [[Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример)]]
| Никита Ивкин
| Никита Ивкин
-
|
+
| Сунгуров
| В.В. Стрижов
| В.В. Стрижов
-
| Данные будут
+
| Данные есть, Д1-,Д2--, Э
|-
|-
-
| [[Оценка эффективности природоохранных программ (пример)]]
+
| [[Прогнозирование макроэкономических показателей с помощью векторной авторегрессии (пример)]]
-
| Михаил Кузнецов
+
| Павел Сечин
-
|
+
| Фадеев
-
| П. Летмате
+
-
| [http://cdm.unfccc.int/Projects/projsearch.html Данные в базе CDM]
+
-
|-
+
-
| [[Стохастический тетрис: задача случайного замощения в 1-2-3D (пример)]]
+
-
| Роман Быстрый
+
-
|
+
-
| Р. Фрит
+
-
| Имитационное моделирование
+
-
|-
+
-
| [[Построение интегральных индикаторов по ранговым признакам (пример)]]
+
-
| Александр Фирстенко
+
-
|
+
| В.В. Стрижов
| В.В. Стрижов
-
| Данные из CDM
+
| Данные есть, Д1, Д2, Э
|-
|-
-
| [[??? (пример)]]
+
<!-- Работа не окончена -->
 +
<!--
 +
| [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group774/Kornienko2010RejectedPayments/ Исследование скоринговой модели опротестования банковских операций (пример)]
| Алексей Корниенко
| Алексей Корниенко
-
|
+
| Быстрый
-
| ???
+
|
|
 +
| не закончена
|-
|-
-
| [[Прогнозирование потребительского спроса (пример)]]
+
-->
-
| Евгений Зайцев
+
<!-- Работа не окончена -->
-
|
+
| Порождение суперпозиций при выборе модели кредитного скоринга ([https://svn.code.sf.net/p/mlalgorithms/code/Group774/Zhivotovskiy2010Superpositions/ описание и код])
-
| В.В. Стрижов, Д.Ю.&nbsp;Каневский
+
| Никита Животовский
-
| Данные есть
+
| В.В. Стрижов
 +
| В.В. Стрижов
 +
| Примитивы есть, [в работе]
 +
|-
 +
<!-- Работа не окончена -->
 +
| Классификация пациентов CVD с помощью биомаркеров ([https://svn.code.sf.net/p/mlalgorithms/code/Group774/Sungurov2010CVD/ описание и код])
 +
| Сунгуров Дмитрий
 +
| Морозов
 +
| Д. Брей
 +
| Данные есть, Д1, [в работе]
 +
|-
 +
<!-- Работа не окончена -->
 +
<!--
 +
| [[Прогнозирование класса третичной структуры белка по первичной (пример)]]
 +
| Алексей Морозов
 +
| Фирстенко
 +
| И.Ю. Торшин
 +
| Данные есть, Д1, [нет информации]
|-
|-
 +
-->
|}
|}
Строка 108: Строка 102:
Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что
Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что
# признаки-биомаркеры имеют множественную линейную зависимость;
# признаки-биомаркеры имеют множественную линейную зависимость;
-
# пациентов мало: желательно оценить их необходимое число;
 
# признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех;
# признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех;
# один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1);
# один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1);
-
# в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу.
+
# следует выбрать способ классификации (один против всех или каждый против каждого);
 +
# пациентов мало: желательно оценить их необходимое число;
 +
# в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу.
=== [[Прогнозирование финансовых пузырей (пример)]] ===
=== [[Прогнозирование финансовых пузырей (пример)]] ===
Строка 155: Строка 150:
Требуется построить систему порождения и выбора признаков, измеренных в разнородных шкалах: номинальной, ординальной и линейной.
Требуется построить систему порождения и выбора признаков, измеренных в разнородных шкалах: номинальной, ординальной и линейной.
Каждый порожденный признак должен принадлежать индуктивно-заданному множеству суперпозиций; множество задается правилами. Признаки выбираются одним из стандартных алгоритмов, например, шаговой регрессией или генетическим алгоритмом. Основная задача работы -- придумать способ описания правил порождения.
Каждый порожденный признак должен принадлежать индуктивно-заданному множеству суперпозиций; множество задается правилами. Признаки выбираются одним из стандартных алгоритмов, например, шаговой регрессией или генетическим алгоритмом. Основная задача работы -- придумать способ описания правил порождения.
-
 
-
== [[Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример)]] ==
 
-
 
-
== [[Краткосрочное прогнозирование почасовых цен на электроэнергию (пример)]] ==
 
-
 
-
== [[Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример)]] ==
 
-
 
-
== [[Оценка эффективности природоохранных программ (пример)]] ==
 
== [[Построение интегральных индикаторов по ранговым признакам (пример)]] ==
== [[Построение интегральных индикаторов по ранговым признакам (пример)]] ==
Требуется предложить алгоритм построения интегральных индикаторов для матрицы описаний объектов, состоящей из признаков в разнородных шкалах.
Требуется предложить алгоритм построения интегральных индикаторов для матрицы описаний объектов, состоящей из признаков в разнородных шкалах.
Используемые данные — ежегодные отчеты заповедников РФ.
Используемые данные — ежегодные отчеты заповедников РФ.
 +
 +
== [[Исследование скоринговой модели опротестования банковских операций (пример)]] ==
 +
Даны данные по операциям, которые клиент банка пытается опротестовать. Они делятся на три блока: данные о клиенте, данные по финансовой части операции и данные по резервированию средств со счёта. Требуется построить модель предсказания результатов диспутного цикла (будет ли операция успешно опротестована) и провести анализ полученной модели.
== [[Прогнозирование потребительского спроса (пример)]] ==
== [[Прогнозирование потребительского спроса (пример)]] ==
Строка 174: Строка 164:
* Доклад-1 не позднее 29 сентября
* Доклад-1 не позднее 29 сентября
* Доклад-2 не позднее 27 октября
* Доклад-2 не позднее 27 октября
 +
* Контрольная точка 24 ноября
* Экзамен 1 декабря
* Экзамен 1 декабря
 +
 +
== Дополнение ==
 +
 +
На семинаре 10 ноября мы договорились о нижеследующем:
 +
* 24 ноября будет "контрольная точка" (вместо доклада-3),
 +
* 1 декабря будет экзамен по схеме "какое качество работы - такая оценка",
 +
* работы с невысоким качеством идут на пересдачу, но пересдаем один раз.
 +
 +
Что требуется сделать к 24 ноября:
 +
* написать статью "в целом" - с аннотацией, введением, постановкой задачи, математической частью, вычислительным экспериментом (картинками, результатами), заключением, литературой.
 +
 +
24 ноября работаем по схеме:
 +
* до первой лекции в 10:30 нужно сдать работу в печатном виде или в PDF,
 +
* на занятии будут сделаны общие замечания, будет сказано о критериях качества работы,
 +
* потом будут разобраны частные случаи.
 +
 +
Что требуется сделать к 1 декабря (экзамен):
 +
* представить чистовой вариант статьи,
 +
* рецензию (на чужую статью),
 +
* страницу в machinelearning с аннотацией статьи,
 +
* код в репозитории mlalgorithms.
 +
 +
До 24 ноября будет только одно занятие - 17 ноября по стандартному плану. Будем разбирать схемы написания рецензий.
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Текущая версия


Перед выполнением заданий рекомендуются к прочтению

Задачи

Название задачи Работу выполняет Работу рецензируют Задачу предложил Комментарии
Краткосрочное прогнозирование почасовых цен на электроэнергию (пример) Илья Фадеев Фирстенко Г.-В. Вебер Данные есть, Д1, Д2, Э+, A
Прогнозирование финансовых пузырей (пример) Даниил Кононенко Быстрый Э. Курюм Данные надо найти, Д1+, Д2, Э+, A
Оценка эффективности природоохранных программ (пример) Михаил Кузнецов Мафусалов П. Летмате Данные есть, Д1+, Д2, Э+, A
Построение интегральных индикаторов по ранговым признакам (пример) Александр Фирстенко Морозов В.В. Стрижов Данные есть, Д1, Д2-, Э+
Поиск нелинейной модели поверхности Мохоровичича (пример) Александр Мафусалов Кононенко, Кузнецов С.Н. Агеев Данные есть, Д1+, Д2, Э+, A
Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример) Раиса Джамтырова Фадеев М. Хильдман Данные есть, Д1, Д2, Э+
Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример) Никита Ивкин Сунгуров В.В. Стрижов Данные есть, Д1-,Д2--, Э
Прогнозирование макроэкономических показателей с помощью векторной авторегрессии (пример) Павел Сечин Фадеев В.В. Стрижов Данные есть, Д1, Д2, Э
Порождение суперпозиций при выборе модели кредитного скоринга (описание и код) Никита Животовский В.В. Стрижов В.В. Стрижов Примитивы есть, [в работе]
Классификация пациентов CVD с помощью биомаркеров (описание и код) Сунгуров Дмитрий Морозов Д. Брей Данные есть, Д1, [в работе]


Классификация пациентов CVD с помощью биомаркеров (пример)

Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что

  1. признаки-биомаркеры имеют множественную линейную зависимость;
  2. признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех;
  3. один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1);
  4. следует выбрать способ классификации (один против всех или каждый против каждого);
  5. пациентов мало: желательно оценить их необходимое число;
  6. в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу.

Прогнозирование финансовых пузырей (пример)

Даны временные ряды - цены биржевых инструментов. Требуется выполнить ранний прогноз появления финансовых пузырей. Задача посвящена синтезу и выбору наиболее информативных признаков, извлеченных из временных рядов, позволяющих выполнять прогноз. При этом требуется формализовать само понятие "пузырь", например, посредством автоматической или экспертной разметки и придумать набор правил порождения признаков. (Черновик. Использовать тест Гренджера для статистического обоснования зависимости предсказываемого события от порождаемых признаков. При порождении в первую очередь использовать алгоритмы разметки временных рядов. Так как события могут быть отнесены к одному из нескольких классов, требуется предложить алгоритм определения классов на основании анализа объединения и пересечения порожденных множеств признаков.)

Прогнозирование класса третичной структуры белка по первичной (пример)

Требуется предложить алгоритм порождения признаков для восстановления регресии. При выборе признаков класс моделей (RBF, обсуждается) и метод выбора (метод моделей наибольшего правдоподобия) будут фиксированы.

Предлагается использовать базу данных "ASTRAL SCOP Genetic Domain Sequences 1.75"[1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]

Структура данных

>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]}
slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk
gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq
  • d1dlya_ -- идентификатор эксперимента (код файла в PDB),
  • a.1.1.1 -- классификатор белка, иерархическая структура разделена точками,
  • slfaklggreavea... -- последовательность аминокислот (без пробелов и переносов до символа >).


Поиск нелинейной модели поверхности Мохоровичича (пример)

Черновик. Исследуется проблема разделения наблюденного (измеренного) поля силы тяжести на две компоненты. Одна должна отражать влияние границы разделяющая земную кору и мантию Земли (так называемая поверхность Мохоровичича или просто Мохо), а вторая собственно влияние самой земной коры. Специалистов, которые занимались и занимаются уточнением глубины до поверхности Мохо и проблемой ИЗОСТАЗИИ много, выполненных сейсмических работ по данной тематике (Глубинные сеймические зондирования ГСЗ) тоже много, опубликованных работ еще больше. Если бы эталоная выборка по данным ГСЗ была хорошей (равноточной и равномерной по площади) тогда построить глубину до Мохо H=f(x,y) по экспериментальным данным с некоторой детальностью (естественно не выше некоторых пространственных частот) проблемы в целом не составляет. Задача состоит в детализации H=f(x,y) используя поле силы тяжести G измеренное с большей детальностью чем эталонная выборка. И тогда надо построить H=f(x,y,G(x,y)). Само поле силы тяжести осложнено влиянием аномалий поля силы тяжести от некоторого количества известных и неизвестных изолированных объектов A_i, и от влияния некоторого количества границ раздела \Gamma_i. Тогда все превращается в H=f(x,y,G(x,y,A_i,\Gamma_i)).

В дополнение ко всему может так получиться, что для некоторых ограниченных областей, несмотря на наши расчеты и полученные зависимости глубины H из геологических данных могут быть такими и только такими, т.е. модели в таких областях будут отличны.

Прогнозирование управляемых макроэкономических показателей (пример)

Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на [3]. Исходное описание алгоритма находится [4], [5] и [6]. Требуется обратить внимание на две проблемы. Первая: при управлении системой требуется обоснованно использовать принцип Беллмана. Вторая: требуется показать, что результат управления системой статистически значимо отличается от случайного блуждания состояния системы во времени.

Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.).

22.09.2010 - ссылка на данные открывается. Для удобства данные сведены в единую таблицу, доступно здесь [7]. (Сечин Павел)

Порождение суперпозиций при выборе модели кредитного скоринга (пример)

Требуется построить систему порождения и выбора признаков, измеренных в разнородных шкалах: номинальной, ординальной и линейной. Каждый порожденный признак должен принадлежать индуктивно-заданному множеству суперпозиций; множество задается правилами. Признаки выбираются одним из стандартных алгоритмов, например, шаговой регрессией или генетическим алгоритмом. Основная задача работы -- придумать способ описания правил порождения.

Построение интегральных индикаторов по ранговым признакам (пример)

Требуется предложить алгоритм построения интегральных индикаторов для матрицы описаний объектов, состоящей из признаков в разнородных шкалах. Используемые данные — ежегодные отчеты заповедников РФ.

Исследование скоринговой модели опротестования банковских операций (пример)

Даны данные по операциям, которые клиент банка пытается опротестовать. Они делятся на три блока: данные о клиенте, данные по финансовой части операции и данные по резервированию средств со счёта. Требуется построить модель предсказания результатов диспутного цикла (будет ли операция успешно опротестована) и провести анализ полученной модели.

Прогнозирование потребительского спроса (пример)

Требуется обобщить и формализовать постановку задачи непараметрического прогнозирования квазипериодических многомерных временных рядов. Описать общее решение задачи, включающее декомпозицию прогностических моделей. Желательно использовать данные ликвидных сезонных товаров. (NB нужна консультация Юрия Яновича).

Доклады и Экзамен

  • Доклад-1 не позднее 29 сентября
  • Доклад-2 не позднее 27 октября
  • Контрольная точка 24 ноября
  • Экзамен 1 декабря

Дополнение

На семинаре 10 ноября мы договорились о нижеследующем:

  • 24 ноября будет "контрольная точка" (вместо доклада-3),
  • 1 декабря будет экзамен по схеме "какое качество работы - такая оценка",
  • работы с невысоким качеством идут на пересдачу, но пересдаем один раз.

Что требуется сделать к 24 ноября:

  • написать статью "в целом" - с аннотацией, введением, постановкой задачи, математической частью, вычислительным экспериментом (картинками, результатами), заключением, литературой.

24 ноября работаем по схеме:

  • до первой лекции в 10:30 нужно сдать работу в печатном виде или в PDF,
  • на занятии будут сделаны общие замечания, будет сказано о критериях качества работы,
  • потом будут разобраны частные случаи.

Что требуется сделать к 1 декабря (экзамен):

  • представить чистовой вариант статьи,
  • рецензию (на чужую статью),
  • страницу в machinelearning с аннотацией статьи,
  • код в репозитории mlalgorithms.

До 24 ноября будет только одно занятие - 17 ноября по стандартному плану. Будем разбирать схемы написания рецензий.

Личные инструменты