Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 074, осень 2013

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задачи)
(Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя)
Строка 229: Строка 229:
=== Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя===
=== Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя===
 +
*'''Краткое описание.''' Требуется спрогнозировать показания одного из дорогостоящих датчиков в дизельном двигателе(лямбда-зонда) по показаниям других более дешевых датчиков. Специфика заключается в сильно-пересыщенном признаковом пространстве.
 +
*'''Базовый алгоритм.'''
 +
*'''Данные.''' По запросу от Никиты Ивкина
 +
*'''Аргументы.'''
=== Обнаружение причинно-следственных связей во временных рядах железнодорожных перевозок и биржевых данных===
=== Обнаружение причинно-следственных связей во временных рядах железнодорожных перевозок и биржевых данных===

Версия 19:10, 11 сентября 2013


Задачи

Название задачи Автор Ссылка LSICUDTPRWS
Определение напечатанного изображения (пример) Пушняков Алексей (пример) LSICUDTPRWS
Распознавание текста на фотографиях Воронов Сергей
Определение типа активности человека по данным с акселерометра Перекрестенко Дмитрий
Поиск похожих тезисов конференций Уржумцев Олег
Распознование рукописных цифр Костин Александр
Прогноз состояния продаваемой машины Бырдин Александр
StumbleUpon Evergreen Classification Challenge Гринчук Олег
Welcome!

Расписание

Дата Что сделано Результат для обсуждения Код
Сентябрь 18 Выбрана задача, рецензент. Запись в ML. -
25 Собрана литература, написаны комментарии. Список литературы и мини-сообщение. Literatura
Октябрь 2 Поставлена задача для синтетических данных. Написана математическая постановка в формате TeX. Не более страницы отдельного текста. Statement
9 Создан файл отчета. Сделано описание проекта. Создана архитектура и интерфейс ядра системы (синтетические данные). Описание, IDEF0. Idef
16 Детализирован интерфейс, написан код первого приближения. Код для синтетических данных. Code
23 Написаны юнит-тесты. По результатам доработки кода написана рецензия на работу. Тесты, рецензия Unit-test
30 Собраны реальные данные. Доработана схема IDEF0. Написаны модули подготовки данных. Данные, вторая схема IDEF0, модули. Data
Ноябрь 6 Написаны и запущены системные тесты. Тесты и отчет. Tests
13 Код оптимизирован. Отчет профайлера до и после. Profiler
20 Сделан визуальный отчет. Завершенный тех.отчет. Report
27 Разработан веб-интерфейс. Код на сайте. Web
Декабрь 4 Сделан пользовательский интерфейс и примеры. Доклад. Show

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: вторник 6:00am (проверка занимает весь вторник).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  • Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++),
  • Несделанная работа - 0.

Черновой список задач

Выбор алгоритмов краткосрочного прогнозирования

  • Краткое описание. Создать алгоритм, осуществляющий выбор моделей прогнозирования на основе метаописания временных рядов.
  • Базовый алгоритм. Базовые модели для выбора: проект TSForecasting. Простейший метод для выбора моделей — дерево поиска. Метаописание временных рядов: А. И. Кобзарь Прикладная математическая статистика.
  • Данные. Цены на электроэнергию, биржевые данные, цены на хлеб.
  • Аргументы.

Прогнозирование цен на электроэнергию

  • Краткое описание. Построить авторегрессионный алгоритм прогнозирования; осуществить выбор признаков методом наименьших углов.
  • Базовый алгоритм. Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. LARS.
  • Данные. Цены на электроэнергию.
  • Аргументы.

Сегментация изображений

  • Краткое описание. Дана база данных изображений. Разработать алгоритм сегментации изображений по цветам.
  • Базовый алгоритм. Segmentation based on Gaussian mixture models
  • Данные. Любая БД изображения, например, berkeley
  • Аргументы.

Поиск мелодии в базе данных

  • Краткое описание. Задана библиотека мелодий. Для короткого музыкального фрагмента требуется определить, какой мелодии он принадлежит.
  • Базовый алгоритм. Локальное прогнозирование.
  • Данные. Библиотека мелодий в формате .midi. matlab .midi parser
  • Аргументы.

Краткосрочное прогнозирование музыкальных произведений

Проверка подлинности подписей

Поиск похожих тезисов конференций

Сегментация библиографических списков

Распознавание рукописных цифр

Ранжирование поисковой выдачи

Определение наличия и характеристик пульсовой волны

Построение рейтинга научных журналов

  • Краткое описание. Построение совместного рейтинга научных журналов и публикующихся в них авторов.
  • Базовый алгоритм. Co-clusterization
  • Данные. Данные журнал-автор.
  • Аргументы.

Визуализация подписей-выносок

Прогнозирование редких продаж по набору временных рядов

Определение финансовых пузырей в биржевых данных

  • Краткое описание. Разработать метод определения финансовых пузырей в биржевых данных по ценам на сырье.
  • Базовый алгоритм. статья Вилли.
  • Данные. Цены на сырье.
  • Аргументы.

Исследование изменения влияния макроэкономических показателей

  • Краткое описание. Требуется построить модель влияния экономических показателей на ВВП и оценить изменения влияния каждого показателя с течением времени.
  • Базовый алгоритм. Flexible least squares
  • Данные. Данные макроэкономических показателей
  • Аргументы.

Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя

  • Краткое описание. Требуется спрогнозировать показания одного из дорогостоящих датчиков в дизельном двигателе(лямбда-зонда) по показаниям других более дешевых датчиков. Специфика заключается в сильно-пересыщенном признаковом пространстве.
  • Базовый алгоритм.
  • Данные. По запросу от Никиты Ивкина
  • Аргументы.

Обнаружение причинно-следственных связей во временных рядах железнодорожных перевозок и биржевых данных

Распознавание лиц

Personalize Expedia Hotel Searches

Определение нежелательных SMS-сообщений

Кластеризация треков по типу активности

Определение типа активности человека по данным с акселерометра

Классификация сердцебиений

  • Краткое описание. Первичная сегментация кардиограммы. Классификация типов сердцебиений.
  • Базовый алгоритм.
  • Данные. http://www.peterjbentley.com/heartchallenge/#dates
  • Аргументы.

Фильтрация вредоносных URL, по названию ресурса

  • Краткое описание. Фильтрация вредоносных URL, по названию ресурса (например фишинговые ссылки)
  • Базовый алгоритм.
  • Данные. http://sysnet.ucsd.edu/projects/url/
  • Аргументы.

Задача навигации робота

  • Краткое описание. Робот вдоль стены, считывает показания с датчиков, и принимает решения о изменении траектории (поворот на 30, 60 и 90 градусов)
  • Базовый алгоритм.
  • Данные. http://archive.ics.uci.edu/ml/datasets/Wall-Following+Robot+Navigation+Data
  • Аргументы.

Распознавания текста на фотографиях

Прогноз лесных пожаров

  • Краткое описание. Прогнозирование распространения лесных пожаров по метеорологическим данным.
  • Базовый алгоритм.
  • Данные. http://archive.ics.uci.edu/ml/datasets/Forest+Fires
  • Аргументы.

Прогноз состояния продаваемой машины

  • Краткое описание. Оценка истинной стоимости продаваемого автомобиля
  • Базовый алгоритм.
  • Данные. http://www.kaggle.com/c/DontGetKicked
  • Аргументы.

Прогнозирование выплат по страховке

  • Краткое описание. Прогнозирование выплат по страховке в случае ДТП на основании данных об автомобиле.
  • Базовый алгоритм.
  • Данные. http://www.kaggle.com/c/ClaimPredictionChallenge
  • Аргументы.

Прогнозирование должностных зарплат

  • Краткое описание. Прогнозирование должностных зарплат по ключевым необходимым навыкам.
  • Базовый алгоритм.
  • Данные. http://www.kaggle.com/c/job-salary-prediction/data
  • Аргументы.

Локализация лиц на фотографии

Личные инструменты