Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 174, осень 2014

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 285: Строка 285:
|}
|}
 +
 +
== Работа и консультации ==
 +
# Работы сдаются в течение недели.
 +
# Желательна итеративная сдача работ, начинать показ лучше в выходные.
 +
# Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
 +
# В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
 +
# Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».
 +
 +
== Задачи ==
 +
 +
'''Шаблон описания научной статьи'''<ref>В описании задачи этого семестра нет двух полей:'''Решение''': Предлагаемое решение задачи и способы проведения исследования. Способы
 +
представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма и'''Новизна''': Обоснование новизны и значимости идей (для редколлегии и рецензентов
 +
журнала). Также изменено поле * '''Базовой алгоритм''': Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу. Это связано с тем, что работа носит
 +
прикладной характер и новизна предлагаемого решения остается за рамками обязательной программы.
 +
</ref>
 +
 +
* '''Название''': Название, под которым статья подается в журнал.
 +
* '''Задача''': Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
 +
* '''Данные''': Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
 +
* '''Литература''': Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
 +
* '''Базовой алгоритм''': Ссылка на простой алгоритм, решающий эту задачу.
 +
 +
 +
== Список проектов ==
 +
 +
===1. ... в вероятностных тематических ... регуляризатора ... (переформулировать в прикладном ключе) ===
 +
*'''Консультант:''' А.А. Потапенко
 +
*'''Задача:''' Вероятностная тематическая модель (постановка К.В. Воронцова)
 +
*'''Данные:''' Краткое описание прикладной модели.
 +
*'''Литература:'''
 +
** [[Медиа:Task-PTM-Potapenko.pdf| Описание задачи и предлагаемые пути решения]]
 +
** Воронцов К. В. Вероятностное тематическое моделирование. — 2014.
 +
http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf
 +
* '''Базовый алгоритм:''' Регуляризованный EM-алгоритм (ссылка).
 +
 +
===2. ... диагностика заболеваний ... ===
 +
* '''Консультант:''' В.Р. Целых
 +
* '''Задача:''' Описание заадачи с прикладной точки зрения (постановка К.В. Воронцова) .
 +
* '''Данные:''' Краткое описание и ссылка
 +
* '''Литература:'''
 +
** Ссылка на более подробное описание задачи
 +
* '''Базовый алгоритм:''' Метрический алгоритм (чего?) с жадным отбором признаков.
 +
 +
===3. ... устойчивость вероятностной модели ... (новое название в прикладном ключе) ===
 +
* '''Консультант:''' М.A. Дударенко
 +
*'''Задача:''' Вероятностная тематическая модель описывает написать что надо получить с прикладной точки зрения ()
 +
* '''Данные:''' Коллекция документов задаётся частотами слов. Поскольку для
 +
решения задачи необходимо знать «истинные» матрицы <tex>\Phi, \Theta,</tex> эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам
 +
разреженности, слабой коррелированности тем и наличия фоновых тем.
 +
* '''Литература:'''
 +
** Аддитивная регуляризация (это общий материал, можно узкоспециальное описание?)
 +
** тематическое ...
 +
'''Базовый алгоритм:''' ссылка на описание алгоритма
 +
 +
===4. Премодерация сообщений ===
 +
* '''Консультант:''' И.С. Гуз
 +
* '''Задача:'''
 +
* '''Данные:''' Краткое описание и ссылка.
 +
* '''Литература:'''
 +
** ??
 +
** ??
 +
'''Базовый алгоритм:'''
 +
 +
===5. Интерпретация движений человека с помощью носимого акселерометра ===
 +
* '''Консультант:''' А.П. Мотренко
 +
* '''Задача:'''
 +
* '''Литература:'''
 +
**
 +
**
 +
*** '''Базовой алгоритм:''' Что было разработано?
 +
 +
===6. Ранжирование документов с помощью структурно-простых моделей ===
 +
* '''Консультант:''' А.П. Мотренко
 +
* '''Задача:'''
 +
* '''Данные:''' Данные по текстовым коллекциям LIG.
 +
*'''Литература:'''
 +
** Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
 +
* '''Базовой алгоритм:''' Алгорим полного перебора допустимых суперпозиций порождающих функций.
 +
 +
===7. Уточнение прогноза железнодорожных грузоперевозок по биржевым данным ===
 +
* '''Консультант:'''
 +
* '''Задача:'''
 +
* '''Данные:''' Исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
 +
* '''Литература:'''
 +
** Tools for the
 +
** ...
 +
* '''Базовой алгоритм:'''
 +
 +
 +
 +

Версия 15:28, 26 августа 2014


Заметки и планы осеннего семестра. Материал будет убран на методическую страницу к концу августа. В сентябре тут будут опубликованы разделы Результаты, Расписание, Постановка задач. --Strijov 02:09, 15 мая 2014 (MSD)


Этот семестр посвящен постановке вычислительных экспериментов. Результатом эксперимента является анализ свойств математической модели, получаемой в результате решения поставленной задачи машинного обучения анализа данных. Построенная модель подготавливается к эксплуатации и представляется на языке, наиболее подходящем для эксплуатации. Cоздаются эксплуатационные интерфейсы. Результатами работы являются:

  1. эксплуатационная документация в формате systemdoics,
  2. код вычислительного эксперимента и тесты,
  3. версия кода для эксплуатаци[1],
  4. доклады и презентация.

Результаты предыдущих курсов

Результаты

Автор Тема научной работы Ссылка Консультант Доклады Буквы Сумма Оценка
Газизуллина Римма Про [2], pdf
Гринчук Алексей Выб [3], pdf
Гущин Александр Пос [4], pdf
Ефимова Ирина Диф [5], pdf
Жуков Андрей Пос [6], pdf
Игнатов Андрей Обу [7], pdf
Карасиков Михаил Пои [8], pdf
Кулунчаков Андрей Обн [9], pdf
Липатова Анна Обн [10], pdf
Макарова Анастасия Исп [11], pdf
Плавин Александр Опт [12], pdf И.О. Консультанта
Попова Мария Выб [13], pdf
Швец Михаил Инт [14], pdf
Шинкевич Михаил Вли [15], pdf
Sk Что
Sk Что
ВШЭ Что
ВШЭ Что

Расписание (до начала курса будет уточняться)

Дата Что сделано Результат для обсуждения Буква
Сентябрь 3 Представление нового курса, мотивация, организация работ. Две вводные лекции для новых студентов (по возможности). Обсудим прошлый семестр.
10 Выбрана задача, рецензент. Доклад на 45 секунд о своем проекте. Запись в ML.
17 Собрана литература, написаны комментарии. Список литературы и мини-сообщение. Literatura
24 Поставлена задача для синтетических данных. Написана математическая постановка в формате TeX. Примерно страница текста. Statement
Октябрь 1 Создан файл отчета. Сделано описание проекта. Создана архитектура и интерфейс ядра системы (синтетические данные). Описание, IDEF0. Idef
8 Детализирован интерфейс, написан код первого приближения. Код для синтетических данных. Code
15 Написаны юнит-тесты и модуль, их запускающий. Юнит-тесты. Unit-test
22 Собраны реальные данные. Доработана схема IDEF0. Написаны модули подготовки данных. Данные, вторая схема IDEF0, модули. Data
29 Написаны и запущены системные тесты. По результатам доработки кода написана рецензия на работу. Тесты, рецензия. Tests
Ноябрь 5 Код оптимизирован. Отчет профайлера до и после. Profiler
12 Сделан визуальный отчет. Завершенный тех.отчет. Report
19 Разработан веб-интерфейс. Код на сайте. Web
26 Сделан пользовательский интерфейс и неколько примеров использования системы. Обсуждение результатов, доклад первой группы. Show
Декабрь 3 Подготовлен доклад, приведены в порядок документация и код. Доклад второй группы. Show

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Задачи

Шаблон описания научной статьи[1]

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на простой алгоритм, решающий эту задачу.


Список проектов

1. ... в вероятностных тематических ... регуляризатора ... (переформулировать в прикладном ключе)

  • Консультант: А.А. Потапенко
  • Задача: Вероятностная тематическая модель (постановка К.В. Воронцова)
  • Данные: Краткое описание прикладной модели.
  • Литература:

http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf

  • Базовый алгоритм: Регуляризованный EM-алгоритм (ссылка).

2. ... диагностика заболеваний ...

  • Консультант: В.Р. Целых
  • Задача: Описание заадачи с прикладной точки зрения (постановка К.В. Воронцова) .
  • Данные: Краткое описание и ссылка
  • Литература:
    • Ссылка на более подробное описание задачи
  • Базовый алгоритм: Метрический алгоритм (чего?) с жадным отбором признаков.

3. ... устойчивость вероятностной модели ... (новое название в прикладном ключе)

  • Консультант: М.A. Дударенко
  • Задача: Вероятностная тематическая модель описывает написать что надо получить с прикладной точки зрения ()
  • Данные: Коллекция документов задаётся частотами слов. Поскольку для

решения задачи необходимо знать «истинные» матрицы \Phi, \Theta, эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем и наличия фоновых тем.

  • Литература:
    • Аддитивная регуляризация (это общий материал, можно узкоспециальное описание?)
    • тематическое ...

Базовый алгоритм: ссылка на описание алгоритма

4. Премодерация сообщений

  • Консультант: И.С. Гуз
  • Задача:
  • Данные: Краткое описание и ссылка.
  • Литература:
    •  ??
    •  ??

Базовый алгоритм:

5. Интерпретация движений человека с помощью носимого акселерометра

  • Консультант: А.П. Мотренко
  • Задача:
  • Литература:
      • Базовой алгоритм: Что было разработано?

6. Ранжирование документов с помощью структурно-простых моделей

  • Консультант: А.П. Мотренко
  • Задача:
  • Данные: Данные по текстовым коллекциям LIG.
  • Литература:
    • Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
  • Базовой алгоритм: Алгорим полного перебора допустимых суперпозиций порождающих функций.

7. Уточнение прогноза железнодорожных грузоперевозок по биржевым данным

  • Консультант:
  • Задача:
  • Данные: Исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
  • Литература:
    • Tools for the
    • ...
  • Базовой алгоритм:




Черновик описания курса

Анализ свойств включает следующие основные элементы:

  • тестирование постановки задачи и принятых (статистических) гипотез порождения данных
  • анализ ошибки или анализ регрессионных остатков,
  • анализ адекватности модели,
  • анализ условий применимости модели,
  • анализ сложности модели,
  • анализ вычислительной сложности алгоритмов построения или эксплуатации модели.

Результат:

  • модуль для построения модели на языке Матлаб,
  • юнит-тесты модуля,
  • вычислительный эксперимент, системные тесты: анализ свойств модели (то же),
  • модуль эксплуатации модели, код на языке эксплуатации (С, ++, #, Python, Java, CUDA, Ruby, VHDL, ...),
  • юнит-тесты эксплуатируемой части,
  • конструкторская документация в формате Systemdocs, в частности:
    • мотивация проекта,
    • формальная постановка задачи,
    • IDEF модуля построения модели,
    • IDEF модуля эксплуатации модели (если требуется),
    • описание интерфейсов,
    • описание системных тестов и их результатов,
    • описание юнит-тестов,
    • анализ производительности.

Эксплуатация модели предполагается в одном из вариантов, доступных для широкого круга пользователей:

  • Модуль на Google Play / Apple Store,
  • Модуль на сервере mvr.jmlda.org.

Научная статья: написание научной статьи приветствуется, но не входит в расписание проекта. Это связано с повышением требования к качеству статей студентов четвертого курса. Так как на третьем курсе мы подали ряд статей в журналы ВАК, то имеет смысл для некоторых работ обсудить формат статьи в журнал WebOfKnowledge.

Требования к слушателям: слушатели знают базовый курс лекций К.В. Воронцова и программируют на Матлабе.

Мотивация

Время работы человека гораздо ценнее времени работы компьютера. Поэтому мы работаем следующим образом: 1) ставим задачу в формальном наиболее детализированном варианте, 2) делаем вычислительные эксперименты на Матлабе, 3) полученные модели переписываем на том языке, на котором модели будут эксплуатироваться. Это может быть VHDL, в котором результатом компиляции является микросхема-процессор специального назначения увеличивающий скорость вычисления в миллионы раз, CUDA для видеопроцессоров, Java для телефонов, PL-SQL для систем коллективного пользования, Ruby on Rails для интернета.

Сделать

Написать методические рекомендации для руководителей по планированию и проверке результатов работ.

Личные инструменты