Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, осень 2015

Материал из MachineLearning.

Перейти к: навигация, поиск


Курс

Построение эксплуатируемых моделей и проведение вычислительного эксперимента

Автор Тема научной работы Ссылка Консультант Рецензент Доклады Буквы Сумма Оценка
Бернштейн Юлия
Бочкарев Артем
Гончаров Алексей
Двинских Дарина
Ефимов Юрий
Жариков Илья
Задаянчук Андрей
Златов Александр
Исаченко Роман
Нейчев Радослав
Подкопаев Александр
Решетова Дарья
Смирнов Евгений
Соломатин Иван
Черных Владимир
Шишковец Светлана
Камзолов Дмитрий

Расписание

Дата Что сделано Результат для обсуждения Буква
Сентябрь 9 Первая лекция. Представление нового курса, мотивация, организация работ. Две вводные лекции для новых студентов (по возможности).
16 Выбрана задача, рецензент. Доклад на 45 секунд о своем проекте. Запись в ML. Доклад B Go
23 Собрана литература. Собрана и описана выборка, сделано описание данных в текстовом виде или в IDEF0. Доклад 2й подгруппы. Список литературы. Описание данных. Literature
30 Поставлена задача. Написаны математическая постановка в формате TeX и описание базового алгоритма. Постановка задачи и алгоритм. Algorithm
Октябрь 7 Разработана архитектура и интерфейс ядра системы. Описание архитектуры в IDEF0. Idef
21 Детализирован интерфейс, написан код. Код для реальных данных. Code
28 Написаны юнит-тесты и модуль, их запускающий. Подготовлен доклад с обоснованием интерфейсов и IDEF-описания. Юнит-тесты, доклад Unit
Ноябрь 4 Собраны и подготовлены данные, необходимые для тестирования. Доработана схема IDEF0 в части подготовки данных. Написаны и запущены системные тесты. Тесты, данные, доработанная схема IDEF0. Tests, Data
11 Код оптимизирован. Отчет профайлера до и после. Profiler
18 Сделан визуальный отчет. По результатам доработки кода написана рецензия на работу. Завершенный тех.отчет, рецензия. Report, Review
25 Сделан пользовательский интерфейс и неcколько примеров использования системы. Код на сайте. Web
Декабрь 2 Подготовлен доклад, приведены в порядок документация и код. Обсуждение результатов, доклад F первой группы. Slides
9 - Доклад F второй группы.

Доклады обозначаются буквами B, M, F.

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Список проектов

Задача 1

  • Название: Анализ данных для выявления скрытых закономерностей в петрофизической информации, полученной лабораторными исследованиями керна
  • Задача: Имеются результаты измерений параметров керна скважины в некотором интервале по глубине, содержащим породу с газовой и нефтяной частями. Измерения имеют типичную лабораторную погрешность и возможные отскоки. Часть данных продублирована измерениями другой лаборатории. Требуется отсеять недостоверные данные, оценить достоверность отобранных данных, выявить подмножества определяющих параметров, с оценкой дисперсий. Построение соответствующих методов, учитывающих физику данных и типы пород, является составной частью задачи.
  • Данные: таблица с данными измерений керна по глубине, содержащими теплофизические свойства, плотность, пористость и проницаемость породы. Возможно добавление аналогичных таблиц с другими глубинами и/или скважинами.
  • Литература:
    1. У консультанта имеются полезные учебники по основам лабораторных исследований керна и свойствам пород (djvu)
    2. Математический инструментарий ожидается от научного руководителя
    3. Литературный обзор применяемых в нефтянке методик (см. следующий пункт) предлагается выполнить студенту самостоятельно, как одну из целей проекта.
  • Базовой алгоритм: Необходимо предварительное литературное исследование имеющихся в нефтегазовой науке методик с целью выявления их возможностей, сильных и слабых сторон. Ожидается либо усовершенствование известных подходов, либо успешное применение некоторого нового алгоритма.
  • Решение: ??
  • Новизна: Информационное обеспечение разведки и разработки нефтяных и газовых месторождений содержит большие массивы данных, включающих случайную и систематическую составляющую. Для задач интерпретации и прогноза необходима, как первая цель, общая математическая методика, позволяющая выявить систематическую составляющую вместе с оценкой достоверности и статистическими параметрами вклада случайной составляющей. Следующей, и основной целью, является разработка непосредственно самих методов интерпретации отфильтрованных достоверных данных и оценки коллекторских свойств продуктивных пластов (пористости, проницаемости, начальной нефтенасыщенности).


  • Консультант: И.Л. Софронов, Московский научно-исследовательский центр Шлюмберже.

Задача 2

  • Название: Определение области обоснованности регрессионной модели
  • Задача: Для молекул строятся регрессионные модели, которые по описанию молекулы предсказывают ее свойства (свободная энергия и т.д.). Нужно построить классификатор, который будет оценивать насколько стоит доверять предсказанным свойствам для новой молекулы: ошибается ли модель более чем на 30% (относительная ошибка) в оценке свободной энергии молекулы.
  • Данные: открытые данные с PubMed и других источников, явные ссылки на источники есть у консультанта.
  • Литература:
    1. У консультанта имеются статьи, в которых рассматриваются похожие задачи в хемоинформатике.
    2. Существует хорошая книга по регрессии на основе гауссовских процессов http://www.gaussianprocess.org/gpml/


  • Базовой алгоритм: Предполагается, что для построения регрессионной модели будет использоваться алгоритм построения регрессионной модели на основе гауссовских процессов. В качестве дополнительного признака для классификации качества модели в точке можно использовать оценку неопределенности модели (апостериорную дисперсию).
  • Решение: ??
  • Новизна: Предполагается, что использование оценок неопределенности модели позволит улучшить классификацию точек на те, на которых модель достаточно точна и не очень точна. Предполагается, что студент предложит самостоятельно и другие признаки и оценит их полезность на практике.
  • Консультант: А.А. Зайцев, ИППИ РАН.
Личные инструменты