Участник:Strijov/Drafts2

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Strijov (Обсуждение | вклад)
(Новая: =2015= == Моя первая научная статья== Участвуют эксперты, индивидуальные консультанты и студенты Кафедры...)
К следующему изменению →

Версия 15:23, 6 февраля 2023

Содержание

2015

Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры интеллектуальных систем ФУПМ МФТИ.


Выложен разбор задач по Матлабу (ДЗ-1), pdf


Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылка Консультант Рецензент ДЗ-1 ДЗ-2 (Номер задачи) Буквы Сумма Оценка
Бернштейн Юлия Методы определения характеристик фибринолиза по последовательности изображений крови in vitro Матвеев И. А. Соломатин 1 3 (8) AILSBRCVTDE 11 10
Бочкарев Артем Структурное обучение при порождении моделей [1] (no code), paper, slides Варфоломеева Анна, Бахтеев Олег Исаченко 2 2 (7) A+I++LS+BRCVT+DS 9.25 10
Гончаров Алексей Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук 1.5 1 (4) AILSBRCVTDSW 12 10
Двинских Дарина Повышение качества прогнозирования с использованием групп товаров code,

paper, slides

Каневский Д. Ю. Смирнов 0.5 3 (7) AILSBRCVTDEHS 14 10
Ефимов Юрий Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов code,

paper, slides

Матвеев И. А. Нейчев AILSBRCVTDEW 12 10
Жариков Илья Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм. code, paper, slides Ишкина Шаура Бочкарев 3.5 3 (5) AIL+SBRCVTDEHSW 14.25 10
Задаянчук Андрей Выбор оптимальной модели классификации физической активности code,

paper, slides

Мария Попова Гончаров 2 0 (17) AI-LSB+RCVTD 10 10
Златов Александр Построение иерархической модели крупной конференции code,

paper, slides

Арсентий Кузьмин Двинских 1.5 3 (14) AI+L+SBRC++V+TDESW 14.25 10
Исаченко Роман Метрическое обучение и снижение размерности пространства в задачах кластеризации временных рядов code, paper, slides Катруца Александр Жариков 3.5 3 (14) A-I+L+S-BR+CVTDEHSW 14.25 10
Нейчев Радослав Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов code, paper, slides Катруца Александр Ефимов 1 3 (9) AI-L-SBRCVTDEHSW 13.5 10
Подкопаев Александр Прогнозирование четвертичных структур белков code,

paper, slides

Ю. В. Максимов Решетова 3.5 3 (11) AILS+B+RCVTDEHS 13.5 10
Решетова Дарья Методы многоклассовой классификации с улучшенными оценками сходимости в задачах частичного обучения code,

paper, slides

Максимов Юрий Камзолов 2.5 3 (10) AIL++SB+RCVT++DEHS- 14 10
Смирнов Евгений Тематическая модель интересов постоянных пользователей мобильного приложения code, paper, slides Виктор Сафронов Златов 1 1 (4) AILSBRCVTWDE 11.25 10
Соломатин Иван Определение области затенения радужки классификатором локальных текстурных признаков code, paper, slides Матвеев И. А. Бернштейн 3 (9) AILSBRCVTDE 11 10
Черных Владимир Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности code,

paper, slides

Стенина Мария Шишковец 3.5 3 (4) A+I+LSBRCVT+DE++H++ 13.75 10
Шишковец Светлана Регуляризация линейного наивного байесовского классификатора. code,

paper, slides

Михаил Усков, Константин Воронцов Черных 3.5 2 (9) A+I+L+SBR+CV+TD+E+H+S 15 10
Камзолов Дмитрий Новые алгоритмы для задачи ранжирования веб-страниц Александр Гасников, Юрий Максимов Подкопаев AILSB+RCVT+DEHS-- 13 8
Сухарева Анжелика Классификация научных текстов по отраслям знаний code,

paper, slides

Сергей Царьков 0.5 AILSBRCVTDEH 9

Расписание

Дата ДЗ Тема лекции Результат для обсуждения Код
Февраль 12 Вводная лекция. Задано ДЗ-1. --
19 1 Начало, демонстрация интерфейсов. Выбор задачи пробного программирования Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. --
Дата ДЗ Что делаем Результат для обсуждения Код
26 2 Решить пробную задачу, написать код. Выбор задачи Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. Test
Март 5 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
12 4 Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). Statement, Basic code, Report
19 5 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
26 6 Описание алгоритма. Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 2 7 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
9 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
16 8 Контрольная точка — показ статьи в целом. Доработанная статья. сHeck
23 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal, RevieW

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

Список проектов

Задача 1

  • Название: Повышение качества прогнозирования спроса с использованием групп товаров
  • Задача:

Дано:

    1. Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников и периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
    2. Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
    3. Функция потерь, по которой измеряется качество прогнозов: MAPE.
    4. Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).

Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности. Замечание: возможны и другие варианты повышения качества прогнозирования за счёт работы с группами товаров. Задача заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом. Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.

  • Данные:
    1. Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
  • Литература:
    1. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
    2. http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
    3. Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
    4. Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
  • Базовой алгоритм: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
    1. Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
    2. Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
    3. Сезонность оценивается по кластерам, исходя из методики [3], [4].
  • Решение: Требуется реализовать объединение модели сезонности [3] и модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников и маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
  • Новизна: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
  • Консультант: Каневский Д.Ю.

Задача 2

  • Название: Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
  • Задача: Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
  • Данные: таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
  • Литература:
  • Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается
  • Решение: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
  • Новизна: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
  • Консультант: Олег Бахтеев.

Задача 3

  • Название: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
  • Задача: Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами и т.д.)
  • Данные: Синтетические данные и тесты.
  • Литература:
  • Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
  • Решение:
  • Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
  • Консультант: Александр Адуенко.

Задача 4

  • Название: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
  • Задача: постановка задачи из [3] формула (32)
  • Данные: временные ряды с ценами на электроэнергию.
  • Литература:
    • Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
    • Основные статьи:
    1. [4] - исследование влияния цен в одной стране на цену в другой и как это учесть при прогнозировании.
    2. [5] - обзор терминов и процессов, всплывающих в прогнозировании HPFC + мотивация
    3. [6] - тоже про прогнозирование цен, но тут про спотовые цены
  • Базовой алгоритм:
    1. LAD-Lasso estimation из [7]
    2. Статья Сандуляну про модификацию Add-Del: [8].
  • Решение: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
  • Новизна: сравнение базвого и предложенного методов, анализ свойств предложенного метода.
  • Консультант: Александр Катруца.

Задача 5

  • Название: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
  • Задача: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [9]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
  • Данные: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
  • Литература
    • Описание прикладной задачи и техническое задание: по запросу.
  • Базовой алгоритм: Преобразование Хафа [10], обсуждается.
  • Консультант: И.А. Матвеев

Задача 6

  • Название: Прогнозирование четвертичных структур белков: нивелирование
  • Задача: Задача заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.

Нужно исследовать эту формулировку и предложить алгоритм решения.

Suppose we have N proteins in an assembly, such that each protein i can be located in one of P positions x_{p}^{i}. N is ~ 10, P ~ 100. To each two vectors x_{i}^{p} and x_{j}^{q}, we can assign an energy function q_{0}, which is the overlap integral in the simplest approximation. Each protein position also has an associated score b_{0}. Thus, the optimal packing problem can be formulated as


\begin{align}
x^{T}Q_{0}x+b_{0}^{T}x	&\rightarrow&	\textrm{min}\\
\textrm{w.r.t}.		&&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\
	&&	x_{i}^{k}\geq0\;\forall i,k
\end{align}

  • Данные: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий и интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода и подготовка данных займет ~ 1 неделю.
  • Литература: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
  • Замечания по коду: Замечания по программной реализации
  • Базовый алгоритм: Хочется попробовать выпуклые релаксации.
  • Новизна: Выпуклые релаксации не применялись ранее в таких задачах на данных белков
  • Консультант: Ю.В. Максимов

Задача 7

  • Название: Метрическое обучение и снижение размерности пространства в задачах классификации временных рядов
  • Задача: постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
  • Данные: временные ряды цен на электроэнергию
  • Литература:
    1. [11] - базовая статья
    2. [12] - отличный обзор методов Metric Learning
    3. [13] - ещё обзор
  • Базовой алгоритм: алгоритм Франка-Вольфа (условного градиентного спуска)
  • Решение: применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
  • Новизна: применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
  • Консультант: Александр Катруца

Задача 8

  • Название: Структурное обучение при порождении моделей
  • Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
  • Данные: Подколлекции TREC.
  • Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [14]
  • Литература
    • Jaakkola T. Scaled structured prediction.
    • Tommi Jaakkola “Scaling structured prediction”
    • Найти все работы учеников TJ по данной тематике.
    • Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
  • Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
  • Решение: Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
  • Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
  • * Консультант: Анна Варфоломеева, Олег Бахтеев

Задача 9

  • Название: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.
  • Задача: Решается задача проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается задача автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
  • Данные: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
  • Литература:
    1. Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
    2. Технология информационного анализа электрокардиосигналов
    3. Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
    4. Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
    5. Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
    6. Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
    7. Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
    8. Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
    9. Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
  • Базовой алгоритм: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
  • Решение: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов и R-амплитуд и выявленных кодовых последовательностей (вычисляются по амплитудам и интервалам) для каждого заболевания. Здесь возникает задача обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает задача оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
  • Новизна: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, и в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии и некоторые другие признаки [7].
  • Консультант: Ишкина Шаура

Задача 10

  • Название: Simplification of the IR models structure
  • Задача: To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of simple nonlinear functions and expect to obtain the comparable quality of solution.
  • Данные: TREC collections.
  • Литература
    • P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
    • Problem statement
  • Базовой алгоритм: Gradient boosting machine for constructing a model of high complexity. Exaustive search of superpositions from a set of elementary functions for approximation and simplification.
  • Решение: The optimal functions for the linear combination can be found by the greedy algorithm.
  • Новизна: A new ranking function of simple structure competitive with traditional ones.
  • Консультант: Mikhail Kuznetsov.

Задача 11

  • Название: Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
  • Задача: Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее и др.
  • Данные: Данные о грузовых железнодорожных перевозках (РЖД)
  • Литература:
    • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
    • Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
  • Базовой алгоритм: ARMA, Hist.
  • Решение: В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд и сезонность.
  • Новизна: Разработан и обоснован метод определения выполнения условия локальной стационарности временного ряда.
  • Консультант: Стенина Мария

Задача 12

  • Название: Обучение метрик в задачах полного и частичного обучения
  • Задача: состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
  • Данные: Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом). Первичные тесты можно проводить на данных представленных здесь
  • Литература: Список литературы и описание подробное задачи приведены в файле
  • Замечания к коду: Замечания по программной реализации
  • Базовый алгоритм: 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
  • Консультант: Ю.В. Максимов

Задача 13

  • Название: Построение иерархической тематической модели крупной конференции
  • Задача: Ежегодно, программный комитет крупной конференции EURO (более 2000 докладов) сталкивается с задачей построения иерархической модели тезисов конференции. В силу того, что структура конференции слабо меняется из года в год, предлагается построить тематическую модель будущей конференции, используя экспертные модели конференций прошлых лет. При этом возникают следующие подзадачи:
  1. Классификация тезисов новой конференции.
  2. Прогнозирование изменений структуры конференции.
  • Данные: Тезисы и экспертные модели конференций EURO 2010, 2012, 2013.
  • Литература: Alexander A. Aduenko, Arsentii A. Kuzmin, Vadim V. Strijov. Adaptive thematic forecasting of major conference proceedings текст статьи
  • Базовой алгоритм:
  • Решение: Для решения подзадач
  1. предлагается объединить экспертные модели конференций прошлых лет в одну, и для каждого тезиса новой конференции найти в полученной объединенной модели наиболее подходящий кластер, например, с помощью взвешенной косинусной меры близости.
  2. исследовать изменения в структуре конференций из года в год и определить порог значений внутрикластерного сходства, при котором для некоторого набора тезисов эксперты создают новый кластер, а не добавляют эти тезисы в уже существующие кластеры.
  • Новизна: Взвешенная косинусная мера близости, учитывающая иерархичность структуры кластеров. Прогнозирование изменений иерархической структуры/тематики конференции
  • Консультант: Арсентий Кузьмин

Задача 14

  • Название: Регуляризация линейного наивного байесовского классификатора.
  • Задача: Построение линейного классификатора является одной из классических и самых хорошо изученных задач машинного обучения. Линейный наивный байесовский (LNB) классификатор имеет сильное преимущество — он строится за время, линейное по длине выборки, и сильное ограничение — при его выводе предполагается, что признаки независимы. На некоторых данных LNB работает удивительно хорошо, несмотря на явное нарушение гипотезы о независимости признаков. Линейная машина опорных векторов (SVM) считается очень успешным методом, но на больших выборках работает долго. Оба эти метода работают в одном и том же пространстве линейных классификаторов. Идея исследования состоит в том, чтобы путём незначительных поправок LNB приблизить его к SVM по качеству, но без утраты эффективности.
  • Данные: Один из трёх наборов данных, по выбору: классификация текстов на научные и ненаучные, классификация авторефератов по областям науки, классификация кодограмм ЭКГ на больных и здоровых.
  • Литература:
    1. Larsen (2005) Generalized Naive Bayes Classifiers.
    2. Abraham, Simha, Iyengar (2009) Effective Discretization and Hybrid feature selection using Naïve Bayesian classifier for Medical datamining.
    3. Lutu (2013) Fast Feature Selection for Naive Bayes Classification in Data Stream Mining.
    4. Zaidi, Carman, Cerquides, Webb (2014) Naive-Bayes Inspired Effective Pre-Conditioner for Speeding-up Logistic Regression.
    5. + спросить у К.В.Воронцова.
  • Базовой алгоритм: любые готовые реализации LNB и SVM. Плюс наивный отбор признаков для LNB.
  • Решение: Выводим поправочные формулы для весов LNB при использовании margin-maximization регуляризатора, аналогичного SVM. Строим итерационный процесс, в котором на каждом шаге вычисляется поправка, ещё немного приближающая LNB к SVM. Строятся ROC-кривые и зависимости Hold-out AUC от номера итерации.
  • Новизна: Сообщество ML до сих пор не осознало, что любой линейный классификатор эквивалентен какому-то наивному байесовскому.
  • Консультант: Михаил Усков. Гиперконсультант: К.В.Воронцов.

Задача 15

  • Название: Тематическая модель интересов постоянных пользователей мобильного приложения.
  • Задача: Мобильное приложение для изучения английских слов предлагает пользователю слова одно за другим. Пользователь может либо добавить слово к изучаемым, либо откинуть. Чтобы начать учить слова, нужно набрать, как минимум, 10 слов. Требуется построить вероятностную модель генерации слов, адаптирующуюся под интересы пользователя.
  • Данные: Для каждого пользователя имеются списки добавленных и откинутых слов. Кроме того, предполагается использовать большую внешнюю коллекцию текстов, например, Википедию, для устойчивого определения тематики.
  • Литература:
    1. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
    2. + попросить у К.В.Воронцова
  • Базовой алгоритм: Алгоритм случайного отбора слов.
  • Решение: Тематическая модель для каждого пользователя определяет тематический профиль его интересов p(t|u). Для генерации слов используются распределения слов из распределений p(w|t) тем данного пользователя. Строятся зависимости функционалов качества тематической модели от номера итерации. Основной функционал качества — способность модели предсказывать, какие слова пользователь оставит, а какие откинет.
  • Новизна: Особенностью модели является наличие откинутых слов. Разработанные методы могут быть также применены в рекомендательных системах с лайками и дизлайками.
  • Консультант: Виктор Сафронов. Гиперконсультант: К.В.Воронцов.

Планы на следующий год:

  1. Расширить тест по матлабу и давать его вместе с пробным программированием в качестве первого задания.

2014

Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры анализа данных ФУПМ МФТИ.

Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылка Консультант ДЗ-1 Буквы Сумма Оценка
Газизуллина Римма Прогнозирование объемов железнодорожных грузоперевозок по парам веток [15], pdf Стенина Мария \frac{15}{15}+\frac{10}{16} [MF]TAI+L+SBR+CV+T>DEH(J) 16 10
Гринчук Алексей Выбор оптимальных структур прогностических моделей методами структурного обучения [16], pdf Варфоломеева Анна \frac{7}{15}+\frac{2}{16} [F]TA+I+LSBR+СV+T+D+E(F) 14,5 9
Гущин Александр Последовательное порождение существенно нелинейных моделей в задачах ранжирования документов [17], pdf Кузнецов Михаил \frac{5}{15}+\frac{2}{16} [F]TAI+L+SBRCVTDEHS(F) 15,5 9
Ефимова Ирина Дифференциальная диагностика заболеваний по электрокардиограмме [18], pdf Целых Влада \frac{15}{15}+\frac{12}{16} [MF]T+A+I+L+SB++R+CV+TDE+H(J ed) 17,25 10
Жуков Андрей Построение рейтингов вузов: панельный анализ и оценка устойчивости [19], pdf Кузнецов Михаил \frac{8}{15}+0 [F]TAIL+SBRCVTDEHS(F) 15,25 9
Игнатов Андрей Обучение многообразий для прогнозирования наборов квазипериодических временных рядов [20], pdf Ивкин Никита 0+\frac{7}{16} [MF]TA+I+L+S+B+R+C+VTD>E+HS (J if ed) 18 10
Карасиков Михаил Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач [21], pdf Ю.В. Максимов 0+0 [MF]TAI+L+SBRC+V+TDESH(J) 15 10
Кулунчаков Андрей Обнаружение изоморфных структур существенно нелинейных прогностических моделей [22], pdf Сологуб Роман, Кузнецов Михаил \frac{10}{15}+\frac{14}{16} [F]T+AI+L+S+BR+CVT++D+EHS(J ed-ed) 17 10
Липатова Анна Обнаружение закономерностей в наборе временных рядов методами структурного обучения [23], pdf А. П. Мотренко \frac{8}{15}+\frac{6}{16} [MF]TA+I+LSBR-CVTDE (J when ed) 14,25 10
Макарова Анастасия Использование нелинейного прогнозирования при поиске зависимостей между временными рядами [24], pdf Мотренко Анастасия 0+0 [F]TAI-LSB+R-CVTD>E>(F) 12,75 9
Плавин Александр Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания [25], pdf Потапенко Анна \frac{13}{15}+\frac{14}{16} [F]T+A+I+L+S+BR++CVTD+>>(?) 14 10
Попова Мария Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра [26], pdf Токмакова Александра \frac{11}{15}+\frac{6}{16} [MF]T+AI+L++SB++R+CV+TD+(JV ed) 15,25 10
Швец Михаил Интерпретация мультимоделей при обработке социологических данных [27], pdf Адуенко Александр \frac{11}{15}+\frac{4}{16} [M+F]T+A+I+L+S+B+R+CVTD+E(F) 16,25 9
Шинкевич Михаил Влияние регуляризаторов разреживания, сглаживания и декорреляции на устойчивость вероятностной тематической модели [28], pdf Дударенко Марина \frac{15}{15}+\frac{9}{16} [MF]T+AIL+S+BR+CV+T+D+E+H(J ed) 17 10

Расписание

Дата ДЗ Тема лекции Результат для обсуждения Код
Февраль 13 Вводная лекция. Задано ДЗ-1. --
20 1 Начало, демонстрация интерфейсов. Выбор задачи пробного программирования Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. --
Дата ДЗ Что делаем Результат для обсуждения Код
27 2 Решить пробную задачу, написать код. Выбор задачи Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. Test
Март 6 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
13 4 Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). Statement, Basic code, Report
20 5 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
27 6 Описание алгоритма. Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 3 7 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
10 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
17 8 Контрольная точка — показ статьи в целом. Доработанная статья. сHeck
24 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

Список проектов

1. Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания

Консультант: А.А. Потапенко

Задача: Вероятностная тематическая модель описывает вероятности появления слов w\in W в документах d\in D через латентные темы t\in T:

  p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.

Требуется проверить гипотезу, что, накладывая ограничения на матрицу \Theta с помощью регуляризатора строкового разреживания, возможно определить оптимальное число тем.

Данные: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать <<истинное>> число тем, эксперименты производятся на реалистичных модельных или полумодельных данных.

Литература:

ментов // Доклады РАН. 2014. — Т. 455, №3 (в печати).

  • Воронцов К. В. Вероятностное тематическое моделирование. — 2014.

http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf

  • Teh Y. W., Jordan M. I., Beal M. J., Blei D. M. Hierarchical Dirichlet processes // Journal of the

American Statistical Association. — 2006. — Vol. 101, no. 476. — Pp. 1566–1581.

Базовый алгоритм: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.

Новизна: Для оптимизации числа тем обычно используется модель иерархического процесса Дирихле HDP [2006: Teh et Al]. Она определяет число тем неустойчиво, и при этом сложна как для понимания, так и для реализации. Аддитивная регуляризация тематических моделей (ARTM) --- это новый подход к тематическому моделированию, сочетающий универсальность, гибкость и простоту. Задача оптимизации числа тем ещё не рассматривалась в рамках ARTM.

2. Дифференциальная диагностика заболеваний по электрокардиограмме

Консультант: В.Р. Целых

Задача: Предлагается решить типичную задачу классификации. Признаками являются 216 характеристик, вычисляемых по электрокардиограмме. Необходимо провести оценку качества классификации по отложенной контрольной выборке. Для этого вычисляются доли ошибок первого и второго рода. Под ошибкой первого рода подразумевается отнесение здоровых к классу больных, второго рода – отнесение больных к классу здоровых. Предпочтение отдается минимизации ошибок второго рода.

Данные: Для каждой из 5 болезней есть 2 типа выборок. Эталонные – более надежные, специально отобранные случаи. Остальные – случаи, когда диагнозы устанавливались врачами менее надежно, эти выборки предлагается использовать для контроля.

Литература:

  • Воронцов К. В. Метрические алгоритмы классификации. Лекции по машинному обучению. — 2014. http://www.MachineLearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf
  • Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
  • Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.

Базовый алгоритм: Для решения задачи предлагается использовать метрический алгоритм с жадным отбором признаков.

Новизна: Данные подготовлены по уникальной технологии информационного анализа электрокардиосигналов, разработанной проф. д.м.н. В.М.Успенским. Предложен алгоритм классификации и исследована его обобщающая способность.

3. Влияние регуляризаторов разреживания, сглаживания и декорреляции на устойчивость вероятностной тематической модели

Консультант: М.A. Дударенко

Задача:Вероятностная тематическая модель описывает вероятности появления слов w\in W в документах d\in D через латентные темы t\in T:

    p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.

Представление матрицы \|p(w|d)\|_{W\times D} в виде произведения двух матриц меньшего размера {\Phi=\|\phi_{wt}\|_{W\times T}} и {\Theta=\|\theta_{dt}\|_{T\times D}} не единственно: \Phi \Theta = (\Phi S)(S^{-1}\Theta) = \Phi'\Theta' для некоторых невырожденных S. Требуется проверить гипотезу, что, накладывая ограничения на матрицы \Phi, \Theta с помощью регуляризаторов, возможно повысить устойчивость их восстановления.

Данные: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать «истинные» матрицы \Phi, \Theta, эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем и наличия фоновых тем.

Литература:

  • Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
  • Воронцов К. В. Вероятностное тематическое моделирование. — 2014. http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf.

Базовый алгоритм: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.

Новизна: Аддитивная регуляризация тематических моделей (ARTM) предложена в [2014: Воронцов] как универсальный способ повышения устойчивости и интерпретируемости тематических моделей. Однако вопрос о том, какое именно сочетание регуляризаторов повышает устойчивость, пока остаётся открытым. Данное исследование направлено на решение этой проблемы.

4. Построение рейтингов вузов: панельный анализ и оценка устойчивости

Консультант: М.П. Кузнецов

Задача: Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза и целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, которая бы позволяла интерпретировать изменение состояния вуза.

Данные: Данные по ста ведущим мировым университетам за восемь лет.

Литература:

  • Стрижов В.В. Уточнение экспертных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
  • Стрижов В.В. Уточнение экспертных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
  • Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
  • Черновик статьи POF по запросу.

Базовой алгоритм: Методика построения рейтинга RUR и один из избыточно устойчивых алгоритмов для ранговых шкал.

Новизна: Введено понятие интерпретируемости изменения позиции рейтинга. Решена задача выбора и оптимальной локально-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяющевого интерпретировать изменение состояния вуза с целью мониторинга. Вариант: решена обратная задача управления: как изменить показатели вуза, чтобы достичь заданной цели.

5. Обнаружение закономерностей в наборе временных рядов методами структурного обучения

Консультант: А.П. Мотренко

Задача: Для повышения качества прогноза временных рядов хочется использовать экспертные высказывания о наличии причинно-следственной связи между событиями. Для этого необходимо уметь оценивать достоверность экспертных высказываний. Доказать наличие причинно-следственной связи статистическими методами невозможно. Исследователь может лишь проверить наличие определенной структуры связи. Целью задачи является, опираясь на экспертные высказывания о наличии связи между событиями, исследовать временные ряды на наличие различных структурных связей и найти структуру, наиболее согласованную с мнением эксперта.

Литература:

  • R. B. Kline, Principles and Practice of Structural Equation Modeling. New York: Guilford. 2005.
  • J. Pearl, Graphs, Causality and Structural Equation Models. Sociological Methods and Research, 27-2(1998), 226-284.
  • J. Pearl, E. Bareinboim, Transportability of Causal and Statistical Relations: A Formal Approach // Proceedings of the 25th AAAI Conference on Artificial Intelligence, August 7-11, 2011, San Francisco. 247-254
  • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.

Базовой алгоритм: моделирование структурных уравнений, SEM

Новизна: Предложен метод оценки достоверности экспертных высказываний о влиянии биржевых цен на основные инструменты на объем железнодорожных грузоперевозок. Предложены различные структуры связей между временными рядами. Введено понятие сложности структуры. Исследована связь между сложностью структуры и оценкой достоверности высказывания.

18. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами

Консультант: А.П. Мотренко

Задача: (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда и исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических данных и выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей. Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.

Литература:

  • Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
  • Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
  • George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
  • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.

Базовой алгоритм: convergent cross mapping

Новизна: Предложены различные структуры связей между временными рядами и метод проверки наличия связей

6. Последовательное порождение существенно нелинейных моделей в задачах ранжирования документов

Консультант: М.П. Кузнецов

Задача: Предложить и протестировать на тестовых и реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной структуры модели (добавление элемента суперпозиции).

Данные: Синтетические данные, данные по текстовым коллекциям LIG.

Литература:

  • Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
  • Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
  • Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
  • Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
  • Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.

Базовой алгоритм: Алгоритм полного перебора допустимых суперпозиций порождающих функций.

Новизна: Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.

7. Обнаружение изоморфных структур существенно нелинейных прогностических моделей

Консультант: Р.А. Сологуб, М.П. Кузнецов

Задача: Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма и для алгоритма поэлементного сравнения отображений.

Данные: Данные по биржевым опционам: зависимость волатильности опциона от цены и времени его исполнения.

Литература:

  • Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
  • Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
  • Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
  • Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
  • Стрижов В.В., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.

Базовой алгоритм: Алгоритм поэлементного сравнения отображений.

Новизна: Предложен быстрый алгоритм упрощения суперпозиций и поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.

8. Построение прогностических моделей как суперпозиций экспертно-заданных функций

Консультант: Н.П. Ивкин

Задача: Требуется отнести набор временных рядов к одному из нескольких классов. Предлагается это сделать с помощью процедуры автоматизированного порождения признаков. Для этого экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций. Полученные признаки используются для классификации набора временных рядов (например, методом ближайших соседей).

Данные: данные с акселерометра мобильного телефона.

Литература:

  • Постановка задачи \MLAlgorithms\Group074\Kuznetsov2013SSAForecasting\doc
  • Хайкин С. Нейронные сети. Вильямс, 2006.

Базовой алгоритм: нейронная сеть (вариант: нейронная сеть глубокого обучения).

Новизна: Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций экспертно-заданных функций.

Сравнение структурной и топологической сложности в задачах классификации.

9. Обучение многообразий для прогнозирования наборов квазипериодических временных рядов

Консультант: Н.П. Ивкин

Задача: Решается задача классификации человеческой активности на основании данных с акселерометра мобильного телефона. Данные с акселерометра представляются квазипериодическими временными рядами. Требуется отнести временной ряд к одному из видов активности: бег, ходьба и др. Для решения задачи классификации рядов предлагается метод на основе ближайших соседей в пространстве многообразий.

Данные: данные с акселерометра мобильного телефона.

Литература:

  • Mi Zhang; Sawchuk, A.A., "Manifold Learning and Recognition of Human Activity Using Body-Area Sensors," Machine Learning and Applications and Workshops (ICMLA), 2011 10th International Conference on , vol.2, no., pp.7,13, 18-21 Dec. 2011

Базовой алгоритм: нейронная сеть

Новизна: предложен способ классификации квазипериодических временных рядов на основе многообразий

10. Интерпретация мультимоделей при обработке социологических данных

Консультант: А.А. Адуенко

Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей и градиентный бустинг.

Данные: данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).

Литература:

  • смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
  • бустинг (лекция «Композиционные методы классификации и регрессии» Воронцова)

Базовой алгоритм: бустинг.

Новизна: Выявление и объяснение сходств и различий решений, полученных двумя указанными алгоритмами.

11. Выбор оптимальных структур прогностических моделей методами структурного обучения

Консультант: А.А. Варфоломеева

Задача: Предлагается решать задачу прогнозирования в два этапа: сначала по историям построения успешных прогнозов восстанавливается структура прогностической модели. Затем параметры модели оптимизируются; с помощью модели строится прогноз временного ряда.

Данные: синтетическая выборка, биомедицинские временные ряды, результаты измерений акселерометра.

Литература:

Базовой алгоритм: алгоритм метапрогнозирования, описанный в дипломной работе.

Новизна: Предложен метод восстановления структур моделей с использованием априорных предположений об этих структурах.

12. Инварианты при прогнозировании квазипериодических рядов

Консультант: А.А. Кузьмин

Задача: Решается задача почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.

Данные: почасовые данные о ценах и объема потребления электроэнергии (вставить ссылку).

Литература:

  • Сандуляну Л.Н., Стрижов В.В. Выбор признаков в авторегрессионных задачах прогнозирования // Информационные технологии, 2012, 7 — 11-15.
  • (взять из последней статьи Фадеева)

Базовой алгоритм: авторегрессионное прогнозирование, описанное в работе Сандуляну.

Новизна: Предложен алгоритм совместной оценки параметров инвариантов и авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.

13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток

Консультант: М.М. Стенина (Медведникова)

Задача: Спрогнозировать объемы перевозок с ветки на ветку, сравнить с базовым алгоритмом прогноза отправления вагонов с ветки. Проверить гипотезу о том, что прогноз перевозок с ветки на ветку точнее, чем прогноз при помощи базового алгоритма. Исследовать ряды на тренд/периодичность. Если тренд/периодичность есть, то включить в модель. Подготовить алгоритм прогнозирования для использования.

Данные: посуточные данные за полтора года о перевозках 38 типов грузов по Омской области.

Литература:

  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.

Базовый алгоритм: гистограммное прогнозирование, описанное в статье.

Новизна: предлагается повысить качество прогноза путем разделения данных на меньшие части и прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.

14. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра

Консультант: А.А. Токмакова

Задача: Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую и точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.

Данные: Набор временных рядов измерений акселерометра.

Литература:

  • Прореживание нейронных семей на сайте Machinelearning.ru.
  • Хайкин С. Нейронные сети. Вильямс, 2006.

Базовой алгоритм: Optimal Brain Damage/Optimal Brain Surgery.

Новизна: Предложен способ последовательного порождения нейронных сетей оптимальной сложности. Исследована устойчивость порождаемых моделей.

15. Метапрогнозирование временных рядов

Консультант: А.С. Инякин, Н.П. Ивкин

Задача: Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.

Данные: Библиотека квазипериодических и апериодических временных рядов

Литература:

  • Кузнецов М.П., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 104-112.
  • Фадеев И.В., Ивкин Н.П., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 92-103.

Базовой алгоритм: Использовать алгоритм SAS/SPSS.

Новизна: Предложен метод быстрого выбора оптимального прогностического алгоритма по описанию временного ряда.

16. Идентификация человека по изображению радужной оболочки глаза

Консультант: И.А. Матвеев

Задача: В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания и более того, использование данных с затенённых участков может порождать ложные признаки и снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является отбраковка затенённых участков.

Данные: растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух окружностей, аппроксимирующих зрачок и радужку.

Литература:

  • Описание задачи и предлагаемые пути решения
  • Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
  • Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
  • MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
  • Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
  • G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.

Базовый алгоритм: метод, использующий скользящее окно и текстурные признаки [2006: Xu, Zhang, Ma].

Новизна: построена маска открытой области радужки.

17. Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач

Консультант: Ю.В. Максимов

Задача: Исследовать различные подходы к решению задач классификации с многими классами и сравнить их эффективность.

Данные: Данные с различным числом классов. 0. Toy example: Shuttle dataset. http://archive.ics.uci.edu/ml/datasets/Statlog+(Shuttle). Маленькая выборка, 7 классов. Не надо делать подготовку данных. 1. Текстовые данные коллекции Reuters http://www.daviddlewis.com/resources/testcollections/reuters21578/. 2. Данные нашего конкурса Kaggle от LIG http://www.kaggle.com/c/lshtc

Литература:

Базовые алгоритмы: SVM с различными ядрами, Adaboost. Базовые подходы: one vs all(combined), one vs one(uncombined)

Домашнее задание-2: пробное программирование

Задача Кто делает Номер
Дана выборка "Вина различных регионов". Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике. Плавин 1
Предложить способы визуализации наборов четырехмерных векторов, например для Fisher's iris data. Записать свою фамилию тут. 2
Дан временной ряд, описывающий потребление электричества. Приблизить ряд несколькими криволинейными моделями и нарисовать спрогнозированные и исходный ряды на одном графике. Кулунчаков Андрей. 3
Сгладить временной ряд Цены (объемы) на основные биржевые инструменты методом экспоненциального сглаживания. Нарисовать цветные графики сглаженных с различным  \alpha рядов и исходного ряда. Авдюхов 4
Аппроксимация выборки замкнутой кривой [29]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно. Газизуллина Римма 5
Дан временной ряд с пропусками, например [30]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить с гистограммой исходной выборки. Игнатов Андрей 6
Дана выборка "Вина различных регионов". Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью метода ближайшего соседа. Для каждой изобразить результат классификации в пространстве выбранных признаков. Попова Мария 7
Для различных видов зависимости  y = f(x) + \epsilon (линейная, квадратичная, логарифмическая) построить линейную регрессию и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения-?). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб". Ефимова Ирина 8
Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки. Шинкевич Михаил 9
Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки и их выпуклая оболочка – замкнутая ломаная линия. Макарова Анастасия 10
Дана выборка: ирисы Фишера. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков. Жуков Андрей 11
Задан временной ряд – объемы почасового потребления электроэнергии (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома. Карасиков Михаил 12
Задано два одномерных временных ряда различной длины. Вычислить расстояние между рядами методом динамического выравнивания. Гринчук Алексей 13
Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты. Липатова 14
Аппроксимировать выборку цены на хлеб полиномиальной моделью. Нарисовать график. Пометить объекты, являющиеся выбросами, используя правило трех сигм. Швец Михаил 15
Разделить выборку ирисы Фишера на кластеры. Проиллюстрировать на графике результаты кластеризации, выделить кластеры разными цветами. Гущин Александр 16
И еще задания на выбор
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). 17
Сгладить временной ряд (см. библиотеку) скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга. Костюк 18
Дан временной ряд (см. библиотеку). По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? Гиззатуллин Анвар 19
Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера Сингулярное разложение и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). 20
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб (данные).

2013

Моя первая публикация с кросс-рецензированием

Задачи

Название задачи Автор Ссылка MAIPVTDCHSJ
Определение напечатанного изображения Пушняков Алексей [31] MAIPVTDCHSJ
Сравнение быстрых алгоритмов кластеризации Катруца Александр [32] MAIPVTDCHS
Векторная авторегрессия и управление макроэкономическими показателями Кащеева Мария [33] MAIPVTDCHS
Разметка библиографических записей с помощью логических алгоритмов Рыскина Мария [34] MAIPVTDCHS
Определение точной границы зрачка Чинаев Николай [35] MAIPV.DCHS
Векторная авторегрессия и управление макроэкономическими показателями Гринчук Олег [36] MAIPVTD.HS
Порождение нейронных сетей с экспертно-заданными функциями активации Перекрестенко Дмитрий [37] MAIPVTDСHS
Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей Яшков Даниил [38] MAI.VTD.HS
Инвариантные преобразования в задачах локального прогнозирования Костин Александр [39] MAI.VT..HS
Алгоритм генетического программирования для решения задачи прогнозирования Воронов Сергей [40] MAIPVTDC.S
Группировка номинальных переменных в задачах банковского кредитного скоринга Митяшов Андрей [41] MAIPVTDCHS
Моделирование процесса обучения и забывания при оценке качества производства Неклюдов Кирилл [42] MAI...DC.S
Обзор алгоритмов упрощения алгебраических выражений Шубин Андрей [43] MAIPVTD.S
Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии Ибраимова Айжан [44] MAIP.TD...
Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов Бырдин Александр [45] MAI..TD..S
Визуализация матрицы парных расстояний в тематическом моделировании Вдовина Евгения [46] MAI..TDC.S
Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов Антипова Наташа [47] MAIP.T...S

Расписание

Дата Что делаем Результат для обсуждения Код
Март 7 Выбрана задача, рецензент. Запись в ML.
14 Выбрана задача, найдены базовые публикации, они в bib. Аннотация, 600 знаков. Annotation
21 По собранной литературе написано введение; найдены данные. Введение, примерно одна страница. Introduction
28 Поставлена задача, Поставлена задача, собраны или написаны все необходимые алгоритмы. Постановка задачи, полстраницы. Problem
Апрель 4 Поставлен вычислительный эксперимент, получены первые результаты. Визуализация данных. Visualizing
11 Описание алгоритма. Алгоритмическая часть (второй / третий раздел). Theory
18 Теоретическая часть и практика. Заключение, план эксперимента, список рисунков. Статья в черновом варианте с заключением и поставленным экспериментом. Document
25 Завершение вычислительного эксперимента. Описание эксперимента и анализ ошибок. Comp
Май 16 Контрольная точка - показ статьи в целом. Статья. cHeck
~30 Доработанная статья, доклад, обсуждение. Экзамен. Show, Journal, Review

Оценки

База

Код A I P V T D C HSJ R M
Балл 1 1 1 1 1 1 1 0-3 .5 .5
Кумулятивно 1 2 3 4 5 6 7 8-10 10 10

Статистика

Что-то Читаемое ML.ru Статья
3 4 5 6 6 8 9 10

Черновой список задач

Задача 2. Surname2013MassProduction (*eng)

  • Название. Порождение и оптимизация логических описаний при построении производственных линий.
  • Проблема. Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм и протестировать его на синтетических данных.
  • Данные. Требуется создать.
  • Литература. Нужен поиск (скорее всего немецких публикаций).
  • Предлагаемый алгоритм. Обсуждается.
  • Базовый алгоритм. Нет.

Задача 3. Surname2013LearnForget (eng)

  • Название. Моделирование процесса обучения и забывания при оценке качества производства.
  • Проблема. Найти адекватную регрессионную модель, описывающую деятельность группы людей.
  • Данные. Данные по скорости и качеству сборки бумажных самолетиков.
  • Литература. Нужно искать.
  • Предлагаемый алгоритм. Процедура анализа регрессионных остатков.
  • Базовый алгоритм. Регрессионная модель в прилагаемой статье.

Задача 4. Surname2013GeneticProg

  • Название. Алгоритм генетического программирования для решения задачи прогнозирования.
  • Проблема. Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП и с нейронными сетями.
  • Данные. Тестовый набор задач, взять на UCI или на Полигоне.
  • Литература. Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
  • Предлагаемый алгоритм. ГП.
  • Базовый алгоритм. ГП, нейронные сети.

Задача 5. Surname2013Simplify

  • Название. Обзор алгоритмов упрощения алгебраических выражений.
  • Проблема. Требуется найти литературу по алгоритмам, упрощающим выражения, сравнить алгоритмы, запрограммировать алгоритм, предложенный в работе Рудой/Стрижов.
  • Данные. Собрать тестовую коллекцию выражений.
  • Литература. Graph rewriting.
  • Предлагаемый алгоритм. Р/С, сравнение алгоритмов.

Задача 6. Surname2013RedListExplanation

  • Название. Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
  • Проблема. Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для экспертов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими экспертным данным и "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
  • Данные. Экспертные оценки краснокнижных видов.
  • Литература. Литература по алгоритмам метрической классификации.
  • Предлагаемый алгоритм. Метод или алгоритм, который сообщает эксперту почему (sic!) объект не попал в предполагаемый экспертом класс.

Задача 7. Surname2013RedListClassification

  • Название. Алгоритм монотонной классификации объектов, описанных в ранговых шкалах.
  • Проблема. Применить решающее дерево к экспертным оценкам угрожаемости краснокнижных видов. Сравнить с ранее предложенными алгоритмами. Обосновывать операции с ранговыми признаками, ввести обобщение понятия информативности на случай монотонных классов, видимо, сделать обобщение гипергеометрического распределения.
  • Данные. Экспертные оценки краснокнижных видов.
  • Литература. Нужно постараться избежать ссылок на тривиальные источники. Поискать похожие работы в иностранных журналах.

Задача 11. Surname2013Invaraint4LocalForecast

  • Название. Инвариантные преобразования в задачах локального прогнозирования.
  • Проблема. Совместить алгоритмы инвариантного преобразования времени и амплитуды прогнозируемых временных рядов.
  • Данные. Временные ряды измерения пульсовой волны.
  • Литература. Найти, избежать тривиальных ссылок.

Задача 8. Surname2013PlausibleExpert

  • Название. Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов.
  • Проблема. Исследование взаимосвязи биржевых цен на основные инструменты и железнодорожных грузоперевозок.
  • Данные. Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
  • Литература. Публикации по CCM.
  • Предлагаемый алгоритм. Модификации ССМ.

Задача 9. Surname2013DeepLearning

  • Название. Порождение нейронных сетей с экспертно-заданными функциями активации.
  • Проблема. Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления и цен на электроэнергию.
  • Данные. Посуточные данные за три года.
  • Литература. Deep Learning.
  • Предлагаемый алгоритм. Построение нейронной сети и оценка ее параметров.

Задача 16. Surname2013ScoringSelection

  • Название. Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии.
  • Проблема. С помощью генетического алгоритма найти информативные объекты и признаки.
  • Данные. Данные по потребительским кредитам.
  • Литература. -

Задача 10. Surname2013ScoringFeatureSelection

  • Название. Группировка номинальных переменных в задачах банковского кредитного скоринга.
  • Проблема. Создать генетический алгоритм снижения размерности признакового пространства.
  • Данные. Исторические данные по кредитам наличностью.
  • Литература. SAS, найти еще.

Задача 15. Surname2013InverseVAR

  • Название. Векторная авторегрессия и управление макроэкономическими показателями.
  • Проблема. Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
  • Данные. Макроэкономические показатели России за последние 16 лет.
  • Литература. Работы С.А. Айвазяна.

Задача 12. Surname2013DistanceVisualizing

  • Название. Визуализация матрицы парных расстояний в тематическом моделировании.
  • Проблема. Отобразить тезисы конференции на плоскости с сохранением кластеров.
  • Данные. Тезисы конференции EURO.
  • Литература. Зиновьев на ML, литература по теме.
  • Предлагаемый алгоритм. PCA.
  • Базовый алгоритм. Алгоритм с минимизацией энергетического критерия.

Задача 13. Surname2013RhoNets

  • Название. Сравнение быстрых алгоритмов кластеризации.
  • Проблема. Сравнить алгоритм кластеризации с использованием $\rho$-сетей и быстрый алгоритм $k$-средних.
  • Данные. Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
  • Литература. $k$-средних, $\varepsilon$-сети.
  • Предлагаемый алгоритм. $\rho$-сети.
  • Базовый алгоритм. $k$-средних.

Задача 17. Surname2013FeatureSelection

  • Название. Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей.
  • Проблема. Построить ряд тестовых задач для сравнения алгоритмов. Предложить алгоритм выбора признаков с анализом ковариационных матриц, основанных на методе Белсли.
  • Данные. Синтетические.
  • Литература. Леонтьева/Стрижов, поискать современные обзоры.

Задача 1. Surname2013Txt2Bib

  • Название. Разметка библиографических записей с помощью логических алгоритмов.
  • Проблема. Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений и выбран адекватный алгоритм.
  • Данные. В MLAlgorithms.
  • Литература. Работа А. Ивановой и все, что есть по теме за последние два года.
  • Предлагаемый алгоритм. Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
  • Базовый алгоритм. Тупиковые покрытия.

Задача 14. Surname2013FindTheFormula (Risky)

  • Название. Алгоритм поиска текстовых структур в документе.
  • Проблема. Предложить алгоритм, который бы в документе TeX искал бы формулы, эквивалентные заданной.
  • Данные. Синтетические, коллекция MLAlgorithms.
  • Литература. Надо искать. Поиск по химическим соединениям в WoK работает неплохо.

Задача 18. Surname2013ScannedImage (Image)

  • Название. Определение типа бланка.
  • Проблема. Определить тип бланка по скану.
  • Данные. Набор изображений в TIF.

Задача 19. Surname2013SpectrumImage (Image)

  • Название. Определение напечатанного изображения.
  • Проблема. Сделать спектральное преобразование изображения, исследовать спектр.
  • Данные. Набор изображений в JPG, отнесенных в два класса.

Домашнее задание-3 (пробное программирование)

  1. Выбрать одну из задач, написать свою фамилию напротив задачи.
  2. В папке MLAlgorithms/Example2013Code cоздать папку Surmame2013Title.
  3. Сохранить туда код (и графики, если задача предполагает).
  4. Графики оформлять в соответствии с рекомендациями (достаточно файла PNG).
  5. Предлагается руководствоваться стилевыми рекомендациями (в частности, назвать первый файл main или demoTitle) -- этими и |этими.
  6. Срок выполнения работ - до следующей лекции.
  7. Каждая задача может занимать от двух до шести часов. Задачи нужны, чтобы почувствовать код.


Задача Кто делает
Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше? Митяшов Андрей
Дан пятиэлементный вектор. Нарисовать лицо Чернова. Что лучше - лицо Чернова или диаграмма? Неклюдов Кирилл
Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. Рыскина Мария
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Шубин Андрей
Разобраться как работает web-соединение и regexp. Сделать поисковый запрос по теме и сверстать из нее запись BibTeX.
Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку? Воронов Сергей
Повернуть и увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам. Антипова Наташа
Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица? Вдовина Евгения
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). Гринчук Олег
Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике. Пушняков Алексей
Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике. Кащеева Мария
На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения. Ибраимова Айжан
Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. Яшков Даниил
Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?
Создать несколько групп точек на плоскости и выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера. Перекрестенко Дмитрий
Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить и проиграть определенную ноту.
Загрузить видеоряд. Удалить каждый второй кадр. Обработать по вкусу. Записать обратно. Бырдин Александр
Показать разницу в скорости выполнения матричных операций и операций в цикле. Показать эффективность параллельных вычислений (parfor и другие). Катруца Александр
Предложить варианты визуализации четырехмерных векторов и пространств. Сравнить их со встроенной функцией.
Сгладить временной ряд скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга. Чинаев Николай
Нарисовать поверхность. Каждую точку поверхности заменить медианой от n соседей. Нарисовать результат. Костин Александр

2012

Тематическое моделирование: публикация в журнале ВАК

Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.


Список задач

Название задачи Автор Ссылка на работу Комментарии
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации Медведникова Мария [48] Опубликовано
Иерархическая тематическая кластеризация тезисов и визуализация Кузьмин Арсентий [49] Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации. Адуенко Александр [50] Опубликовано
Построение иерархических тематических моделей Цыганова Светлана [51] Опубликовано
Выбор признаков в задачах структурной регрессии Варфоломеева Анна [52] Принято
Статистические критерии однородности и согласия для сильно разреженных дискретных распределений Целых Влада

[53]

Опубликовано
Построение логических правил при разметке текстов Иванова Алина [54] Принято
Проверка адекватности тематической модели Степан Лобастов [55] Редакция

Расписание

Дата Что делаем Результат для обсуждения Код
Сентябрь 10 Выбрана задача, рецензент Запись в ML
17 Выбрана задача, найдены базовые публикации. Аннотация, 600 знаков. Annotation
24 Собрана литература, она в bib; найдены данные. Введение, примерно одна страница. Introduction
Октябрь 8 Поставлена задача, собраны или написаны все необходимые алгоритмы. Постановка задачи, полстраницы. Problem
15 Поставлен вычислительный эксперимент, получены первые результаты. Визуализация данных. Visualizing
22 Описание алгоритма. Алгоритмическая часть (третий раздел). Document
29 Теоретическая часть. Второй раздел. Theory
Ноябрь 5 Завершение вычислительного эксперимента. Описание эксперимента и анализ ошибок. Comp
12 Контрольная точка - показ статьи в целом. Статья. cHeck
19 Доработка статьи; доклад, первая группа. Доклад. Show
26 Доклад, вторая группа. Подача статьи в журнал. Journal
Декабрь 3 Доклад, третья группа. Рецензия написана, [r]-рецензенту Review, [r]
10 Последний день для претендентов на оценки 10,9,8. Экзамен (score)

Черновой список задач

1. 2012CoRegression

  • Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
  • Тизер: Построение интегральной оценки эффективности научной деятельности.
  • Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
  • Литература: К.В.Воронцов «Коллаборативная фильтрация».
  • Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
  • Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
  • Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
  • Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

2. 2012ExpertRanking

  • Название: Согласование ранговых экспертных оценок.
  • Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
  • Данные: Интернет-голосование за список книг, голосование без кооптации.
  • Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
  • Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
  • Базовый алгоритм: Медиана Кемени и другие алгоритмы.
  • Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

3. 2012StructureRegression

  • Название: Выбор признаков в задачах структурной регрессии
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
  • Данные: библиографические записи из BibTeX collection on CS.
  • Литература: работы Jaakkola и его команды, возможно, код.
  • Предлагаемый алгоритм: Структурная регрессия.
  • Базовый алгоритм: описан Валентином.
  • Требуется: сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.

4. 2012LogicClassification

  • Название: Построение логических правил при разметке текстов
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
  • Данные: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
  • Литература: работы Инякина, Чувилина, Кудинова.
  • Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
  • Базовый алгоритм: описан Валентином.
  • Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.

5. 2012RankClustering

  • Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
  • Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
  • Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
  • Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
  • Ключевые слова: DTW — модификации, k-Means.
  • Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
  • Базовый алгоритм: k-Means и его высокопроизводительные вариации.
  • Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

6. 2012ThematicClustering

  • Название: Проверка адекватности тематической модели.
  • Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
  • Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
  • Литература: по кластеризации, и введению расстояний между текстами как мешками слов.
  • Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
  • Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
  • Базовый алгоритм: k-Means
  • Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

7. 2012ThematicHierarchy

  • Название: Построение иерархических тематических моделей.
  • Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
  • Данные: Тексты тезисов.
  • Литература: иерархические модели, topic modelling.
  • Ключевые слова: иерархическое тематическое моделирование.
  • Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
  • Базовый алгоритм: PLSA--LDA.
  • Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.

8. 2012ThematicVisualizing

  • Название: Визуализация иерархических тематических моделей.
  • Тизер: На материалах конференции EURO.
  • Данные: Тексты тезисов конференции Евро-2012.
  • Литература: многомерное шкалирование, кластеризация.
  • Ключевые слова: визуализация графов.
  • Предлагаемый алгоритм:
  • Базовый алгоритм: --
  • Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
    • корректировки названий тем/подтем конференции,
    • переносе тезиса из одной темы в другую,
    • адекватности соответствия модельной и фактический кластеризации.

9. 2012CovSelection

  • Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
  • Тизер: Ранжирование поисковых выдач Яндекса.
  • Данные: Яндекс – математика.
  • Литература: Бишоп, Стрижов.
  • Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
  • Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
  • Базовый алгоритм: SVM.
  • Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ThematicMatching

  • Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
  • Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
  • Данные: Авторефераты диссертаций (SugarSync). Паспорта специальностей.
  • Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
  • Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
  • Предлагаемый алгоритм:
  • Базовый алгоритм: C-Value и TF-IDF.
  • Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
  • Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
    • пополняем паспорт известной специальности новыми ключевыми словами, либо
    • находим ближайший паспорт специальности.
  • Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

11. 2012FeatureGen

  • Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации
  • Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
  • Данные: синтетические, интернет-коллекция.
  • Литература: Стрижов, Рудой.
  • Ключевые слова: порождение признаков, поиск изоморфных моделей.
  • Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
  • Базовый алгоритм: решающие деревья.
  • Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

12. 2012TypeDetection

  • Название: Методы извлечения признаков из текстовой информации
  • Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
  • Данные: синтетические, интернет-коллекция.
  • Литература Найти.
  • Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
  • Предлагаемый алгоритм.
  • Базовый алгоритм.
  • Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

Темы К.В. Воронцова

  • 2012SparceDistribution Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)

2012LatentModels

  • Название: Проверка адекватности тематической модели.
  • Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
  • Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
  • Литература: по латентным моделям.
  • Ключевые слова: мягкая кластеризация, латентные модели.
  • Предлагаемый алгоритм: hHDP.
  • Базовый алгоритм: HDP.
  • Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

Ссылки

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.

Литература

https://www.sugarsync.com Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.

Публикация работ

Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов и редактора учтены) >> Опубликовано (вышел номер).

Название задачи Автор Ссылка на журнал Исходный текст работы Дата подачи Состояние
Выбор признаков и оптимизация метрики при кластеризации коллекции документов Адуенко А.А., Кузьмин А.А., Стрижов В.В. Известия ТулГу [56] 12.10.2012 Опубликовано
Оценивание вероятностей появления строк в коллекции документов Будников Е.А., Стрижов В.В. Информационные технологии [57] 24.09.2012 Опубликовано
Проверка адекватности тематических моделей коллекции документов Кузьмин А.А., Стрижов В.В. Программная инженерия [58] 17.12.2012 Опубликовано
Алгоритм оптимального расположения названий коллекции документов Адуенко А.А., Стрижов В.В. Программная инженерия [59] 13.11.2012 Опубликовано
Визуализация матрицы парных расстояний между документами Адуенко А.А., Стрижов В.В. Научно-технические ведомости С.-Пб.ПГУ [60] 29.10.2012 Подано
Построение интегрального индикатора качества научных публикаций методами ко-кластеризации Медведникова М.М., Стрижов В.В. Известия ТулГу [61] 15.11.2012 Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов Адуенко А.А., Стрижов В.В. Инфокоммуникационные технологии [62] 18.12.2012 Опубликовано
Алгоритм построения логических правил при разметке текстов Иванова А.В., Адуенко А.А., Стрижов В.В. Программная инженерия [63] 24.01.2013 Принято
Построение иерархических тематических моделей коллекции документов Цыганова С.В., Стрижов В.В. Прикладная информатика [64] 27.01.2013 Опубликовано
Выбор признаков при разметке библиографических списков методами структурного обучения Варфоломеева А.А., Стрижов В.В. Научно-технические ведомости С.-Пб.ПГУ [65] 27.01.2013 Отрецензировано
Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании Целых В.Р., Воронцов К.В. Машинное обучение и анализ данных [66] 17.12.2012 Опубликовано
Проверка адекватности тематической модели Степан Лобастов [67] Редакция

Список принятых к публикации работ

  • 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
  • 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
  • 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
  • 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
  • 5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
  • 6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
  • 7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
  • 8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
  • 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
  • 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
  • 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.

Моя первая публикация с кросс-рецензированием

Список задач

Название задачи Автор Рецензент Ссылка на работу Комментарии
CMARS: аппроксимация сплайнами Влада Целых Татьяна Шпакова Celyh2012CMARS [.]сaipvdstrj(10)
Алгоритмические основы построения банковских скоринговых карт Александр Адуенко Алина Иванова Aduenko2012economics [.]сaipvdstrj(10)
Использование метода главных компонент при построении интегральных индикаторов Мария Медведникова Светлана Цыганова Medvednikova2012PCA [r]сaipvdstrj(10)
Многоуровневая классификация при обнаружении движения цен Арсентий Кузьмин Анна Варфоломеева Kuzmin2012TimeRows [r]сaipvdstjr(10)
Локальные методы прогнозирования с выбором инвариантного преобразования Светлана Цыганова Мария Медведникова Tsyganova2012 LocalForecast [r]сaipvdstjr(10)
Прогноз квазипериодических многомерных временных рядов непараметрическими методами (пример) Егор Клочков Александр Шульга Klochkov2012Goods4Cast [r]сaipvdstj.(10)
Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии (пример) Степан Лобастов Егор Клочков Lobastov2012FOSelection [r]сaipvdstrj(10)
Локальные методы прогнозирования с выбором метрики Анна Варфоломеева Арсентий Кузьмин Varfolomeeva2012 LocForecastMetrics [r]сaipvdstjr(10)
Полиномы Чебышева и прогнозирование временных рядов Валерия Бочкарева Степан Лобастов Bochkareva2012TimeSeriesPrediction [.]сaipvdst-r(9)
Кластеризация и составление словаря аминокислотных последовательностей Татьяна Шпакова Влада Целых Shpakova2012Clustering [.]сaipvdst..(9)
Векторная авторегрессия и управление макроэкономическими показателями Александр Шульга Shulga2012VAR [.]сaipvds...(9)
Аппроксимация эмпирических функций распределения Алина Иванова Александр Адуенко Ivanova2012 ApproximateFunc [r]сaipvd....(9)

Общий план работ

Дата Что делаем Результат для обсуждения code
Февраль 29 Выбрана задача, найдены базовые публикации. Аннотация, 600 знаков. annotation
Март 14 Собрана литература, она в bib; найдены данные. Введение, примерно одна страница. itroduction
21 Поставлена задача, собраны материалы по работе. Найдены публикации. Постановка задачи, полстраницы. problem
28 Поставлен вычислительный эксперимент, получены первые результаты. Визуализация данных. visualizing
Апрель 4 Описание алгоритма, часть 1. Теоретическая часть. document
11 Описание алгоритма, часть 2. Теоретическая часть завершена. d
18 Завершение вычислительного эксперимента. Контрольная точка - показ статьи в целом. show
25 Доработка статьи; доклад, первая группа. Доклад. talk
25 Доклад, вторая группа. Подача статьи в журнал. journal
Май 3 Доклад, третья группа. Рецензия написана, [r]-рецензенту review, [r]
10 Последний день для претендентов на оценки 10,9. Зачет (score)

Аннотации

Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии

Логистическая регрессия – это статистическая модель, которая применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Она находит применение, например, в медицине [68] и кредитном скроллинге. В реальных условиях число признаков обычно велико, и важнейшей задачей является выбор только существенных признаков , а также поиск объектов, которые по тем или иным причинам являются атипичными.

Ключевые слова: logit model, feature selection, boosting.

Использование метода главных компонент при построении интегральных индикаторов

В данной работе рассматривается использование метода главных компонент при построении интегральных индикаторов. Полученные результаты сравниваются с результатами, даваемыми методом расслоения Парето. Строится интегральный индикатор для российских вузов. Для этого используются биографии 30 богатейших бизнесменов России по версии журнала "Forbes" за 2011 год.

Ключевые слова: интегральный индикатор, экспертные оценки, веса параметров, метод главных компонент, метод расслоения Парето.

Аппроксимация эмпирических функций распределения

Работа посвящена методам аппроксимации функций для эффективного вычисления интегралов. В практических задачах обычно имеются данные в определенных точках времени или пространства. При построении предположений об остальных точках возникает необходимость аппроксимации функции распределения исследуемой величины, а также оценка соответствующей ошибки. Для ее расчета есть возможность использовать методы разной точности.

Ключевые слова: метод Монте-Карло, вычисление функцй распределения, эмпирические функции распределения.

Методы локального прогнозирования с выбором преобразования

Задачи прогнозирования временных рядов имеют множество приложений в различных областях, таких как экономика, физика, медицина. Их решением является прогноз на недалекое будущее по уже известным значениям прогнозируемого ряда в предыдущие моменты времени. В работе будет построен алгоритм локального прогнозирования с учетом преобразований, позволяющий без участия человека выявить визуально похожие участки временного ряда.

Ключевые слова: локальное прогнозирование, преобразование

Черновой список задач

  1. Кластеризация и составление словаря аминокислотных последовательностей
  2. Oblivious decision trees: алгоритм Яндекс для системы Полигон
  3. Сравнительный анализ регрессионных остатков в SVN-регрессии
  4. Алгоритмы нахождения гауссовских смесей
  5. Прогноз квазипериодических многомерных временных рядов непараметрическими методами
  6. Многоуровневая классификация при обнаружении движения цен
  7. CMARS: аппроксимация сплайнами
  8. Полиномы Чебышева и метод прогонки при прогнозировании временных рядов
  9. Сравнение методов ARMA и FLS при ретроспективном прогнозировании
  10. Локальные методы прогнозирования с выбором метрики
  11. Локальные методы прогнозирования с выбором инвариантного преобразования
  12. Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии
  13. Векторная авторегрессия и управление макроэкономическими показателями
  14. Построение рейтинга российских вузов по открытым данным об успешности карьеры их выпускников

Ещё задачи

  1. Анализ текста методами структурного обучения
  2. Аппроксимация эмпирических функций распределения
  3. Алгоритмические основы построения банковских скоринговых карт
  4. Сингулярное разложение и поисковая машина
  5. Сравнение алгоритмов многокритериальной оптимизации
  6. Уточнение экспертных оценок на данных в ранговых шкалах (интервальные, конусы, веса экспертов, копулы)
  7. Уточнение экспертных оценок при анализе работы механизма устойчивого развития энергетики
  8. Визуализация пространства параметров регрессионных моделей
  9. Восстановление регрессии методом главных компонент
  10. Оценка гиперпараметров путем сэмплирования
  11. Прореживание существенно нелинейных моделей с помощью гиперпараметров
  12. Фактор Оккама для параметрических моделей с известной областью определения параметров
  13. Создание алгоритмов последовательной модификации моделей
  14. Порождение и выбор моделей классификации

И еще задачи

  • Функция расстояния между формулами и поиск.
  • Поиск объектов (техническая работа).

+

  • Авторегрессия
  • Векторная авторегрессия
  • Экспоненциальное сглаживание
  • Локальные методы, поиск метрики
  • Локальные методы с инвариантами, метрика фиксирована
  • ARIMA
  • Многомерная гусеница, выбор длины гусеницы
  • Многомерная гусеница, выбор рядов
  • Прогнозирование с использованием DTW
  • Скользящее среднее, выбор ядер
  • Скользящее среднее с забыванием истории
  • Скользящее среднее временных рядов с периодической составляющей
  • Прогнозирование нейронными сетями
  • Анализ качества прогноза
  • Метаописание временных рядов
  • Логическое прогнозирование
  • SVN – регрессия
  • Дискретное прогнозирование, музыка.

Составить

  • Список типичных типографических ошибок
  • Список ошибок BibTeX
Личные инструменты