Математические методы прогнозирования (кафедра ВМиК МГУ)/Спецкурсы-спецсеминары

Пара	Понедельник	Вторник	Среда	Четверг	Пятница
8:45 – 10:20	Спецкурс Методы и технологии анализа данных, Майсурадзе Арчил Ивериевич, к.ф.-м.н. Спецкурс Нейросетевые методы обработки изображений, Китов Виктор Владимирович, к.ф.-м.н.
10:30 – 12:05		Логика высказываний, Гуров Сергей Исаевич, к.ф.-м.н.			ПСАД, Сенько Олег Валентинович, д.ф.-м.н.
12:15 – 13:50		Логика высказываний, Гуров Сергей Исаевич, к.ф.-м.н.
14:35 – 16:10
16:20 – 17:55			Спецкурс Анализ графов и функций сходства, Майсурадзе Арчил Ивериевич, к.ф.-м.н.
18:05 – 19:40	Спецкурс Аналитическиие модели данных и их визуализация, Майсурадзе Арчил Ивериевич, к.ф.-м.н.	Методы машинного обучения и поиск закономерностей в данных, Сенько Олег Валентинович, д.ф.-м.н. Спецсеминар Анализ слабоструктурированной и метрической информации для бакалавров, Майсурадзе Арчил Ивериевич, к.ф.-м.н. Спецкурс, Сенько Олег Валентинович, д.ф.-м.н.	Спецсеминар Сравнение объектов в интеллектуальном анализе данных для студентов магистратуры, Майсурадзе Арчил Ивериевич, к.ф.-м.н. Учебно-научные спецсеминары Интеллектуальный анализ данных: новые задачи и методы (магистры) Гуров Сергууй Исаевич, к.ф.-м.н. Для бакалавров: Задачи обработки сигналов (бакалавры). Гуров Сергей Исаевич, к.ф.-м.н. Майсурадзе Арчил Ивериевич, к.ф.-м.н. и Миронов Андрей Михайлович, к.ф.-м.н Спецкурс Задачи и алгоритмы вычислительной геометрии, Местецкий Леонид Моисеевич, д.т.н., профессор	Спецкурс Вероятностное тематическое моделирование, Воронцов Константин Вячеславович, д.ф.-м.н., профессор РАН
20:00 – 21:35

Расписание основных занятий

Спецкурсы

«Аналитические модели данных и их визуализация», (Analytical Data Models and Visualization), лектор А.И. Майсурадзе.
В данном курсе излагаются теоретические и практические знания, которые понадобятся всем будущим аналитикам, ведь всем им предстоит собирать и хранить данные, «разглядывать» их самим и показывать другим. Модели данных – это стандартные в области аналитической деятельности «языки», на которых аналитики рассказывают друг другу о данных. Курс учит пользоваться этими общераспространенными «языками», что обеспечивает взаимопонимание при аналитической деятельности. Визуализация – это тоже форма рассказа о данных, соответственно, она тоже происходит в рамках таких «языков». Важнейшую роль такие «языки» получили в консалтинговых и аналитических подразделениях «Большой четверки». В современном анализе данных принято выделять три уровня задач, методов и соответствующих технологий: сбор и хранение данных, оперативная аналитика и визуализация, интеллектуальный анализ. Обычно бизнес, опирающийся на анализ данных, последовательно проходит все эти уровни. Всем сотрудникам компаний, непосредственно занимающимся или поддерживающим аналитическую деятельность, постоянно приходится работать с первыми двумя уровнями. Сложные математические модели преобразования информации (машинное обучение) относятся к последнему третьему уровню. Разумеется, в эру больших данных в первую очередь выросла сложность задач и технологий первых двух уровней. Общеизвестным примером является система Google Analytics. Будут рассмотрены основные модели данных – разные способы мыслить и формализовать представление информации в аналитике. В связи с этим будет рассмотрена «аналитическая» часть SQL. В свою очередь, о визуализации будет рассказано одновременно с позиций аналитических целей и моделей данных. Будут рассмотрены «гиганты визуализации» – системы QlikView и Tableau,– развивающие идеологию OLAP. Будут рассмотрены практики «рассказывания историй по данным» (storytelling with data) и «интерактивных панелей». В курсе основное внимание уделяется «языку» аналитического общения, соответственно, большая его часть доступна бакалаврам первого-второго курсов. Предполагается, что студенты подготовят панель и сделают доклад о данных по актуальной для них жизненной проблеме. Спецкурс проходит по понедельникам в ауд. 582, начало в 16-20. Первое занятие состоится 11 сентября (понедельник).

Анализ графов, сетей, функций сходства (Graphs, Network, Distance Function Analysis), А.И. Майсурадзе, для магистрантов.
Рассматриваются задачи и методы анализа систем, описание которых базируется на попарном или множественном взаимодействии объектов. Эти объекты могут быть однотипными или разнотипными. Когда важно само наличие или отсутствие взаимодействия, формализация проводится на языке теории графов. Расширении графового описания количественными характеристиками приводит к сетям. Если же считается, что каждый набор объектов может быть численно охарактеризован, говорят о расстояниях или сходствах. Представлена теоретическая основа для формализации задач и построения, реализации и анализа широкого спектра моделей и методов ИАД. Исследуются эвристические модели данных, описывающие исходную информацию об объектах распознавания на основе различных реализаций понятия сходства. Рассматриваются задачи, требующие решения при реализации указанных моделей. Изучаются специальные структуры данных и алгоритмы, позволяющие эффективно настраивать и использовать изучаемые модели. Идея сходства свойственна человеческому мышлению, это породило целый комплекс подходов для всех фундаментальных задач ИАД — так называемые метрические методы. Рассмотрены методы построения и вычисления функций сходства, согласование сходства на различных множествах объектов, синтез новых способов сравнения объектов на базе уже имеющихся. Рассмотрен комплекс приёмов, предназначенный для эффективного представления и обработки метрической информации вычислительными системами. Рассматриваются характеристики графов, активно используемые при их анализе. Изучаются алгоритмы на графах — как теоретически, так и с точки зрения эффективной реализации. Различные модели роста графов. Построение репрезентативных выборок на графах. Генерация графов с заданными характеристиками. Существенное внимание в курсе уделено многочисленным формализациям кластерного анализа. Показано, какие задачи решают распространённые методы. Проведена типологизация широкого спектра задач кластеризации для гомогенных и гетерогенных систем (бикластеризация, кокластеризация).

Аналитические модели данных и их визуализация (Analytical Data Models and Visualization), А.И. Майсурадзе, для бакалавров.
Умеете ли вы рассказывать о данных и «рисовать» данные? Конечно, много программ готово по любым числам построить разнообразные диаграммы. Но вопрос в том, какие именно диаграммы нам нужны в каждой конкретной ситуации. Умеете ли вы «говорить на языке диаграмм»? Научим! В данном курсе излагаются теоретические и практические знания, которые понадобятся всем будущим аналитикам, ведь всем им предстоит собирать и хранить данные, «разглядывать» их самим и показывать другим. Модели данных – это стандартные в области аналитической деятельности «языки», на которых аналитики рассказывают друг другу о данных. Курс учит пользоваться этими общераспространенными «языками», что обеспечивает взаимопонимание при аналитической деятельности. Визуализация – это тоже форма рассказа о данных, соответственно, она тоже происходит в рамках таких «языков». Важнейшую роль такие «языки» получили в консалтинговых и аналитических подразделениях «большой четверки» – крупнейших в мире консалтинговых компаниях. Будут рассмотрены основные модели данных – разные способы мыслить и формализовать представление информации в аналитике. В связи с этим будет рассмотрена «аналитическая» часть SQL. В свою очередь, о визуализации будет рассказано одновременно с позиций аналитических целей и моделей данных. Будут рассмотрены «гиганты визуализации» – системы QlikView и Tableau,– развивающие идеологию OLAP. Будут рассмотрены практики «рассказывания историй по данным» (storytelling with data) и «интерактивных панелей». В курсе основное внимание уделяется «языку» аналитического общения, соответственно, большая его часть доступна бакалаврам первого-второго курсов. Предполагается, что студенты подготовят панель и сделают доклад о данных по актуальной для них жизненной проблеме.

Вероятностное тематическое моделирование (Probabilistic topic modelling), лектор профессор РАН, д.ф.-м.н. К.В. Воронцов, для магистров.
Тематическое моделирование – это современная область исследований на стыке машинного обучения и компьютерной лингвистики. Тематическая модель определяет, какие темы содержатся в большой текстовой коллекции, и к каким темам относится каждый документ. Тематические модели позволяют искать тексты по смыслу, а не по ключевым словам, и создавать информационно-поисковые сервисы нового типа для систематизации знаний. В спецкурсе рассматриваются тематические модели для классификации, категоризации, сегментации, суммаризации текстов естественного языка, а также для рекомендательных систем, анализа банковских транзакционных данных и биомедицинских сигналов. Из математики нам понадобится теория вероятностей, методы оптимизации, матричные разложения. Для любителей программирования имеется возможность поучаствовать в проекте с открытым кодом BigARTM.org. Для особо увлечённых – дополнительные семинары по вечерам в офисе Яндекса. Заданиями по курсу будет решение задач из реальной жизни, у которых нет правильного ответа в конце учебника. Спецкурс для магистрантов, но студентам второго курса тоже всё будет понятно :) 18+ (для студентов, познавших теорвер).

Задачи и алгоритмы вычислительной геометрии (Computational Geometry: Problems and Algorithms), Л.М. Местецкий, для бакалавров.
Эффективные алгоритмы работы с геометрической информацией являются непременным атрибутом всех современных систем машинного зрения, анализа и распознавания изображений, компьютерной графики и геоинформатики. Геометрические алгоритмы предоставляют хорошее поле для развития алгоритмического мышления, необходимого в прикладной математике. В первой части спецкурса будут рассмотрены классические темы вычислительной геометрии: геометрический поиск, выпуклые оболочки, пересечение и близость объектов, диаграммы Вороного, триангуляции Делоне. Вторая часть курса посвящена скелетам, обобщениям диаграмм Вороного для многоугольников и задачам медиального анализа формы изображений. Приглашаются бакалавры.

Логический анализ данных в распознавании, (Logical data analysis in recognition) лектор Е.В. Дюкова
В спецкурсе будут изложены общие принципы, лежащие в основе дискретных методов анализа информации в задачах распознавания, классификации и прогнозирования. Будут рассмотрены подходы к конструированию процедур классификации по прецедентам на основе использования аппарата логических функций и методов построения покрытий булевых и целочисленных матриц. Будут изучены основные модели логических процедур классификации и рассмотрены вопросы, связанные с исследованием сложности их реализации и качества решения прикладных задач. Спецкурс рассчитан на бакалавров 2-4 курсов. По спецкурсу издано учебное пособие. Преподавание спецкурса в режиме ОНЛАЙН. Презентации лекций выставлены на сайте кафедры ММП. Записаться на спецкурс и задать вопрос можно, послав письмо на адрес: edjukova@mail.ru.

Методы и технологии машинного обучения (Methods and Technologies of Machine Learning), А. И. Майсурадзе, для магистров.
Успех и сама возможность проведения многих современных индустриальных и научных проектов в самых разных предметных областях всё чаще зависит от корректного анализа накопленной информации. Поэтому в наши дни практически каждый специалист должен иметь представление о возможностях и ограничениях, которые возникают при использовании существующего арсенала методов и средств интеллектуального анализа данных (Data Mining). Цель предлагаемого курса как раз и состоит в том, чтобы создать у слушателя представление об аналитической деятельности и соответствующей математической теории. Рассматриваются основные классы задач машинного обучения и методов их решения. В курсе будут рассмотрены примеры успешно решённых задач из таких областей, как медицинские исследования, антропология, наукометрия, социология, прогноз свойств химических соединений, компьютерное зрение. Для каждого из проектов будет рассказано о задачах и методах их решения, а также об использованных технологиях.

Методы машинного обучения и поиск закономерностей в данных (Machine learning and search of regularities in data), лектор О.В. Сенько.
В курсе обсуждаются основные проблемы, возникающие при использовании методов обучения по прецедентам (машинного обучения). Даётся краткий обзор существующих методов распознавания и регрессионного анализа. Рассказывается о способах оценки точности на генеральной совокупности (обобщающей способности). Обсуждаются различные способы повышения обобщающей способности методов машинного обучения.

Метрические методы интеллектуального анализа данных, А.И. Майсурадзе.
Рассматриваются методы и технологии, применяющиеся в интеллектуальном анализе данных (ИАД, data mining) и базирующиеся на понятиях сходства, близости, аналогии. Идея сходства свойственна человеческому мышлению, это породило целый комплекс подходов для всех фундаментальных задач ИАД, среди которых основное внимание в курсе уделено классификации, восстановлению регрессии, кластеризации, восстановлению пропущенных данных.

Нейросетевые методы обработки изображений, В.В. Китов, для бакалавров.
Спецкурс посвящен задаче автоматической стилизации изображений, в которой входное изображение необходимо преобразовать так, чтобы сохранить изображенные на нем предметы, но стилистику их отображения взять из другого изображения или группы изображений. Например, это может быть стилизация семейной фотографии под стиль известного художника, либо стилизация дневного фото в ночное, либо изменение зимней панорамы в летнюю. Эта задача может применяться в мультипликации, наложении спецэффектов в фильмах и видеоиграх, симуляторах и средствах дополненной реальности, а также для более точной настройки методов машинного обучения работе с изображениями за счет вариации их стиля и адаптации стиля под целевую предметную область. Помимо отдельных изображений указанный подход применим для видеопоследовательностей и данных из других предметных областей (текст, речь и т.д.). Основные методы стилизации были предложены в последние 5 лет и опираются на глубинные нейронные сети, базовому изучению которых посвящена существенная часть курса.

Неклассические математические модели обработки данных, А.И. Майсурадзе.
В большинстве случаев анализ данных проводится с целью последующего принятия некоторого решения. Решение должно быть принято в результате некоторых рассуждений с использованием доступной информации о предметной области вообще и конкретной ситуации в частности. Цель курса состоит в том, чтобы продемонстрировать различные способы представления информации и формализации знаний, соответственно, различные способы проведения рассуждений и различные виды представления результатов, к которым указанные рассуждения приводят. Результаты анализа данных требуется транслировать в рамки того же самого формализма, который используется при рассуждениях. И наоборот, каждая модель предполагает свои способы перехода от формализма к окончательному решению. В курсе для каждой модели рассматриваются способы включения данных и рассуждений в общую стратегию принятия решений. В частности, будет продемонстрировано, как можно сравнивать конкурентов, и как каждый из конкурентов способен показать, что его предложение – лучшее.

Непрерывные морфологические модели и алгоритмы (Continuous morphological models and algorithms), Л.М. Местецкий, для бакалавров.
В компьютере изображения представляются прямоугольными матрицами точек, обладающих определенным цветом и яркостью. Такое дискретное представление является удобным для ввода, запоминания, обработки в компьютере. Однако для анализа и распознавания формы объектов на изображении человеку привычнее и проще оперировать непрерывными геометрическими фигурами. Основные преимущества непрерывного представления формы объектов: адекватность его с физической сущностью «сплошных» объектов реального мира, возможность использования методов «непрерывной» математики для анализа, преобразования, распознавания формы объектов. В курсе рассматриваются основы непрерывного подхода к анализу формы объектов в дискретных изображениях. Сюда входит аппроксимация бинарных растровых изображений многоугольными фигурами, медиальное представление фигур, вычисление скелетов, сравнение и преобразование формы на основе медиального представления. Будут рассмотрены приложения непрерывных моделей формы в распознавании изображений.

Основные модели данных в аналитической деятельности (Аналитический SQL) (Essential Data Models in Data Analysis)(Analytical SQL), А.И. Майсурадзе, для бакалавров.
В наши дни автоматизация и оптимизация многих видов деятельности невозможна без сбора и последующего анализа больших объёмов информации. При этом со временем стало ясно, что некоторые способы хранить и читать данные - модели данных - особенно удобны для людей. Именно такие модели стали универсальным языком общения людей с самыми разными технологиями. В этом смысле широчайшее распространение получила реляционная модель, а одним из самых широкоупотребительных языков оказался SQL, и сегодня самые разные технологии (совсем не только реляционные) позволяют его использовать. В ходе занятий мы будем осваивать именно само мышление, принятое в отрасли обработки и анализа данных. Речь не о конкретных технологиях или продуктах. В курсе на практических примерах будут даваться знания и отрабатываться навыки, которые понадобятся практически любому аналитику при работе с источниками данных. Акцент делается именно на аналитической деятельности: аналитик пользуется системами сбора и хранения данных, но не собирается администрировать их. Занятия предполагают интерактивное выполнение заданий на реальных БД.

Спецсеминары

Анализ данных в метрических пространствах, А.И.Майсурадзе.

Логические модели распознавания, Е.В.Дюкова.

Дискретно-непрерывные преобразования изображений в задачах распознавания, Л.М.Местецкий.

Архив курсов и семинаров

Анализ информации, В.К. Леонтьев.

Аналитические модели данных и их визуализация, А.И. Майсурадзе.

Булевы уравнения и проблема SAT, С.И. Гуров, А.Г. Дьяконов.

Введение в машинное обучение, А.Г. Дьяконов, для бакалавров.
Спецкурс предназначен бакалаврам младших курсов (1-2) для ознакомления с машинным обучением (Machine Learning) "с нуля". В начале существенное время уделяется языку программирования Python, специализированным библиотекам (numpy, pandas, scikit-learn) и средам программирования (Jupyter notebook). Курс рекомендуется студентам, которые хотят продолжить обучение на кафедре математических методов прогнозирования. Для бакалавров старших курсов 3го потока лектор читает более продвинутую версию этого курса в виде обязательного потокового.

Восстановление зависимостей в больших массивах данных, О.В. Красоткина.
Целью данного курса является систематическое изучение распределённых файловых систем (таких, как например, Hadoop) как инструмента для создания параллельных реализаций алгоритмов машинного обучения на больших массивах данных. В ходе курса студенты получат навык использования возможностей модели распределённых вычислений MapReduce для параллельных вычислений над очень большими наборами данных в компьютерных кластерах. В ходе курса рассматриваются параллельные реализации таких основных алгоритмов машинного обучения как регрессия, классификация, кластеризация, коллаборативная фильтрация, классификация в метрических пространствах и т.д. Так же в рамках курса студентам будет предложено разработать собственные параллельные реализации алгоритмов восстановления зависимостей. Курс ориентирован на студентов, знакомых с основными концепциями и алгоритмами машинного обучения.

Задачи распознавания в биоинформатике, К.В. Рудаков, И.Ю. Торшин.
Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере биоинформатики иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы суметь успешно приспособить известные ему методы для решения прикладных и исследовательских задач.

Извлечение информации из изображений, И.Б. Гуревич.
В спецкурсе представлены постановки и методы решения математических и вычислительных задач, возникающих в связи с анализом и оцениванием информации, представляемой в виде изображений.

Исчисления высказываний классической и интуиционистской логик, С.И. Гуров.
В спецкурсе рассматриваются основные понятия пропозициональной логики. Даются методы характеризации формул алгебры логики, в частности, метод резолюций и метод семантических таблиц. Изучаются логические исчисления гильбертовского и генценовского типов и общие свойства формальных теорий. Рассматриваются свойства метатеории логических исчислений: корректность и непротиворечивость, семантическая полнота, полнота по Посту, разрешимость и независимость. Спецкурс поддерживается практическими занятиями.

Компьютерные методы обработки сигналов, О.В. Красоткина.
Целью данного курса является систематическое изучение задач, теоретических методов и алгоритмов компьютерного анализа экспериментальных данных, упорядоченных вдоль некоторой оси. Курс лекций включает изучение базовых вопросов дискретизации сигналов по времени, получения их цифрового представления, цифровой фильтрации, спектрально-корреляционного анализа. Большое внимание уделяется вопросам построения и оценивания моделей нестационарных сигналов на основе марковской теории случайных процессов. Задачей курса является предоставить студентам уникальные инструменты, позволяющие решать конкретные прикладные задачи из различных областей знаний: миробиоологии, экономики, финансов, техники и технологии.

Логико-статистические модели в распознавании, прогнозировании и интеллектуальном анализе данных, О.В. Сенько.
Рассматриваются методы интеллектуального анализа данных, основанные на выделении в многомерном пространстве прогностических переменных областей, в которых значения прогнозируемой переменной достоверно отличаются от средних значений по всей выборке. Верификация выявленных закономерностей проводится с помощью рандомизированных перестановочных тестов. Приводятся примеры использования рассматриваемых методов при решении разнообразных прикладных задач.

Математические методы анализа текстов, В.В. Китов.
В курсе даются математические подходы к автоматическому анализу и извлечению информации из текстов. Изучается обработка и парсинг текста: 1) на уровне слов (определение морфологических характеристик, частей речи), 2) на уровне предложений (определение субъекта, объекта, действия, дополнений), 3) на уровне фрагмента текста (определение именованных сущностей) и 4) на уровне коллекции документов (извлечение основных тем, представленных в коллекции). Далее изученные методы обработки текстов используются для классификации текстов по категориям, эффективной визуализации содержимого больших текстовых коллекций, извлечения фактов из текстов для наполнения баз данных фактов, представленных онтологиями. Спецкурс предполагает знание теории вероятностей, линейной алгебры, математического анализа и основ машинного обучения. В качестве основных инструментов работы с текстами будет использоваться язык программирования питон с научными библиотеками, модуль по обработке текстов NLTK, а также публично доступная онтология WordNet.

Методы и технологии машинного обучения, О.В. Сенько, А.И. Майсурадзе.

Методы оптимизации в машинном обучении, Д.А. Кропотов, А.О. Родоманов.
В спецкурсе рассматриваются классические и современные методы непрерывной оптимизации, а также особенности их применения для задач оптимизации, возникающих в машинном обучении. Основной упор в изложении делается на практические аспекты реализации и использования методов. Спецкурс поддерживается практическими заданиями.

Модели распознавания, Козлов Вадим Никитович.
В курсе представлены как классические подходы к распознаванию образов (дискриминантный подход в детерминированной и вероятностной ипостасях, структурно-лингвистический, тестовый и алгебраический подходы), так и разработки последнего времени, включая те, которые делались в МГУ. Курс является существенно расширенным и усложненным вариантом курса Распознающие системы, прочитанного автором в интернете на сайтах образовательной организации Универсариум. Приглашаются студенты 2-4 курсов, все желающие.

Нестатистический анализ данных (Non-statistical methods of data mining and classification), В.В.Рязанов, для бакалавров.
Основная цель спецкурса состоит в изложении основанных на оптимизационных, дискретных и эвристических подходах методов анализа данных. Будут рассмотрены логические модели распознавания (классификации с учителем) и анализа разнотипных многомерных данных, методы оптимизации моделей распознавания, алгоритмы поиска скрытых логических закономерностей и связей по признаковым описаниям, методы создания качественных моделей объектов, ситуаций, явлений или процессов. Будут рассмотрены практические численные методы решения данных задач, и их применения в медицине, бизнесе, химии, технике и других областях. The aim is to present a special course based on optimization, discrete and heuristic approaches of data mining. The logical models of supervised classification, techniques to optimize models of classification, algorithms for finding hidden logical regularities will be considered. Приглашаются бакалавры.

Прикладные задачи анализа данных, А.Г. Дьяконов, читайте информацию на странице курса.

Теория надёжности обучения по прецедентам, К.В. Воронцов.
Спецкурс знакомит студентов с современным состоянием теории вычислительного обучения, исследующей проблему качества восстановления зависимостей по эмпирическим данным. Подробно рассматривается комбинаторная теория, позволяющая получать точные оценки вероятности переобучения.

Шаманство в анализе данных (для студентов 2 курса ВМК МГУ), А.Г. Дьяконов.
Первая лекция: "Что такое машинное обучение и анализ данных?" Понедельник 02.03.2015 16:20 ауд.504 Курс читается для второкурсников, которые выбирают кафедру и научного руководителя, знакомит с некоторыми направлениями исследований, которые выполняются на кафедре математических методов прогнозирования. В первой лекции даётся обзор основных задач машинного обучения, рассматриваются приложения, описываются потребности современных компаний в решении подобных задач.