Участник:Vokov

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Доклады на конференциях и семинарах)
(Интервью)
(17 промежуточных версий не показаны.)
Строка 65: Строка 65:
== Интервью ==
== Интервью ==
-
* [https://www.radiorus.ru/brand/63253/episode/2210583 Чатботы, нейросети и естественная речь машин. Российский радиоуниверситет, Радио России, 15 октября 2019] (совместно с Сергеем Николенко)
+
 
-
* [https://www.radiorus.ru/brand/63253/episode/2206854 Big data: искусственный интеллект в мире больших данных. Российский радиоуниверситет, Радио России, 1 октября 2019]
+
=== Российский радиоуниверситет, Радио России ===
-
* [https://www.radiorus.ru/brand/63253/episode/2201775 Чему машины учатся у людей? Российский радиоуниверситет, Радио России, 17 сентября 2019]
+
[https://www.radiorus.ru/person/340483 Все эпизоды]
-
* [[Участник:Vokov/Интервью для Новой газеты 2019-02-25|15 тезисов о машинном обучении. Новая газета, 25 февраля 2019]]
+
* 13 января 2020. [https://www.radiorus.ru/brand/63253/episode/2235758 Искусственный интеллект – наука, ремесло или спорт?], совместно с Александром Дьяконовым.
-
* [[Участник:Vokov/Интервью для Кота Шрёдингера 2017-10-04| Универсальный солдат big data: Как освоить самую популярную профессию. Кот Шрёдингера, 4 октября 2017]]
+
* 16 декабря 2019. [https://www.radiorus.ru/brand/63253/episode/2229416 Вас обслуживает чатбот-юрист. Автоматизация юридических консультаций], совместно с Сергеем Переверзевым.
-
* [[Участник:Vokov/Интервью для ПостНауки 2017-09-27|Прогресс нейронных сетей. ПостНаука, 27 сентября 2017]]
+
* 29 октября 2019. [https://www.radiorus.ru/brand/63253/episode/2214263 iPavlov – когда машины будут свободно говорить как люди], совместно с Михаилом Бурцевым.
-
* [[Участник:Vokov/Интервью для InTalent.pro|О науке о данных и машинном обучении. InTalent.pro, декабрь 2016]]
+
* 15 октября 2019. [https://www.radiorus.ru/brand/63253/episode/2210583 Чатботы, нейросети и естественная речь машин], совместно с Сергеем Николенко.
 +
* 1 октября 2019. [https://www.radiorus.ru/brand/63253/episode/2206854 Big data: искусственный интеллект в мире больших данных].
 +
* 17 сентября 2019. [https://www.radiorus.ru/brand/63253/episode/2201775 Чему машины учатся у людей?]
 +
 
 +
=== Газеты, журналы, электронные СМИ ===
 +
* 25 февраля 2019. [[Участник:Vokov/Интервью для Новой газеты 2019-02-25|15 тезисов о машинном обучении]]. Новая газета.
 +
* 4 октября 2017. [[Участник:Vokov/Интервью для Кота Шрёдингера 2017-10-04| Универсальный солдат big data: Как освоить самую популярную профессию]]. Кот Шрёдингера.
 +
* 27 сентября 2017. [[Участник:Vokov/Интервью для ПостНауки 2017-09-27|Прогресс нейронных сетей]]. ПостНаука.
 +
* 31 декабря 2016. [[Участник:Vokov/Интервью для InTalent.pro|О науке о данных и машинном обучении]]. InTalent.pro.
 +
 
 +
=== Видеоинтервью ===
 +
* 4 октября 2017. [https://youtu.be/DR3mgnEKRgI Интервью Юрию Кашницкому и Алексею Натекину]. [https://mlcourse.ai Открытый курс машинного обучения].
 +
* 21 марта 2016. [https://postnauka.ru/video/61910 Разведочный информационный поиск]. ПостНаука.
 +
* 24 февраля 2016. [https://postnauka.ru/video/59633 Математические методы прогнозирования объемов продаж]. ПостНаука.
== Доклады на конференциях и семинарах ==
== Доклады на конференциях и семинарах ==
 +
* 5 декабря 2019. Моделирование и искусственный интеллект: технологии, мифы, приоритеты. [https://www2.deloitte.com/ru/ru/pages/financial-services/events/biznes-na-100.html Конференция «Бизнес на 100%: операционная эффективность»]. '''[[Media:voron19business100.pdf|(PDF, 1.3 МБ)]]'''.
 +
* 26 ноября 2019. Задачи и методы автоматического анализа текстов в разведочном информационном поиске. [[Математические методы распознавания образов (конференция)]]. '''[[Media:voron19mmpr.pdf|(PDF, 3.8 МБ)]]'''.
 +
* 24 октября 2019. [https://www.human-machine.ai «Человек и Машина» — конференция о том, как люди учат машины разговаривать и понимать смыслы]. Мастерская знаний: машина, которая ничего не понимает, но учит людей приобретать профессиональные знания '''[[Media:voron-2019-10-24-human-machine.pdf|(PDF, 2.0 МБ)]]'''.
* 23 октября 2019. [https://openinnovations.ru Форум Инновационного развития], Сколково. [https://raif.jet.su RAIF 2019], секция [https://openinnovations.ru/program/session/122 Natural Language Processing и осознанный диалог: распознать, понять, ответить]. Мастерская знаний: поисково-рекомендательная система для систематизации профессионального контента '''[[Media:voron-2019-10-23-raif.pdf|(PDF, 1.9 МБ)]]'''.
* 23 октября 2019. [https://openinnovations.ru Форум Инновационного развития], Сколково. [https://raif.jet.su RAIF 2019], секция [https://openinnovations.ru/program/session/122 Natural Language Processing и осознанный диалог: распознать, понять, ответить]. Мастерская знаний: поисково-рекомендательная система для систематизации профессионального контента '''[[Media:voron-2019-10-23-raif.pdf|(PDF, 1.9 МБ)]]'''.
-
* 21 октября 2019. NORMENT (Norwegian Centre for Mental Disorders Research) seminar in MIPT, Moscow. Applications of topic modeling and non-negative matrix factorization '''[[Media:voron-2019-10-23-mipt-norment.pdf|(PDF, 2.2 МБ)]]'''.
+
* 21 октября 2019. [https://mipt.ru/events/mezhpredmetnyy_seminar_ai-mipt_na_temu_-bigdata_approaches_in_genetics_and_brain_imaging_of_complex_ NORMENT (Norwegian Centre for Mental Disorders Research) seminar in MIPT], Moscow. Applications of topic modeling and non-negative matrix factorization '''[[Media:voron-2019-10-23-mipt-norment.pdf|(PDF, 2.2 МБ)]]'''.
* 18 октября 2019. Открытая лекция [https://vk.com/growth.mipt AI Business Course, Физтех.Рост]. О [http://mipt.ai лаборатории машинного интеллекта МФТИ] '''[[Media:voron-2019-10-11-mil.pdf|(PDF, 2.1 МБ)]]'''. Тематический информационный поиск '''[[Media:voron-2019-10-18-tm-es.pdf|(PDF, 2.7 МБ)]]'''.
* 18 октября 2019. Открытая лекция [https://vk.com/growth.mipt AI Business Course, Физтех.Рост]. О [http://mipt.ai лаборатории машинного интеллекта МФТИ] '''[[Media:voron-2019-10-11-mil.pdf|(PDF, 2.1 МБ)]]'''. Тематический информационный поиск '''[[Media:voron-2019-10-18-tm-es.pdf|(PDF, 2.7 МБ)]]'''.
-
* 11 октября 2019. Первый открытый семинар [http://mipt.ai лаборатории машинного интеллекта МФТИ]. О лаборатории '''[[Media:voron-2019-10-11-mil.pdf|(PDF, 2.1 МБ)]]'''. О разведочном поиске '''[[Media:voron-2019-10-11-es.pdf|(PDF, 1.1 МБ)]]'''. О тематическом моделировании '''[[Media:voron-2019-10-11-tm.pdf|(PDF, 0.8 МБ)]]'''.
+
* 11 октября 2019. Первый открытый семинар [http://mipt.ai лаборатории машинного интеллекта МФТИ]. О лаборатории '''[[Media:voron-2019-10-11-mil.pdf|(PDF, 2.1 МБ)]]'''. О разведочном поиске '''[[Media:voron-2019-10-11-es.pdf|(PDF, 1.1 МБ)]]'''. О тематическом моделировании '''[[Media:voron-2019-10-11-tm.pdf|(PDF, 0.8 МБ)]]'''. '''[https://www.youtube.com/watch?v=_rJmTI8toBQ Видеозапись]'''.
* 11 октября 2019. Искусственный интеллект и машинное обучение. Лекция в Высшей школе системного инжиниринга МФТИ. '''[[Media:voron-2019-10-11-mipt.pdf|(PDF, 3.7 МБ)]]'''.
* 11 октября 2019. Искусственный интеллект и машинное обучение. Лекция в Высшей школе системного инжиниринга МФТИ. '''[[Media:voron-2019-10-11-mipt.pdf|(PDF, 3.7 МБ)]]'''.
* 28 сентября 2019. Искусственный интеллект и анализ данных – профессия будущего. [http://foresight.itteachers.ru Форсайт-сессия учителей информатики «Взгляд в будущее»] '''[[Media:voron-2019-09-28-temocenter-intro.pdf|(PDF, 2.3 МБ)]]'''. Примеры занятий по машинному обучению со школьниками: о тестах Бонгарда '''[[Media:voron-2019-09-28-temocenter-bongard.pdf|(PDF, 1.0 МБ)]]'''; кружок для школьников в МФТИ '''[[Media:voron-2019-09-28-temocenter-ecg.pdf|(PDF, 3.0 МБ)]]'''; отчёт по проекту в Сочи.Сириус '''[[Media:voron-2019-09-28-temocenter-sirius.pdf|(PDF, 1.0 МБ)]]'''.
* 28 сентября 2019. Искусственный интеллект и анализ данных – профессия будущего. [http://foresight.itteachers.ru Форсайт-сессия учителей информатики «Взгляд в будущее»] '''[[Media:voron-2019-09-28-temocenter-intro.pdf|(PDF, 2.3 МБ)]]'''. Примеры занятий по машинному обучению со школьниками: о тестах Бонгарда '''[[Media:voron-2019-09-28-temocenter-bongard.pdf|(PDF, 1.0 МБ)]]'''; кружок для школьников в МФТИ '''[[Media:voron-2019-09-28-temocenter-ecg.pdf|(PDF, 3.0 МБ)]]'''; отчёт по проекту в Сочи.Сириус '''[[Media:voron-2019-09-28-temocenter-sirius.pdf|(PDF, 1.0 МБ)]]'''.
Строка 104: Строка 120:
* 18 декабря 2017. Towards Interpretable Word Embeddings through Probabilistic Topic Modeling. [http://ai_forum.tilda.ws/ Korean-Russian Artificial Intelligence Workshop]. '''[[Media:voron-2017-12-18.pdf|(PDF, 1.9 МБ)]]'''.
* 18 декабря 2017. Towards Interpretable Word Embeddings through Probabilistic Topic Modeling. [http://ai_forum.tilda.ws/ Korean-Russian Artificial Intelligence Workshop]. '''[[Media:voron-2017-12-18.pdf|(PDF, 1.9 МБ)]]'''.
* 9 ноября 2017. Fast and Modular Regularized Topic Modeling. [http://fruct.org/conference21 The seminar on Intelligence, Social Media and Web (ISMW), Open Innovations Association FRUCT (Finnish-Russian University Cooperation in Telecommunications)]. Helsinki, Finland. '''[[Media:voron-2017-11-09.pdf|(PDF, 1.5 МБ)]]'''.
* 9 ноября 2017. Fast and Modular Regularized Topic Modeling. [http://fruct.org/conference21 The seminar on Intelligence, Social Media and Web (ISMW), Open Innovations Association FRUCT (Finnish-Russian University Cooperation in Telecommunications)]. Helsinki, Finland. '''[[Media:voron-2017-11-09.pdf|(PDF, 1.5 МБ)]]'''.
-
* 4 ноября 2017. Введение в машинное обучение. [http://deepmipt.github.io/dlschl Школа глубокого обучения — кружок для старшеклассников], МФТИ. '''[[Media:voron17deepmipt-dlschl.pdf|(PDF, 2.6 МБ)]]'''.
+
* 4 ноября 2017. Введение в машинное обучение. [http://deepmipt.github.io/dlschl Школа глубокого обучения — кружок для старшеклассников], МФТИ. '''[[Media:voron17deepmipt-dlschl.pdf|(PDF, 2.6 МБ)]]'''. '''[https://www.youtube.com/watch?v=xg96a8UwBac Видеозапись]'''.
* 16 октября 2017. Машинное обучение: шаг в цифровую экономику. [http://mipt.ru/education/departments/fpmi/news/ai_mipt AI@MIPT — открытый семинар по искусственному интеллекту в МФТИ]. '''[[Media:voron17ai-mipt.pdf|(PDF, 4.4 МБ)]]'''. '''[https://www.youtube.com/watch?v=H5waFQ1ARF8 Видеозапись]'''.
* 16 октября 2017. Машинное обучение: шаг в цифровую экономику. [http://mipt.ru/education/departments/fpmi/news/ai_mipt AI@MIPT — открытый семинар по искусственному интеллекту в МФТИ]. '''[[Media:voron17ai-mipt.pdf|(PDF, 4.4 МБ)]]'''. '''[https://www.youtube.com/watch?v=H5waFQ1ARF8 Видеозапись]'''.
* 10 октября 2017. Аддитивная регуляризация тематических моделей связного текста. [[Математические методы распознавания образов (конференция)]]. '''[[Media:voron17mmpr.pdf|(PDF, 2.0 МБ)]]'''.
* 10 октября 2017. Аддитивная регуляризация тематических моделей связного текста. [[Математические методы распознавания образов (конференция)]]. '''[[Media:voron17mmpr.pdf|(PDF, 2.0 МБ)]]'''.
Строка 257: Строка 273:
'''Материалы и задания'''
'''Материалы и задания'''
* ''[[Media:BigARTM-short-intro.pdf|Тематический анализ больших данных]]''. Краткое популярное введение в BigARTM.
* ''[[Media:BigARTM-short-intro.pdf|Тематический анализ больших данных]]''. Краткое популярное введение в BigARTM.
-
* ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация]]. {{важно|— обновление 19.05.2018}}.
+
* ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация]]. {{важно|— обновление 12.12.2019}}.
* ''[http://postnauka.ru/video/61910 Разведочный информационный поиск]''. Видеолекция на ПостНауке.
* ''[http://postnauka.ru/video/61910 Разведочный информационный поиск]''. Видеолекция на ПостНауке.
* ''[https://postnauka.ru/faq/86373 Тематическое моделирование]''. FAQ на ПостНауке, совместно с Корпоративным университетом Сбербанка.
* ''[https://postnauka.ru/faq/86373 Тематическое моделирование]''. FAQ на ПостНауке, совместно с Корпоративным университетом Сбербанка.
Строка 571: Строка 587:
* Полина Потапова
* Полина Потапова
* Анастасия Павловская
* Анастасия Павловская
 +
* Даниил Фельдман
 +
* Андрей Власов
* Филипп Никитин
* Филипп Никитин
* Илья Васильев
* Илья Васильев
-
* Даниил Фельдман
 
----
----
* Вадим Кислинский
* Вадим Кислинский
Строка 579: Строка 596:
* Анна Рогозина
* Анна Рогозина
----
----
-
* Алексей Григорьев
 
* Алексей Гришанов
* Алексей Гришанов
|
|
Строка 764: Строка 780:
# Пётр Остроухов. [[Media:ostroukhov19msc.pdf|Предобученные по Википедии тематические векторные представления слов]]. 2019. ФУПМ МФТИ.
# Пётр Остроухов. [[Media:ostroukhov19msc.pdf|Предобученные по Википедии тематические векторные представления слов]]. 2019. ФУПМ МФТИ.
# Александр Никитин. [[Media:nikitin19msc.pdf|Иерархические тематические векторные представления слов в коллекциях текстов]]. 2019. НИУ ВШЭ.
# Александр Никитин. [[Media:nikitin19msc.pdf|Иерархические тематические векторные представления слов в коллекциях текстов]]. 2019. НИУ ВШЭ.
 +
# Виктория Ходырева. Автоматическое именование тем в вероятностном тематическом моделировании. 2019. ФКН НИУ ВШЭ.
===Дипломные работы===
===Дипломные работы===

Версия 16:44, 13 января 2020

Содержание

    Воронцов Константин Вячеславович

профессор РАН, д.ф.-м.н.,
руководитель лаборатории машинного интеллекта МФТИ,
проф. каф. «Интеллектуальные системы» ФУПМ МФТИ,
с.н.с. отдела «Интеллектуальные системы» Вычислительного центра ФИЦ ИУ РАН,
доц. каф. «Математические методы прогнозирования» ВМК МГУ,
преподаватель Школы анализа данных Яндекс,
зам. директора по науке ЗАО «Форексис», www.forecsys.ru,
один из идеологов и Администраторов ресурса MachineLearning.RU,
прочие подробности — на подстранице Curriculum vitæ.

Мне можно написать письмо.

http://www.MachineLearning.ru/wiki?title=User:Vokov — короткая ссылка на эту страницу.

Учебные материалы

Курсы лекций

Рекомендации для студентов и аспирантов

Каждый студент, с которым мы начинаем совместную научную работу, должен внимательно прочитать и осмыслить:

Другие методические материалы:

Интервью

Российский радиоуниверситет, Радио России

Все эпизоды

Газеты, журналы, электронные СМИ

Видеоинтервью

Доклады на конференциях и семинарах

Научные интересы

Всё, что скрывается за терминами «науки о данных» (data science), «интеллектуальный анализ данных» (data mining) и «машинное обучение» (machine learning): распознавание образов, прогнозирование, математическая статистика, дискретная математика, численные методы оптимизации, аналитика больших данных, а также практический анализ данных в разнообразных областях (медицина, техника, биоинформатика, экономика, лингвистика, интернет).

Анализ текстов и информационный поиск

Основная статья: BigARTM

Современные средства текстового поиска предназначены для ответов на короткие текстовые запросы. Этого не достаточно при поиске научной и профессиональной информации, в особенности новой или содержащей неизвестную пользователю терминологию. Поиск и мониторинг новых тенденций, терминологии, профессиональных сообществ всё ещё требует больших затрат времени и высокой квалификации. Существует барьер входа в новую профессиональную область. Ответ на вопрос «где находится передний край науки по данной теме» по-прежнему достигается, главным образом, путём личного общения, следовательно, субъективен и не общедоступен. Каким должен быть идеальный информационный поиск для учёного, преподавателя, специалиста? По всей видимости, единого ответа нет. Он должен быть разным. Одна из идей состоит в том, чтобы принимать в качестве запроса длинный текст — статью, фрагмент статьи или несколько статей, систематизировать результаты поиска в виде «дорожной карты», с помощью которой пользователю будет легче изучать данную область, выделять наиболее важные факты, готовить обзоры, в кратчайший срок накапливать собственную экспертизу в новой области знания. Миссия тематического поиска — Приблизить Знание к Пользователю. Знание раскидано по Интернету. Необходимо его выделить, систематизировать по темам и представить в виде, более удобном и разнообразном, чем ранжированный список в рекламном обрамлении. Современные поисковые системы не решают эту задачу, так как они нацелены не на концентрацию Знания, а на удовлетворение потребительских интересов среднего пользователя. Система поиска научной и профессиональной информации — это инструмент интеллектуальной элиты общества, доступный всем. Наша исследовательская группа разрабатывает математические и информационные технологии для создания такой поисковой системы. Они основаны на вероятностном тематическом моделировании (Probabilistic Topic Modeling) и гибридных подходах, объединяющих статистические и лингвистические методы анализа текстов.

Вероятностное тематическое моделирование развивается с конца 90-х годов и находит всё больше неожиданных применений в областях, далёких от анализа текстов на естественных языках: при обработке изображений и видео, звуковых и биомедицинских сигналов, нуклеотидных и аминокислотных последовательностей, пользовательских логов и транзакционных данных. Наши методы применимы и к этим задачам.

Основные направления исследований и разработок

  • теория и методы аддитивной регуляризации тематических моделей (ARTM);
  • разработка BigARTM — библиотеки с открытым кодом для тематического моделирования больших коллекций;
  • автоматическое выделения терминов-словосочетаний в текстах;
  • тематические модели последовательного текста, тематической структуры и сегментации текстов;
  • мультимодальные тематические модели, классификация и регрессия с текстовыми и разреженными признаками;
  • иерархические тематические модели и категоризация текстов;
  • методы визуализации тематических моделей;
  • методы автоматического именования тем;
  • проблемы сходимости и устойчивости численных методов матричных и тензорных разложений;
  • проблемы интерпретируемости тем;
  • мультиязычные тематические модели;
  • тематические модели транзакционных данных или гиперграфов;
  • анализ тональности и разделение тем на полярные мнения;
  • динамические тематические модели;
  • тематические модели, учитывающие авторство и ссылки;

Прикладные задачи

  • иерархическая тематическая модель научного и научно-популярного контента;
  • тематический разведочный информационный поиск;
  • классификация и динамическая тематизация новостных потоков;
  • классификация и сценарный анализ записей разговоров контактного центра;
  • тематическая кластеризация отзывов клиентов или опросов персонала;
  • модели символьной динамики для информационного анализа электрокардиосигналов;
  • выявления паттернов потребительского поведения клиентов по банковским транзакциям;
  • выявление видов экономической деятельности компаний по банковским транзакциям;

Ключевые слова

  • text analysis, information retrieval, keyphrase extraction, topic modeling, probabilistic latent semantic analysis (PLSA), latent Dirichlet allocation (LDA), Gibbs sampling, documents categorization, learning to rank, research trends, research front.

Материалы и задания

Диагностика заболеваний по ЭКГ

Все знают, что по электрокардиограмме можно ставить диагнозы сердечно-сосудистых заболеваний. Профессором д.м.н. В.М.Успенским предложен новый метод диагностики, позволяющий диагностировать широкий спектр заболеваний внутренних органов по ЭКГ. Многие болезни сказываются на работе сердца задолго до проявления клинических симптомов, что позволяет использовать ЭКГ для ранней диагностики. За 15 лет применения этой технологии накоплена обучающая выборка по двадцати тысячам больных и нескольким десяткам заболеваний. Вычислительные эксперименты подтверждают, что диагностика широкого спектра заболеваний по одной ЭКГ с использованием методов машинного обучения может достигать удивительной точности. Наша научная группа занимается всесторонней статистической экспертизой этого метода диагностики и разработкой новых принципов анализа дискретизированных биомедицинских сигналов. В частности, важным направлением является применение тематического моделирования и методов компьютерной лингвистики. Фактически, речь идёт о поиске оптимальной реконструкции (восстановлении синтаксиса и семантики) языка, порождаемого протекающими в организме человека сложнейшими физиологическими процессами, и при этом несущего значимую диагностическую информацию о состоянии здоровья человека.

Основные направления исследований и разработок:

  • поиск более эффективных методов дискретизации ЭКГ-сигналов;
  • построение диагностических эталонов заболеваний методами тематического моделирования;
  • разработка диагностических моделей для отдельных заболеваний;
  • разработка специальных методов отбора признаков, глубокого обучения, многоклассовой классификации;
  • исследование переобучения диагностических моделей.

Конкурсное задание на VI Традиционной молодёжной летней школе «Управление, информация и оптимизациия» 26 июня 2014г.

В архиве файлы по 1 болезни, обучающая выборка с классификациями, тестовая выборка без классификаций, read.me с условием задания.

Другие материалы и задания

В архиве файлы по 5 болезням, для каждой болезни имеется два файла: файлы с буквой «Э» в имени — эталонные выборки с надёжно верифицированными диагнозами, которые предполагается использовать для обучения; файлы без буквы «Э» — контрольные выборки. Можно использовать только эталонные, можно пробовать их перемешивать. В каждом файле первый столбец содержит метки классов (0-здоров, 1-болен), следующие 216 столбцов - значения признаков.

Теория обобщающей способности

Проблема обобщающей способности является ключевой и в то же время наиболее сложной в машинном обучении. Её даже выделяют в отдельную дисциплину — теорию вычислительного обучения. Если алгоритм, восстанавливающий некоторую неизвестную зависимость, построен по конечной обучающей выборке прецедентов, то как предсказать качество его работы на контрольной выборке, состоящей из новых прецедентов? Почему это вообще возможно? Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?

Активное исследование этих вопросов началось в конце 60-х, когда В.Н.Вапник и А.Я.Червоненкис предложили статистическую теорию восстановления зависимостей по эмпирическим данным (VC theory) и получили верхние оценки вероятности ошибки обученного алгоритма (VC-bounds). Эти оценки позволили обосновать давно замеченный эмпирический факт: по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться. Ухудшение связано с эффектом переобучения. Если алгоритм имеет избыточное число параметров («степеней свободы»), то он может слишком точно настроиться на конкретную обучающую выборку в ущерб качеству восстановления зависимости в целом. В теории Вапника-Червоненкиса разработан метод структурной минимизации риска (СМР), позволяющий автоматически находить модель оптимальной сложности. К сожалению, оценки вероятности ошибки чрезвычайно завышены (осторожны, пессимистичны), что может приводить к переупрощению модели в методе СМР. Несмотря на 40-летние усилия многих ученых и существенное усложнение математического аппарата, точные оценки до сих пор не были получены.

Комбинаторная теория переобучения — это принципиально новый подход, основанный на слабой вероятностной аксиоматике, впервые позволивший получить точные (не завышенные, не асимптотические) комбинаторные оценки вероятности переобучения и показать ключевую роль эффектов расслоения и сходства в семействах алгоритмов. Пока что точные оценки получены лишь для ряда модельных семейств алгоритмов, обладающих некоторой регулярной структурой. Для реальных смейств удалось получить верхние оценки расслоения-связности — SC-оценки (splitting and connectivity bounds). Они завышены в разы, тогда как VC-оценки завышены на 5–8 порядков. Для некоторых модельных семейств SC-оценки являются точными. Тем не менее, проблемы остаются, и дело не только в завышенности оценок. Во-первых, SC-оценки могут быть ненаблюдаемыми, то есть в них могут входить некоторые функции от скрытых контрольных данных. Эти функции вполне можно оценивать по наблюдаемым обучающим данным, но это дополнительная работа. Во-вторых, SC-оценки могут быть вычислительно неэффективными и требовать неадекватно больших затрат памяти и времени. Получение приближённых или асимптотических SC-оценок гарантированной точности также является отдельной работой.

Пока имеется лишь два примера практического применения комбинаторных оценок обобщающей способности:

  • Модификация критериев информативности для уменьшения переобучения конъюнктивных закономерностей в логических алгоритмах классификации (Андрей Ивахненко).
  • Эффективный алгоритм отбора эталонных объектов в методе ближайших соседей (Максим Иванов).

Основная цель дальнейших исследований — доведение комбинаторной теории переобучения до уровня практической применимости.

Основные направления исследований:

  • разработка математической техники для перехода от ненаблюдаемых оценок к наблюдаемым (возможно, как на основе комбинаторики, так и на основе теории концентрации вероятностной меры);
  • исследование комбинаторно-статистических свойств графа расслоения-связности модельных и реальных семейств алгоритмов.
  • получение оценок вероятности переобучения через наблюдаемый профиль расслоения-связности;
  • разработка эффективных методов оценивания нижних слоёв профиля расслоения-связности в конкретных методах обучения;
  • разработка логических алгоритмов классификации с управляемой переобученностью логических закономерностей;
  • развитие понятия «плотности» семейства алгоритмов и изучение возможности аппроксимации «плотных» семейств их «разреженными» подсемействами малой мощности;
  • развитие понятия «комбинаторного отступа» и его использование для повышения обобщающей способности линейных классификаторов;
  • развитие понятия локальной радемахеровской сложности для более аккуратного учёта эффектов расслоения и сходства;
  • обобщение понятий расслоения и сходства алгоритмов для непрерывных функций потерь;
  • разработка эффективных метрических алгоритмов классификации на основе комбинаторных оценок полного скользящего контроля;
  • исследование связи профилей компактности с функциями конкурентного сходства;
  • разработка методики тестирования и анализа обобщающей способности для «Полигона алгоритмов классификации».

Публикации:

Лучшее изложение с добавлением последних результатов:

Ключевые слова: overfitting, generalization bounds, computational learning theory, Vapnik-Chervonenkis theory, local Rademacher complexity.

Комбинаторная (перестановочная) статистика

Это направление логично вытекает из предыдущего и является его обобщением. Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности. В задачах анализа данных мы всегда имеем дело с выборками конечной длины. Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?». Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно. Вероятность события — абстрактная идеализированная величина. Частота события — это как раз то, что реально измеряется в эксперименте. Именно её и имеет смысл оценивать (предсказывать).

Слабая вероятностная аксиоматика основана на одной единственной аксиоме: рассматривается конечная выборка неслучайных объектов, которые появляются в случайном порядке, причём все перестановки равновероятны. Событие — это бинарная функция на множестве всех перестановок выборки. Вероятность события определяется как доля перестановок выборки, при которых эта бинарная функция принимает единичное значение (т.е. событие имеет место).

В слабой аксиоматике удаётся переформулировать значительную часть фундаментальных результатов теории вероятностей и математической статистики, оносящихся к конечным выборкам независимых наблюдений. В их числе: закон больших чисел, закон сходимости эмпирических распределений (критерий Смирнова), многие непараметрические, ранговые и перестановочные статические критерии, теория обобщающей способности, теория информации. Во многих случаях получаемые оценки являются точными, т.е. не асимптотическими и не завышенными. Многие результаты сильно упрощаются, освобождаясь от второстепенных технических усложнений, связанных с теорией меры. Например, отпадает необходимость введения различных типов сходимости.

Основные направления исследований:

  • выяснение границ применимости слабой вероятностной аксиоматики;
  • точные (комбинаторные) статистические тесты;
  • эффективные алгоритмы вычисления комбинаторных оценок;
  • исследование других вероятностных предположений, кроме равновероятности всех перестановок;
  • множественное тестирование статистических гипотез и его связь с проблемой переобучения.

Ключевые слова: exchangeability, permutational statistics, concentration of probability measure.

Прогнозирование объёмов продаж

Видеолекция на ПостНауке: Математические методы прогнозирования объемов продаж.

Задачи прогнозирования объёмов продаж в сетях супермаркетов характеризуются огромным количеством временных рядов, фактической невозможностью использования классических ресурсоёмких методов прогнозирования, несимметричностью функции потерь, разнородностью и нестационарностью временных рядов, наличием пропусков и неточностей в данных, возможностью привлечения дополнительной информации о структуре ассортимента, географии продаж, ценах, промо-акциях и поведении конкурентов.

Основные направления исследований:

  • адаптивные методы краткосрочного прогнозирования при несимметричной функции потерь;
  • адаптивные композиции алгоритмов прогнозирования при несимметричной функции потерь;
  • адаптивные методы прогнозирования плотности распределения;
  • адаптивные методы квантильной регрессии;
  • поиск взаимозаменяемых товаров, анализ и прогнозирование каннибализации брендов.

Ключевые слова: sales forecast, density forecast, forecasting under asymmetric loss, quantile regression.

Другие проекты и семинары

(в значительной степени устаревшие)

Виртуальные семинары

Материалы для преподавателей

Семинары

Публикации

Основное

Всё остальное

Софт

  • ChartLib — Библиотека деловой и научной графики. Страница: ChartLib. Документация: [1]

Удобный инструмент для аналитических исследований, генерации графиков в Internet, подготовки отчетов, выполнения курсовых и дипломных работ, встраивания графиков в приложения на Delphi и C#. Имеет собственный формат входных данных CHD (CHart Description), позволяющий описывать как таблицы данных, так и внешний вид графика. Поддерживается более 150 команд, более 50 свойств точек графика, имеется встроенный калькулятор арифметических выражений. Графики могут быть выведены в окно прикладной программы, на принтер, в буфер обмена, в файлы графических форматов BMP, EMF, PNG, JPEG, GIF. Имеется программа chdView.exe для просмотра CHD-файлов.

  • BigARTM — Открытая библиотека тематического моделирования. Страница: github.com/bigartm. Документация: bigartm.org

Параллельная распределённая реализация методов вероятностного тематического моделирования на основе аддитивной регуляризации. Реализация ядра библиотеки на С++, интерфейсы на C++, Python. Позволяет добавлять новые регуляризаторы и метрики качества. Разработкой руководит Александр Фрей.

Аспиранты и студенты

Аспиранты МФТИ ВМК МГУ ВШЭ
  • Илья Ирхин
  • Виктор Булатов
  • Анжелика Сухарева
  • Арина Агеева


  • Анастасия Янина
  • Александр Корабельников
  • Илья Жариков

  • Юлиан Сердюк
  • Дарина Дементьева
  • Пётр Остроухов
  • Василий Алексеев
  • Полина Потапова
  • Анастасия Павловская
  • Даниил Фельдман
  • Андрей Власов
  • Филипп Никитин
  • Илья Васильев

  • Вадим Кислинский
  • Евгений Козлинский
  • Анна Рогозина

  • Алексей Гришанов
  • Кирилл Хрыльченко
  • Никита Юдин

  • Дарья Соболева
  • Николай Скачков
  • Николай Шаталов

  • Максим Еремеев

  • Вадим Новосёлов
  • Анна Балакова

  • Михаил Солоткий
  • Галина Фоминская
  • Анастасия Кряжова

Бакалаврские диссертации

  1. Дмитрий Иванцов. Новые методы технического анализа фьючерсных рынков. 2003. МФТИ.
  2. Рустем Таханов. Некоторые комбинаторные оценки качества обучения по прецедентам. 2004. МФТИ.
  3. Дмитрий Житлухин. О некоторых алгоритмах синтеза неэквивалентных матриц Адамара. 2005. МФТИ.
  4. Андрей Ивахненко. Исследование обобщающей способности логических алгоритмов классификации. 2005. МФТИ.
  5. Василий Лексин. Методы выявления взаимосогласованных структур сходства в системах взаимодействующих объектов. 2005. МФТИ.
  6. Фёдор Ульянов. Связь информативности и обобщающей способности в метрических алгоритмах классификации. 2005. МФТИ.
  7. Сергей Ументаев. Алгоритмы динамического обучения принятию решений в сильно зашумлённых временных рядах. 2005. МФТИ.
  8. Иван Гуз. Алгоритмические композиции с монотонными и выпуклыми корректирующими операциями. 2006. МФТИ.
  9. Александр Маценов. Методы обучения линейных композиций алгоритмов классификации. 2006. МФТИ.
  10. Никита Пустовойтов. Обучение композиций дипольных классификаторов на основе ЕМ-алгоритма. 2007. МФТИ.
  11. Александр Климов. Методы предсказания рейтингов в рекомендующих системах. 2007. МФТИ.
  12. Александр Орлов. Проблема переобучения при отборе признаков в линейной регрессии с фиксированными коэффициентами. 2007. МФТИ.
  13. Артур Коваль. Прогнозирование временных рядов с несимметричным функционалом потерь. 2007. МФТИ.
  14. Александр Ширяев. Выбор опорных множеств в алгоритмах типа вычисления оценок: нейросетевой подход. 2007. ВМК МГУ.
  15. Ирина Лебедева. Об одном методе статистически обоснованного сравнения временных рядов доходности паевых инвестиционных фондов. 2008. МФТИ.
  16. Александр Фрей. О дискретных аппроксимациях непрерывных вероятностных распределений. 2008. МФТИ.
  17. Кирилл Чувилин. Проблема переобучения при отборе признаков по внешним критериям в многомерной линейной регрессии. 2008. МФТИ.
  18. Пётр Цюрмасто. Влияние различности алгоритмов на обобщающую способность метода минимизации эмпирического риска. 2008. МФТИ.
  19. Андрей Бадзян. Комбинаторный аналог неравенства МакДиармида и обобщающая способность стабильных алгоритмов. 2008. МФТИ.
  20. Анастасия Зухба. Метрические алгоритмы классификации с отбором опорных объектов. 2009. МФТИ.
  21. Павел Минаев. Расширенная методика тестирования алгоритмов классификации. 2009. МФТИ.
  22. Алексей Романенко. Адаптивный выбор оптимальной модели временного ряда на основе множества статистических критериев. 2009. МФТИ.
  23. Алексей Куренной. Распознавание цитат в текстовых фрагментах. 2009. ВМК МГУ.
  24. Никита Спирин. Монотонные композиции алгоритмов ранжирования. 2010. МФТИ.
  25. Юрий Янович. Оценивание скрытого профиля компактности в задачах обучения методом ближайшего соседа. 2010. МФТИ.
  26. Алексей Островский. Эмпирическое исследование линейных и монотонных композиций алгоритмов ранжирования. 2010. МФТИ.
  27. Игорь Литвинов. Адаптивные методы квантильной регрессии для прогнозирования временных рядов. 2010. МФТИ.
  28. Евгений Зайцев. Прогнозирование средних скоростей движения в городской автотранспортной сети. 2011. МФТИ.
  29. Никита Животовский. Вероятность большого отклонения частоты ошибок на тестовой выборке от оценки скользящего контроля. 2011. МФТИ.
  30. Александр Мафусалов. Комбинаторные оценки вероятности переобучения пороговых классификаторов. 2011. МФТИ.
  31. Александр Фирстенко. Методы выделения терминов и тематической классификации текстовых документов. 2011. МФТИ.
  32. Михаил Кокшаров. Комбинаторные оценки обобщающей способности на основе попарного сравнения алгоритмов. 2012. МФТИ.
  33. Михаил Бурмистров. Методы оптимизации параметров вероятностных тематических моделей. 2012. МФТИ.
  34. Александр Романенко. Категоризация текстов на основе монотонного классификатора ближайшего соседа. 2012. МФТИ.
  35. Илья Ямщиков. Методы обучаемого ранжирования для поиска релевантных алгоритмов классификации. 2012. МФТИ.
  36. Ильдар Газизов. Проект информационно-аналитической системы для поддержки консультирования по функционально-ролевой модели бизнеса. 2012. МФТИ.
  37. Степан Лобастов. Построение тематической классификации коллекции документов с неизвестным числом тем, презентация. 2013. МФТИ.
  38. Влада Целых. Статистические критерии адекватности вероятностных тематических моделей коллекции текстовых документов, презентация. 2013. МФТИ.
  39. Светлана Цыганова. Выявление несогласованностей в иерархической тематической модели с фиксированной иерархией. 2013. МФТИ.
  40. Александр Бырдин. Классификация текстовых объявлений. 2014. МФТИ.
  41. Сергей Воронов. Фильтрация и тематическое моделирование коллекции научных документов. 2014. МФТИ.
  42. Олег Гринчук. Классификация нестационарного потока текстовых объявлений, презентация. 2014. МФТИ.
  43. Кирилл Неклюдов. Обнаружение аномалий в дискретных временных рядах, презентация. 2014. МФТИ.
  44. Мария Рыскина. Регуляризация вероятностных тематических моделей для повышения устойчивости и интерпретируемости. 2014. МФТИ.
  45. Даниил Яшков. Методы понижения размерности в задаче поиска аномалий в многомерных временных рядах, презентация. 2014. МФТИ.
  46. Андрей Шапулин. Регуляризация вероятностных тематических моделей для классификации символьных последовательностей. 2015. ВМК МГУ.
  47. Михаил Хальман. Методы персонализации показа объявлений в рекламной сети. 2015. ВМК МГУ.
  48. Никита Дойков. Адаптивная регуляризация вероятностных тематических моделей. 2015. ВМК МГУ.
  49. Мурат Апишев. Мультимодальные регуляризованные вероятностные тематические модели. 2015. ВМК МГУ.
  50. Александра Кузнецова. Методы регуляризации для отбора признаков в линейных классификаторах и их применение в банковской клиентской аналитике. 2015. ВШЭ.
  51. Алексей Гринчук. Использование контекстной документной кластеризации для улучшения качества тематических моделей. 2015. МФТИ.
  52. Ирина Ефимова. Формирование однородных обучающих выборок в задачах классификации. 2015. МФТИ.
  53. Андрей Игнатов. Deep Learning in information analysis of electrocardiogram signals for disease diagnostics. 2015. МФТИ.
  54. Анна Липатова. Выделение мультиграммных признаков в задачах классификации символьных последовательностей. 2015. МФТИ.
  55. Анастасия Макарова. Выделение информативных признаков заболеваний в информационном анализе электрокардиосигналов. 2015. МФТИ.
  56. Александр Плавин. Отбор тем в задачах тематического моделирования. 2015. МФТИ.
  57. Михаил Швец. Монотонные классификаторы для задач медицинской диагностики. 2015. МФТИ.
  58. Михаил Шинкевич. Применение коллаборативной фильтрации, активного обучения и навигационной корреляции в задаче выделения селекторов. 2015. МФТИ.
  59. Надежда Чиркова. Иерархические тематические модели для интерактивной навигации по коллекциям текстовых документов. 2016. ВМК МГУ.
  60. Никита Шаповалов. Тематические модели для классификации символьных последовательностей в задачах биоинформатики и анализа биомедицинских сигналов. 2016. ВМК МГУ.
  61. Юлия Молчанова. Проверка адекватности тематических моделей в онлайновых алгоритмах. 2016. ВМК МГУ.
  62. Иван Ивашковский. Методы инициализации в вероятностном тематическом моделировании. 2016. ФИВТ МФТИ.
  63. Анастасия Янина. Мультимодальные тематические модели статей коллективных блогов для разведочного поиска. 2016. ФИВТ МФТИ.
  64. Илья Жариков. Статистические тесты однородности символьных последовательностей. 2016. ФУПМ МФТИ.
  65. Евгений Смирнов. Суммаризация тем в вероятностном тематическом моделировании. 2016. ФУПМ МФТИ.
  66. Светлана Шишковец. Аддитивная регуляризация наивного линейного байесовского классификатора. 2016. ФУПМ МФТИ.
  67. Роза Айсина. Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным. 2017. ВМК МГУ.
  68. Артём Попов. Регуляризация тематических моделей для векторных представлений слов. 2017. ВМК МГУ.
  69. Владимир Полушин. Тематические модели для ранжирования рекомендаций текстового контента. 2017. ВМК МГУ.
  70. Владислав Батаев. Тематическая сегментация разговоров контактного центра. 2017. ФИВТ МФТИ.
  71. Карен Манукян. Интеллектуальная диалоговая система для автоматизации деятельности контакт-центра. 2017. ФИВТ МФТИ.
  72. Александр Софиенко. Классификация положительных и неразмеченных текстовых документов. 2017. ФИВТ МФТИ.
  73. Дмитрий Федоряка. Технология интерактивной визуализации тематических моделей. 2017. ФУПМ МФТИ.
  74. Ольга Цветкова. Анализ банковских транзакционных данных для выявления паттернов экономического поведения клиентов. 2017. ФУПМ МФТИ.
  75. Виталий Малыгин. Формирование репрезентативных обучающих выборок. 2017. ФУПМ МФТИ.
  76. Дарья Соболева. Языковое моделирование в задаче построения вопрос-ответной системы. 2018. ВМК МГУ.
  77. Николай Кругликов. Тематическое моделирование текстовых коллекций в диалоговых системах. 2018. ВМК МГУ.
  78. Анастасия Фадеева. Темпоральное моделирование новостных потоков. 2018. ФКН НИУ ВШЭ.
  79. Мария Селезнёва. Построение и оценка качества гетерогенных иерархических тематических моделей. 2018. ФУПМ МФТИ.
  80. Василий Алексеев. Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций. 2018. ФУПМ МФТИ.
  81. Антон Захаренков. Итеративный подбор коэффициентов регуляризации тематических моделей. 2018. ФУПМ МФТИ.
  82. Даниил Фельдман. Использование фактов для поиска мнений в новостях. 2018. ФУПМ МФТИ.
  83. Филипп Никитин. Применение мультимодальных тематических моделей к анализу транзакционных данных. 2018. ФУПМ МФТИ.
  84. Анастасия Павловская. Тематическое моделирование в задаче классификации отзывов покупателей о работе и ассортименте продуктового магазина. 2018. ФУПМ МФТИ.
  85. Николай Скачков. Тематико-стилистические векторные представления текстовых пользовательских запросов. 2019. ВМК МГУ.
  86. Михаил Солоткий. Вероятностные тематические модели на основе данных о со-встречаемости слов. 2019. ВМК МГУ.
  87. Галина Фоминская. Проблема несбалансированности тем в вероятностных тематических моделях. 2019. ВМК МГУ.
  88. Николай Шаталов. Методы обучения без учителя для автоматического выделения составных терминов в текстовых коллекциях. 2019. ВМК МГУ.
  89. Вадим Захаренко. Методы обнаружения новых тем в вероятностных тематических моделях. 2019. ВМК МГУ.
  90. Анастасия Кряжова. Методы оценивания семантической близости фраз для классификации текстовых сообщений. 2019. НИУ ВШЭ.
  91. Анна Рогозина. Проверка гипотезы условной независимости для оценивания качества тематической кластеризации. 2019. ФУПМ МФТИ.
  92. Евгений Козлинский. Сегментация транзакционных данных розничных клиентов банка. 2019. ФУПМ МФТИ.
  93. Вадим Кислинский. Построение мультимодальной рекомендательной системы. 2019. ФУПМ МФТИ.
  94. Павел Плюснин. Итерационные методы балансировки тем в тематическом моделировании. 2019. ФУПМ МФТИ.

Магистерские диссертации

  1. Юрий Карпов. Имитационная модель торгов. 2003. МФТИ.
  2. Дмитрий Иванцов. Применение алгоритмов бустинга для построения комбинированных инвестиционных стратегий. 2005. МФТИ.
  3. Денис Кочедыков. Разработка, реализация и тестирование специализированной библиотеки логических алгоритмов классификации. 2005. ВМК МГУ.
  4. Александр Кругов. Поиск закономерностей и принятие решений по дискретным временным рядам. 2006. МФТИ.
  5. Дмитрий Житлухин. Персонализированная рубрикация текстовых сообщений. 2007. МФТИ.
  6. Андрей Ивахненко. Методы улучшения обобщающей способности логических алгоритмов классификации. 2007. МФТИ.
  7. Василий Лексин. Технология персонализации на основе выявления тематических профилей пользователей и ресурсов Интернет. 2007. МФТИ.
  8. Фёдор Ульянов. Оценивание обобщающей способности функций близости при оптимизации модели АВО. 2007. МФТИ.
  9. Сергей Ументаев. Проблема переобучения при отборе признаков в линейной регрессии с фиксированными коэффициентами. 2007. МФТИ.
  10. Иван Гуз. Проблема обобщающей способности и оптимизация профиля монотонности в композициях классификаторов. 2008. МФТИ.
  11. Александр Маценов. Профиль разделимости и обобщающая способность линейных композиций классификаторов. 2008. МФТИ.
  12. Геннадий Федонин. Композиции алгоритмов предсказания рейтингов в системах рекомендаций. 2008. МФТИ.
  13. Никита Пустовойтов. Поиск схожих пользователей социальных сетей методами коллаборативной фильтрации. 2009. МФТИ.
  14. Александр Орлов. Комбинаторные оценки вероятности переобучения для случая произвольной заданной матрицы ошибок. 2009. МФТИ.
  15. Артур Коваль. Построение адаптивных композиций алгоритмов прогнозирования при несимметричной функции потерь. 2009. МФТИ.
  16. Ирина Лебедева. Методы повышения обобщающей способности логических алгоритмов классификации. 2010. МФТИ.
  17. Александр Фрей. Точные оценки вероятности переобучения для рандомизированного метода минимизации эмпирического риска. 2010. МФТИ.
  18. Кирилл Чувилин. Проект интеллектуальной системы для автоматизации коррекции документов в формате LaTeX. 2010. МФТИ.
  19. Пётр Цюрмасто. Точные комбинаторные оценки вероятности переобучения для цепочек алгоритмов. 2010. МФТИ.
  20. Анастасия Зухба. Вычислительная сложность задачи отбора опорных объектов в методе ближайших соседей. 2011. МФТИ.
  21. Павел Минаев. Методика тестирования алгоритмов классификации в системе Полигон и её обоснования. 2011. МФТИ.
  22. Алексей Романенко. Методы агрегирования адаптивных алгоритмов прогнозирования. 2011. МФТИ.
  23. Игорь Литвинов. Методы уточнения карты дорог по данным GPS-сигналов автомобилей. 2012. МФТИ.
  24. Никита Спирин. Структурированный поиск с числовыми и логическими ограничениями в неструктурированных Веб-коллекциях. 2012. МФТИ.
  25. Никита Животовский. Концентрация меры в комбинаторных оценках обобщающей способности. 2013. МФТИ.
  26. Виталий Глушаченков. Устойчивость матричных разложений в задачах тематического моделирования. 2013. МФТИ.
  27. Александр Мафусалов. Оценивание вероятности успеха в серии испытаний Бернулли по другой серии при наличии зависимости между вероятностями успеха. 2013. МФТИ.
  28. Николай Савинов. Классификация эмоциональной окраски сообщений в социальных сетях. 2013. МФТИ.
  29. Андрей Романов. Методы упрощения композиций, получаемых при градиентном бустинге. 2013. МФТИ.
  30. Александр Романенко. Применение условных случайных полей в задачах обработки текстов на естественном языке. 2014. МФТИ.
  31. Илья Ямщиков. Математические методы диагностики ишемической болезни по электрокардиограмме сверхвысокого разрешения. 2014. МФТИ.
  32. Влада Целых. Статистические обоснования информационного анализа электрокардиосигналов для диагностики заболеваний внутренних органов. 2015. МФТИ.
  33. Светлана Цыганова. Применение тематической модели классификации в информационном анализе электрокардиосигналов. 2015. МФТИ.
  34. Василий Бунаков. Методы нечеткого кодирования в информационном анализе электрокардиосигналов. 2015. МФТИ.
  35. Сергей Стенин. Мультиграммные аддитивно регуляризованные тематические модели. 2015. МФТИ
  36. Дмитрий Аникушин. Использование вероятностных тематических моделей для персонализации показов рекламы. 2015. ФИВТ МФТИ.
  37. Дмитрий Гронский. Аддитивная регуляризация тематических моделей для задачи классификации символьных последовательностей. 2015. ФИВТ МФТИ.
  38. Кирилл Остапенко. Выявление случаев мошенничества в онлайн-играх методами машинного обучения. 2015. ФИВТ МФТИ.
  39. Виктор Булатов. Использование графовой структуры в тематическом моделировании. 2016. ФИВТ МФТИ.
  40. Илья Ирхин. Сходимость численных методов вероятностного тематического моделирования. 2016. ФИВТ МФТИ.
  41. Анжелика Сухарева. Оценивание качества выделения терминов в задаче классификации текстовых документов. 2016. ФУПМ МФТИ.
  42. Евгения Вдовина. Отбор признаков для многоклассовой классификации символьных последовательностей. 2016. ФУПМ МФТИ.
  43. Мурат Апишев. Параллельная реализация аддитивно регуляризованного тематического моделирования и её применение для поиска этно-релевантного контента в социальных медиа. 2017. ВМК МГУ.
  44. Юлия Лукашкина. Оценивание устойчивости и полноты тематических моделей мультидисциплинарных текстовых коллекций. 2017. ВМК МГУ.
  45. Андрей Шапулин. Классификация тем в вероятностных тематических моделях коллекций текстовых документов. 2017. ВМК МГУ.
  46. Илья Голубев. Аддитивная регуляризация тематических моделей для выделения полных наборов тем в коллекциях текстовых документов. 2017. ФКН НИУ ВШЭ.
  47. Роман Дербаносов. Проблемы устойчивости и единственности стохастического матричного разложения. 2017. ФКН НИУ ВШЭ.
  48. Илья Удалов. Библиотека с открытым исходным кодом для оптимизации и регуляризации линейных предсказательных моделей по большим выборкам данных. 2017. ФКН НИУ ВШЭ.
  49. Ирина Ефимова. Иерархическая мультимодальная тематическая модель коллекции научно-популярных текстов. 2017. ФУПМ МФТИ.
  50. Андрей Игнатов. Улучшение качества цифровых снимков с помощью глубоких свёрточных нейронных сетей. 2017. ФУПМ МФТИ.
  51. Макар Краснопёров. Выделение именованных сущностей на основе текстов высокой похожести. 2017. ФИВТ МФТИ.
  52. Александр Кузьмин. Адаптивный выбор траектории регуляризации. 2017. ФИВТ МФТИ.
  53. Руслан Камалов. Нейросетевой подход к построению тематических моделей. 2018. ВМК МГУ.
  54. Николай Попов. Гиперграфовые тематические модели транзакционных данных. 2018. ВМК МГУ.
  55. Таснима Садекова. Выделение мнений в тематических моделях новостных потоков. 2018. ВМК МГУ.
  56. Никита Шаповалов. Интерпретируемые тематические модели новостных потоков для прогнозирования на финансовых рынках. 2018. ВМК МГУ.
  57. Анастасия Янина. Тематический разведочный информационный поиск. 2018. ФИВТ МФТИ.
  58. Илья Жариков. Многомодальные тематические модели на гиперграфах. 2018. ФУПМ МФТИ.
  59. Евгений Смирнов. Тематическая сегментация диалогов контактного центра. 2018. ФУПМ МФТИ.
  60. Роман Кулага. Классификация потока финансовых новостей с целью выявления динамики цен биржевых инструментов. 2018. ФУПМ МФТИ.
  61. Артём Попов. Выделение множества тематик в неразмеченной коллекции диалогов. 2019. ВМК МГУ.
  62. Вера Шишкина. Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным. 2019. ФУПМ МФТИ.
  63. Дарина Дементьева. Агрегация и персонализация новостного текстового контента. 2019. ФУПМ МФТИ.
  64. Пётр Остроухов. Предобученные по Википедии тематические векторные представления слов. 2019. ФУПМ МФТИ.
  65. Александр Никитин. Иерархические тематические векторные представления слов в коллекциях текстов. 2019. НИУ ВШЭ.
  66. Виктория Ходырева. Автоматическое именование тем в вероятностном тематическом моделировании. 2019. ФКН НИУ ВШЭ.

Дипломные работы

  1. Максим Янпольский. Идентификация инвестиционных стратегий участников биржевых торгов. 2002. ВМК МГУ.
  2. Александр Киселев. Классификация участников биржевого рынка по близости к стратегиям технического анализа. 2003. ВМК МГУ.
  3. Андрей Липасти. Метрические алгоритмы анализа биржевых стратегий и поведения участников торгов. 2003. ВМК МГУ.
  4. Денис Старых. Алгоритмы генерации сигналов в потоке торговых данных. 2003. ВМК МГУ.
  5. Денис Якубенков. Применение методов распознавания при построении и настройке имитационной модели биржевых торгов. 2003. ВМК МГУ.
  6. Екатерина Егорова. Сравнительный анализ методов алгебраической коррекции для одного класса алгоритмов прогнозирования. 2005. ВМК МГУ.
  7. Даниил Каневский. Генетические алгоритмы синтеза локальных базисов в алгебраическом подходе к проблеме распознавания. 2005. ВМК МГУ.
  8. Алексей Колосков. Применение комбинаторных оценок обобщающей способности для повышения качества метрических алгоритмов классификации. 2005. ВМК МГУ.
  9. Дмитрий Соколов. Сравнительный анализ обобщающей способности логических алгоритмов классификации. 2005. ВМК МГУ.
  10. Людмила Романюха. Логические алгоритмы классификации в задачах кредитного скоринга и оценка риска кредитного портфеля банка. 2006. ВМК МГУ.
  11. Ирек Ахуньянов. Применение модифицированного метода опорных векторов для построения метрических классификаторов. 2008. ВМК МГУ.
  12. Андрей Венжега. Отбор информативных признаков на выборках небольшой длины в задаче линейной регрессии с фиксированными ко-эффициентами. 2009. ВМК МГУ.
  13. Максим Иванов. Эффективные метрические алгоритмы классификации на основе оптимизации профиля компактности. 2009. ВМК МГУ.
  14. Алексей Медведев. Обобщающая способность логических закономерностей. 2009. ВМК МГУ.
  15. Варвара Цурко. Логические алгоритмы классификации: проблема переобучения и применение в задачах медицинской диагностики. 2009. ВМК МГУ.
  16. Григорий Чижик. Распознавание скрытых профилей пользователей и ресурсов в анализе клиентских сред. 2009. ВМК МГУ.
  17. Алексей Гуков. Оценки вероятности переобучения для некоторых связных семейств алгоритмов. 2010. ВМК МГУ.
  18. Алина Карпинская. Методы построения неполносвязных нейронных сетей и их приложения в задачах прогнозирования. 2010. ВМК МГУ.
  19. Василий Ломакин. Поиск взаимосвязей во временных рядах продаж. 2010. ВМК МГУ.
  20. Илья Решетняк. Комбинаторные оценки вероятности переобучения, учитывающие эффекты расслоения и связности в семействах алгоритмов. 2010. ВМК МГУ.
  21. Илья Толстихин. Оценки обобщающей способности и применение логических алгоритмов классификации в задаче распознавания вторичной структуры белка. 2010. ВМК МГУ.
  22. Александр Ерошенко. Применение оценок обобщающей способности в алгоритмах построения решающих деревьев. 2011. ВМК МГУ.
  23. Мария Когадеева. Математическая модель данных микрочипов ДНК и методы оценки её параметров. 2011. ВМК МГУ.
  24. Жанна Кожахметова. Построение карты дорог по данным о треках автотранспортных средств. 2011. ВМК МГУ.
  25. Юрий Логачёв. Методы ранжирования в задаче текстовой релевантности. 2011. ВМК МГУ.
  26. Елена Полежаева. Инкрементные матричные разложения в задачах коллаборативной фильтрации. 2011. ВМК МГУ.
  27. Алёна Шевцова. Отбор информативных признаков в задачах медицинской диагностики. 2011. ВМК МГУ.
  28. Александр Колесников. Прогнозирование вероятности кликов на новые рекламные объявления. 2012. ВМК МГУ.
  29. Дмитрий Солодкин. Выявление закономерностей научного цитирования на основе вероятностных тематических моделей. 2012. ВМК МГУ.
  30. Марина Дударенко. Методы предсказания информативности логических закономерностей. 2012. ВМК МГУ.
  31. Ольга Исупова. Выявление тематических связей между документами методами латентного семантического анализа. 2012. ВМК МГУ.
  32. Шаура Ишкина. Вероятность переобучения прямых цепей алгоритмов классификации. 2013. Мехмат МГУ.
  33. Мария Василевская. Алгоритмы построения разреженных тематических моделей. 2013. Мехмат МГУ.
  34. Кирилл Гаврилюк. Методы построения иерархических тематических моделей коллекции текстовых документов. 2013. ВМК МГУ.
  35. Валентин Полежаев. Обучаемые методы извлечения наукометрической информации из коллекций научных публикаций. 2013. ВМК МГУ.
  36. Евгений Соколов. Комбинаторные оценки обобщающей способности и их применение для построения композиций линейных классификаторов. 2013. ВМК МГУ.
  37. Иван Шанин. Методы анализа электрокардиограмм для ранней диагностики ишемической болезни. 2013. ВМК МГУ.
  38. Анна Потапенко. Лингвистическая регуляризация вероятностных тематических моделей. 2014. ВМК МГУ.
  39. Андрей Шадриков. Алгоритмы неотрицательных матричных разложений для тематического моделирования. 2015. ВМК МГУ.
  40. Тимур Исмагилов. Частично обучаемые вероятностные тематические модели коллекций научных текстов. 2016. ВМК МГУ.

Кандидатские диссертации

  1. Андрей Ивахненко. Комбинаторные оценки вероятности переобучения и их применение в логических алгоритмах классификации. МФТИ. 2010.
  2. Иван Гуз. Комбинаторные оценки полного скользящего контроля и методы обучения монотонных классификаторов. ВЦ РАН. 2011.
  3. Денис Кочедыков. Оценки обобщающей способности на основе характеристик расслоения и связности семейств функций. ВЦ РАН. 2011.
  4. Павел Ботов. Оценки вероятности переобучения многомерных семейств алгоритмов классификации. ВЦ РАН. 2011.
  5. Василий Лексин. Вероятностные модели в анализе клиентских сред. ВЦ РАН. 2011.
  6. Павел Кудинов. Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде. ВЦ РАН. 2012.
  7. Кирилл Чувилин. Автоматический синтез правил коррекции текстовых документов формата LaTeX. ВЦ РАН. 2013.
  8. Александр Фрей. Теоретико-групповой подход в комбинаторной теории переобучения. ВЦ РАН. 2013.
  9. Илья Толстихин. Неравенства концентрации вероятностной меры в трансдуктивном обучении и PAC-Байесовском анализе. ВЦ РАН. 2014.
  10. Евгений Рябенко. Выбор функций потерь в задачах неотрицательного матричного разложения. ВЦ РАН. 2014.
  11. Никита Животовский. Минимаксные оценки риска в задачах статистического обучения. МФТИ, ИППИ РАН. 2018.
  12. Анастасия Зухба. Оценка вычислительной сложности задач отбора эталонных объектов и признаков. МФТИ. 2018.
  13. Илья Трофимов. Разработка и обоснование методов параллельного покоординатного спуска для обучения обобщённых линейных моделей с регуляризацией. ФИЦ ИУ РАН. 2019.
  14. Анна Потапенко. Семантические векторные представления текста на основе вероятностного тематического моделирования. ФИЦ ИУ РАН. 2019.

Cсылки

Мои подстраницы

Vokov/CVVokov/Publications
Vokov/Иллюзия простоты выбораVokov/Интервью для InTalent.proVokov/Интервью для Кота Шрёдингера 2017-10-04
Vokov/Интервью для Новой газеты 2019-02-25Vokov/Интервью для ПостНауки 2017-09-27Vokov/Интервью для РИА Новости 2020-05-25
Vokov/НаучпопVokov/Некоторые задачи интеллектуального анализа данных (лекция)
Vokov/ПесочницаVokov/Планы по развитию MachineLearning.RUVokov/Публикации
Личные инструменты