Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2020
Материал из MachineLearning.
Vokov (Обсуждение | вклад)
(Новая: {{TOCright}} Программа спецкурса, прочитанного весной 2020 года студентам 2—5 курсов на кафедре «[[Математич...)
К следующему изменению →
Версия 15:55, 18 сентября 2021
Программа спецкурса, прочитанного весной 2020 года студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ.
Программа курса
Задача тематического моделирования
Презентация: (PDF, 6,4 МБ) — обновление 04.03.2021. Видеозапись
Цели и задачи тематического моделирования.
- Понятие «темы», цели и задачи тематического моделирования.
 - Вероятностная модель порождения текста.
 - EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
 - Принцип максимума правдоподобия.
 
Аддитивная регуляризация тематических моделей.
- Понятие некорректно поставленной задачи по Адамару. Регуляризация.
 - Лемма о максимизации на единичных симплексах. Условия Каруша–Куна–Таккера.
 - Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
 - Классические тематические модели PLSA и LDA как частные случаи ARTM.
 - Мультимодальные тематические модели.
 
Библиотека BigARTM.
- Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).
 - Оффлайновый регуляризованный EM-алгоритм.
 - Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
 - Проект с открытым кодом BigARTM.
 
Разведочный информационный поиск
Презентация: (PDF, 10 МБ) — обновление 04.03.2021. Видеозапись
Разведочный информационный поиск.
- Концепция разведочного поиска.
 - Особенности разведочного поиска.
 - Поисково-рекомендательная система KnowledgeFactory.
 
Часто используемые регуляризаторы.
- Сглаживание, разреживание, декоррелирование.
 - Модальности.
 - Иерархии тем. Послойное построение иерархии. Псевдодокументы родительских тем.
 
Эксперименты с тематическим поиском.
- Методика измерения качества поиска.
 - Тематическая модель для документного поиска.
 - Оптимизация гиперпараметров.
 
Оценивание качества тематических моделей
Презентация: (PDF, 1,6 МБ) — обновление 04.10.2020. Видеозапись
Измерение качества тематических моделей.
- Правдоподобие и перплексия.
 - Интерпретируемость и когерентность.
 - Разреженность и различность.
 
Эксперименты с регуляризацией.
- Комбинирование регуляризаторов.
 - Проблема определения числа тем.
 - Проблема несбалансированности тем.
 
Проверка гипотезы условной независимости.
- Статистики на основе KL-дивергенции и их обобщения.
 - Регуляризатор семантической однородности.
 - Применение статистических тестов условной независимости.
 
Обзор базовых инструментов
Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017. Видеозапись
Предварительная обработка текстов
- Парсинг "сырых" данных.
 - Токенизация, стемминг и лемматизация.
 - Выделение энграмм.
 - Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.
 
Библиотека BigARTM
- Методологические рекоммендации по проведению экспериментов.
 - Установка BigARTM.
 - Формат и импорт входных данных.
 - Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
 - Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.
 
Дополнительный материал:
- Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
 - Видео — обновление 22.03.2017.
 - Воркшоп по BigARTM на DataFest'4. Видео.
 
Тематические модели сочетаемости слов
Презентация: (PDF, 2,1 МБ) — обновление 07.10.2020. Видеозапись
Мультиграммные модели.
- Модель BigramTM.
 - Модель Topical N-grams (TNG).
 - Мультимодальная мультиграммная модель.
 
Автоматическое выделение терминов.
- Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
 - Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
 - Критерии тематичности фраз.
 - Комбинирование синтаксической, статистической и тематической фильтрации фраз.
 
Тематические модели дистрибутивной семантики.
- Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
 - Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
 - Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
 - Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
 - Регуляризаторы когерентности.
 
Дополнительный материал:
- Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.
 
Анализ зависимостей
Презентация: (PDF, 1,9 МБ) — обновление 28.10.2020. Видеозапись
Зависимости, корреляции, связи.
- Тематические модели классификации и регрессии.
 - Модель коррелированных тем CTM (Correlated Topic Model).
 - Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
 
Время и пространство.
- Регуляризаторы времени.
 - Обнаружение и отслеживание тем.
 - Гео-пространственные модели.
 
Социальные сети.
- Сфокусированный поиск в социальных медиа (пример: поиск этно-релевантного контента).
 - Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
 - Регуляризаторы для выявления социальных ролей пользователей.
 
Мультимодальные тематические модели
Презентация: (PDF, 2,7 МБ) — обновление 28.10.2020. Видеозапись
Мультиязычные тематические модели.
- Параллельные и сравнимые коллекции.
 - Регуляризаторы для учёта двуязычных словарей.
 - Кросс-язычный информационный поиск.
 
Трёхматричные и гиперграфовые модели.
- Модели трёхматричных разложений. Понятие порождающей модальности.
 - Автор-тематическая модель (author-topic model).
 - Модель для выделения поведений объектов в видеопотоке.
 
Тематические модели транзакционных данных.
- Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
 - Гиперграфовая модель ARTM. Теорема о необходимом условии максимума регуляризованного правдоподобия.
 - Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. Видео.
 - Анализ банковских транзакционных данных для выявления видов деятельности компаний.
 
Моделирование связного текста
Презентация: (PDF, 2,5 МБ) — обновление 28.10.2020. Видеозапись
Модели связного текста.
- Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
 - Контекстная документная кластеризация (CDC).
 - Метод лексических цепочек.
 
Тематическая сегментация.
- Метод TopicTiling. Критерии определения границ сегментов.
 - Критерии качества сегментации.
 - Оптимизация параметров модели TopicTiling.
 
Позиционный регуляризатор в ARTM.
- Гипотеза о сегментной структуре текста.
 - Регуляризация и пост-обработка Е-шага. Формулы М-шага.
 - Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.
 
Теория ЕМ-алгоритма
Презентация: (PDF, 1,2 МБ) — обновление 18.11.2020. Видеозапись
Классические модели PLSA, LDA.
- Модель PLSA.
 - Модель LDA. Распределение Дирихле и его свойства.
 - Максимизация апостериорной вероятности для модели LDA.
 
Общий EM-алгоритм.
- EM-алгоритм для максимизации неполного правдоподобия.
 - Регуляризованный EM-алгоритм. Сходимость в слабом смысле.
 - Альтернативный вывод формул ARTM.
 
Эксперименты с моделями PLSA, LDA.
- Проблема неустойчивости (на синтетических данных).
 - Проблема неустойчивости (на реальных данных).
 - Проблема переобучения и робастные модели.
 
Байесовское обучение модели LDA
Презентация: (PDF, 1,9 МБ) — обновление 18.11.2020. Видеозапись
Вариационный байесовский вывод.
- Основная теорема вариационного байесовского вывода.
 - Вариационный байесовский вывод для модели LDA.
 - VB ЕМ-алгоритм для модели LDA.
 
Сэмплирование Гиббса.
- Основная теорема о сэмплировании Гиббса.
 - Сэмплирование Гиббса для модели LDA.
 - GS ЕМ-алгоритм для модели LDA.
 
Замечания о байесовском подходе.
- Оптимизация гиперпараметров в LDA.
 - Графическая нотация (plate notation). Stop using plate notation.
 - Сравнение байесовского подхода и ARTM.
 - Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.
 
Суммаризация и автоматическое именование тем
Презентация: (PDF, 3,0 МБ) — обновление 25.11.2020. Видеозапись
Методы суммаризации текстов.
- Задачи автоматической суммаризации текстов. Подходы к суммаризации: extractive и abstractive.
 - Оценивание и отбор предложений для суммаризации. Релаксационный метод для многокритериальной дискретной оптимизации.
 - Тематическая модель предложений для суммаризации.
 - Критерии качества суммаризации. Метрики ROUGE, BLUE.
 
Автоматическое именование тем (topic labeling).
- Формирование названий-кандидатов.
 - Релевантность, покрытие, различность.
 - Оценивание качества именования тем.
 
Тематическое моделирование связного текста
- Тематизация фрагментов текста для суммаризации и именования тем.
 -  Тематическое моделирование без матрицы 
.
 - Двунаправленная тематическая модель контекста.
 
Визуализация
Презентация: (PDF, 10,1 МБ) — обновление 11.01.2021. Видеозапись
Визуализация больших текстовых коллекций
- Концепция distant reading
 - Карты знаний
 - Иерархии, взаимосвязи, динамика, сегментация
 
Визуализация тематических моделей
- Визуализация матричного разложения
 - Проект VisARTM
 - Спектр тем
 
Визуализация для научного разведочного поиска
- Тематическая карта
 - Задача оценивания когнитивной сложности текста
 - Иерархическая тематическая суммаризация
 
Отчетность по курсу
Условием сдачи курса является выполнение индивидуальных практических заданий.
Рекомендуемая структура отчёта об исследовании по индивидуальному заданию:
- Постановка задачи: неформальное описание, ДНК (дано–найти–критерий), структура данных
 - Описание простого решения baseline
 - Описание основного решения и его вариантов
 - Описание набора данных и методики экспериментов
 - Результаты экспериментов по подбору гиперпараметров основного решения
 - Результаты экспериментов по сравнению основного решения с baseline
 - Примеры визуализации модели
 - Выводы: что работает, что не работает, инсайты
 - Ссылка на код
 
Примеры отчётов:
Литература
- Воронцов К. В. Обзор вероятностных тематических моделей. 2021.
 - Hamed Jelodar, Yongli Wang, Chi Yuan, Xia Feng. Latent Dirichlet Allocation (LDA) and Topic modeling: models, applications, a survey. 2017.
 - Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
 - Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
 - Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
 - Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.
 
Ссылки
- Тематическое моделирование
 - Аддитивная регуляризация тематических моделей
 - Коллекции документов для тематического моделирования
 - BigARTM
 - Видеозапись лекции на ТМШ, 19 июня 2015
 - Воронцов К.В. Практическое задание по тематическому моделированию, 2014.
 

