Вероятностные тематические модели (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.
В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Тематическое моделирование рассматривается как ключевая математическая технология перспективных информационно-поисковых систем нового поколения, основанных на парадигме семантического разведочного поиска (exploratory search). Рассматриваются также прикладные задачи классификации, сегментации и суммаризации текстов, задачи анализа данных социальных сетей и рекомендательных систем. Развивается многокритериальный подход к построению композитных тематических моделей с заданными свойствами — аддитивная регуляризация тематических моделей (АРТМ). Он основан на регуляризации некорректно поставленных задач стохастического матричного разложения. Рассматриваются способы измерения и оптимизации важнейших свойств тематических моделей — правдоподобия, интерпретируемости, устойчивости, полноты. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных с помощью библиотеки тематического моделирования BigARTM.
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.
- Обзорная презентация: (PDF, 4,4 МБ) — обновление 14.03.2016.
- Видеолекция на ПостНауке: Разведочный информационный поиск.
Программа курса
Условием сдачи спецкурса является выполнение индивидуальных практических заданий.
- Файл с описанием заданий: voron-2017-task-PTM.pdf
Введение
Презентация: (PDF, 0,6 МБ) — обновление 11.02.2017.
Цели и задачи тематического моделирования.
- Понятие «темы», цели и задачи тематического моделирования (topic modeling).
- Основные предположения. Гипотеза «мешка слов» (bag-of-words). Методы предварительной обработки текстов.
- Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости.
- Порождающая модель документа как вероятностной смеси тем.
- Постановка обратной задачи восстановления параметров модели по данным.
Математический инструментарий.
- Принцип максимума правдоподобия.
- Условия Каруша–Куна–Таккера.
- Униграммные модели коллекции и документа.
Тематическая модель PLSA.
- Вероятностный латентный семантический анализ (probabilistic latent semantic analysis, PLSA).
- Теорема о необходимых условиях максимума правдоподобия для модели PLSA.
- EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
- Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).
Обзор базовых инструментов
Александр Романенко. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017.
Предварительная обработка текстов
- Парсинг "сырых" данных.
- Токенизация, стемминг и лемматизация.
- Выделение энграмм.
- Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.
Библиотека BigARTM
- Методологические рекоммендации по проведению экспериментов.
- Установка BigARTM.
- Формат и импорт входных данных.
- Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
- Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.
Аддитивная регуляризация тематических моделей
Презентация: (PDF, 2,5 МБ) — обновление 10.03.2017.
Регуляризаторы и модальности.
- Аддитивная регуляризация тематических моделей. Линейные композиции регуляризаторов.
- Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
- Мультимодальная ARTM. Виды модальностей и примеры прикладных задач.
- Оффлайновый регуляризованный EM-алгоритм.
- Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
Модель LDA.
- Латентное размещение Дирихле (latent Dirichlet allocation, LDA).
- Некоторые свойства распределения Дирихле.
- Теорема о необходимом условии максимума апостериорной вероятности для LDA.
Проекты, задания, открытые проблемы
- Прикладные проекты по тематическому моделированию
- Примеры заданий по спецкурсу
- Исследовательские задачи и открытые проблемы
Дополнительный материал:
- Потапенко А. А. Отчет по серии экспериментов с онлайновым алгоритмом. 2013.
Сглаживание, разреживание и декоррелирование тем
Презентация: (PDF, 1,3 МБ) — обновление 10.03.2017.
Эксперименты по устойчивости.
- Эксперименты на синтетических данных: демонстрация неустойчивости PLSA и LDA.
- Эксперименты по неустойчивости LDA на текстовых коллекциях социальных сетей.
Регуляризаторы разреживания, сглаживания, декоррелирования и отбора тем.
- Регуляризаторы сглаживания и разреживания.
- Частичное обучение как разновидность сглаживания.
- Разделение тем на предметные и фоновые. Автоматическое выделение слов общей лексики.
- Регуляризатор декоррелирования тем.
- Разреживающий регуляризатор отбора тем.
- Эксперименты с композициями разреживания, сглаживания, декоррелирования и отбора тем.
- Критерии качества тематических моделей: перплексия, когерентность, чистота и контрастность тем.
Исследование регуляризатора отбора тем.
- Эксперименты с полусинтетическими данными.
- Эффект отбрасывания малых, дублирующих и линейно зависимых тем.
- Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).
Регуляризация тематических моделей в BigARTM
Мурат Апишев. Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017. Видео — обновление 22.03.2017.
Напоминания.
- Задача ТМ, аддитивная регуляризация, мультимодальные модели.
- Библиотека BigARTM.
Эксперименты в BigARTM.
- Стратегии регуляризации.
- Возможности и стратегии использования регуляризаторов сглаживания/разреживания и декорреляции тем.
- Рекомендации по подбору параметров при построении моделей.
- Практические советы и оценивание моделей.
Демонстрация АРТМ в реальном эксперименте.
- Работа с реальными данными социальных сетей.
- Настройка моделей с несколькими регуляризаторами и модальностями.
Дополнительный материал:
- Александр Романенко. Воркшоп по BigARTM на DataFest'4. Видео.
Байесовское обучение тематических моделей
Презентация: (PDF, 1,3 МБ) — обновление 24.03.2017.
EM-алгоритм.
- Задачи оценивания скрытых параметров вероятностной модели.
- EM-алгоритм для максимизации неполного правдоподобия. Сходимость в слабом смысле.
- EM-алгоритм для модели PLSA.
Методы оценивания параметров в модели LDA.
- Модель LDA. Свойства распределения Дирихле.
- Максимизация апостериорной вероятности для модели LDA.
- Вариационный байесовский вывод для модели LDA.
- Сэмплирование Гиббса для модели LDA. Сопряжённые распределения.
- Оптимизация гиперпараметров распределения Дирихле.
Языки описания вероятностных порождающих моделей.
- Графическая плоская нотация (plate notation). Stop using plate notation.
- Псевдокод порождающего процесса (genarative story).
- Постановки оптимизационных задач.
- Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.
Дополнительный материал:
- Потапенко А. А. Байесовское обучение тематических моделей. 2016.
Тематические модели для анализа зависимостей
Презентация: (PDF, 1,9 МБ) — обновление 31.03.2017.
Классификация и регрессия.
- Тематическая модель классификации.
- Пример: Технология информационного анализа электрокардиосигналов.
- Тематическая модель регрессии.
Связи и корреляции.
- Модель коррелированных тем CTM (Correlated Topic Model).
- Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
Время и пространство.
- Регуляризаторы времени для темпоральных тематических моделей. Разреживание тем в каждый момент времени. Сглаживание темы как временного ряда. Пример: анализ коллекции пресс-релизов.
- Регуляризаторы геолокации для пространственных тематических моделей.
Социальные сети.
- Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
- Регуляризаторы для выявления социальных ролей пользователей.
Мультимодальные тематические модели
Презентация: (PDF, 1,9 МБ) — обновление 07.04.2017.
Мультиязычные тематические модели.
- Параллельные и сравнимые коллекции.
- Регуляризаторы для учёта двуязычных словарей.
- Кросс-язычный информационный поиск.
Иерархические модели.
- Иерархические модели. Регуляризаторы для построения иерархий.
- Оценивание качества и визуализация тематических иерархий.
Трёхматричные и гиперграфовые модели.
- Модели трёхматричных разложений. Понятие порождающей модальности.
- Автор-тематическая модель (author-topic model).
- Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
- Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.
Тематические модели совстречаемости слов
Презентация: (PDF, ?,? МБ) — обновление ??.04.2017.
Мультиграммные модели.
- Модель BigramTM.
- Модель Topical N-grams (TNG).
- Мультимодальная мультиграммная модель.
Автоматическое выделение терминов.
- Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
- Статистические критерии выделения коллокаций.
- Критерии тематичности мультиграмм.
Тематические модели дистрибутивной семантики.
- Дистрибутивная гипотеза.
- Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
- Модель всплесков BBTM (Bursty Biterm Topic Model).
- Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
- Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
- Регуляризаторы когерентности.
Дополнительный материал:
- Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.
Тематическая сегментация и суммаризация
Презентация: (PDF, ?,? МБ) — обновление ??.04.2017.
Тематические модели сегментированного текста.
- Модель коротких сообщений Twitter-LDA.
- Трёхматричные разложения для сегментированного текста.
- Контекстная документная кластеризация (CDC).
- Метод лексических цепочек.
Позиционный регуляризатор в ARTM.
- Пост-обработка Е-шага. Формулы М-шага. Интерпретация текста как пучка временных рядов.
- Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.
- Модель монотематичных предложений.
- Тематические модели сегментации. Критерии определения границ сегментов.
Модели тематической суммаризации
- Аннотирование документа и суммаризация коллекции.
- Критерии отбора фрагментов.
- Задача суммаризации темы.
Обзор задач и моделей
Презентация: (PDF, 8,3 МБ) — обновление 27.02.2016.
Обзор задач и моделей.
- Разновидности тематических моделей.
- Средства визуализации тематических моделей.
- Разведочный информационный поиск (exploratory search) и требования к тематическим моделям. Видео.
Примеры приложений тематического моделирования.
- Задача поиска релевантных тем в социальных сетях и новостных потоках.
- Динамическая модель коллекции пресс-релизов.
- Разведочный поиск в коллективном блоге.
- Сценарный анализ записей разговоров контактного центра.
- Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. Видео.
- Информационный анализ электрокардиосигналов для скрининговой диагностики.
Инициализация, траектория регуляризации, тесты адекватности
Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016.
Инициализация.
- Случайная инициализация. Инициализация по документам.
- Контекстная документная кластеризация.
- Поиск якорных слов. Алгоритм Ароры.
Траектория регуляризации.
- Задача оптимизации трактории в пространстве коэффициентов регуляризации.
- Относительные коэффициенты регуляризации.
- Пространство коэффициентов регуляризации и пространство метрик качества. Регрессионная связь между ними. Инкрементная регрессия.
- Подходы к скаляризации критериев.
- Обучение с подкреплением. Контекстный многорукий бандит. Верхние доверительные границы (UCB).
Тесты адекватности.
- Статистические тесты условной независимости. Методология проверки статистических гипотез. Критерий согласия хи-квадрат Пирсона.
- Проблема разреженности распределения. Эксперименты, показывающие неадекватность асимптотического распределения статистики хи-квадрат.
- Статистики модифицированного хи-квадрат, Кульбака-Лейблера, Хеллингера.
- Обобщённое семейство статистик Кресси-Рида.
- Эмпирическое оценивание квантилей распределения статистики Кресси-Рида.
- Применения теста условной независимости для поиска плохо смоделированных тем, документов, терминов. Поиск тем для расщепления.
Обзор оценок качества тематических моделей
Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016.
- Внутренние и внешние критерии качества.
- Перплексия и правдоподобие. Интерпретация перплекcии. Перплексия контрольной коллекции. Проблема новых слов в контрольной коллекции. Проблема сравнения моделей с разными словарями. Относительная перплексия.
Оценивание качества темы.
- Лексическое ядро темы: множество типичных терминов темы.
- Чистота и контрастность темы
- Документное ядро темы: множество типичных документов темы.
- Однородность темы: распределение расстояний между p(w|t) и p(w|t,d).
- Конфликтность темы: близость темы к другим темам.
- Интерпретируемость темы: экспертные оценки, метод интрузий, когерентность. Взрыв интерпретируемости в n-граммных моделях.
Устойчивость и полнота.
- Эксперименты по оцениванию устойчивости, интерпретируемости и полноты.
- Построение выпуклых оболочек тем и фильтрация зависимых тем в сериях тематических моделей.
Критерии качества классификации и ранжирования.
- Полнота, точность и F-мера в задачах классификации и ранжирования.
- Критерии качества ранжирования: MAP, DCG, NDCG.
- Оценка качества тематического поиска документов по их длинным фрагментам.
Литература
Основная литература
- Воронцов К.В. Тематическое моделирование в BigARTM: теория, алгоритмы, приложения. Voron-2015-BigARTM.pdf.
- Воронцов К.В. Лекции по тематическому моделированию. Voron-2013-ptm.pdf.
- Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. Русский перевод
Дополнительная литература
- Воронцов К. В., Потапенко А. А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — T. 1, № 6. — С. 657–686.
- Воронцов К. В., Фрей А. И., Ромов П. А., Янина А. О., Суворова М. А., Апишев М. А. BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций // Аналитика и управление данными в областях с интенсивным использованием данных. XVII Международная конференция DAMDID/RCDL’2015, Обнинск, 13-16 октября 2015.
- Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011.
- Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
- Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
- Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. — MIT Press, 2006. — Vol. 19. — Pp. 241–248.
- Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
- Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. of the Royal Statistical Society, Series B. — 1977. — no. 34. — Pp. 1–38.
- Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
- Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864.
- Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
- Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37.
- Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Advances in Neural Information Processing Systems 22 / Ed. by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, A. Culotta. — 2009. — Pp. 1973–1981.
Ссылки
- Тематическое моделирование
- Аддитивная регуляризация тематических моделей
- Коллекции документов для тематического моделирования
- BigARTM
- Видеозапись лекции на ТМШ, 19 июня 2015
Подстраницы
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2015 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2016 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2017 |
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2018 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМК | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2020 |
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2021 |