Вероятностные тематические модели (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
 (оформление)  | 
				 (двухуровневая реструктуризация)  | 
			||
| Строка 15: | Строка 15: | ||
== Введение ==  | == Введение ==  | ||
Презентация: [[Media:Voron-PTM-1.pdf|(PDF, 0,6 МБ)]] {{важно|— обновление 27.02.2016}}.  | Презентация: [[Media:Voron-PTM-1.pdf|(PDF, 0,6 МБ)]] {{важно|— обновление 27.02.2016}}.  | ||
| + | '''Цели и задачи тематического моделирования.'''  | ||
* Понятие «темы», цели и задачи тематического моделирования. Основные предположения. Гипотеза «мешка слов». Методы предварительной обработки текстов.     | * Понятие «темы», цели и задачи тематического моделирования. Основные предположения. Гипотеза «мешка слов». Методы предварительной обработки текстов.     | ||
* Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости. [[Порождающая модель]] документа как вероятностной смеси тем.   | * Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости. [[Порождающая модель]] документа как вероятностной смеси тем.   | ||
* Постановка обратной задачи восстановления параметров модели по данным.   | * Постановка обратной задачи восстановления параметров модели по данным.   | ||
| + | '''Математический инструментарий.'''  | ||
| + | * [[Метод наибольшего правдоподобия|Принцип максимума правдоподобия]].   | ||
| + | * [[Условия Каруша–Куна–Таккера]].   | ||
| + | * Униграммные модели коллекции и документа.   | ||
| + | '''Тематическая модель PLSA.'''  | ||
* [[Вероятностный латентный семантический анализ]] (PLSA).   | * [[Вероятностный латентный семантический анализ]] (PLSA).   | ||
| - | |||
* Теорема о необходимых условиях максимума правдоподобия для модели PLSA.  | * Теорема о необходимых условиях максимума правдоподобия для модели PLSA.  | ||
* ЕМ-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.    | * ЕМ-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.    | ||
| Строка 26: | Строка 31: | ||
== Обзор задач и моделей ==  | == Обзор задач и моделей ==  | ||
Презентация: [[Media:Voron-PTM-2.pdf|(PDF, 8,3 МБ)]] {{важно|— обновление 27.02.2016}}.  | Презентация: [[Media:Voron-PTM-2.pdf|(PDF, 8,3 МБ)]] {{важно|— обновление 27.02.2016}}.  | ||
| + | '''Обзор моделей и задачи разведочного информационного поиска.'''  | ||
* Разновидности тематических моделей.  | * Разновидности тематических моделей.  | ||
* Средства визуализации тематических моделей.  | * Средства визуализации тематических моделей.  | ||
* Разведочный информационный поиск и требования к тематическим моделям.  | * Разведочный информационный поиск и требования к тематическим моделям.  | ||
| + | '''Примеры приложений тематического моделирования.'''  | ||
* Задача поиска релевантных тем в социальных сетях.   | * Задача поиска релевантных тем в социальных сетях.   | ||
* Применение тематического моделирования для [[Технология информационного анализа электрокардиосигналов|информационного анализа электрокардиосигналов]].  | * Применение тематического моделирования для [[Технология информационного анализа электрокардиосигналов|информационного анализа электрокардиосигналов]].  | ||
* Динамическая модель коллекции пресс-релизов.   | * Динамическая модель коллекции пресс-релизов.   | ||
| - | * Проект [[BigARTM]].   | + | '''BigARTM.'''  | 
| + | * Проект [[BigARTM]]. Функциональные возможности и основные идеи.   | ||
* Открытые проблемы и направления исследований.   | * Открытые проблемы и направления исследований.   | ||
== Латентное размещение Дирихле  ==  | == Латентное размещение Дирихле  ==  | ||
Презентация: [[Media:Voron-PTM-3.pdf|(PDF, 1,9 МБ)]] {{важно|— обновление 04.03.2016}}.  | Презентация: [[Media:Voron-PTM-3.pdf|(PDF, 1,9 МБ)]] {{важно|— обновление 04.03.2016}}.  | ||
| + | '''Модель LDA.'''  | ||
* Задача тематического моделирования как некорректно поставленная задача стохастического матричного разложения.  | * Задача тематического моделирования как некорректно поставленная задача стохастического матричного разложения.  | ||
| - | * [[Латентное размещение Дирихле]] (LDA). Некоторые свойства [[Распределение Дирихле|распределения Дирихле]].  | + | * [[Латентное размещение Дирихле]] (LDA).   | 
| + | * Некоторые свойства [[Распределение Дирихле|распределения Дирихле]].  | ||
* Теорема о необходимом условии максимума апостериорной вероятности для LDA.   | * Теорема о необходимом условии максимума апостериорной вероятности для LDA.   | ||
* Сравнение EM-алгоритма для LDA и PLSA.  | * Сравнение EM-алгоритма для LDA и PLSA.  | ||
* Алгоритм сэмплирования Гиббса.   | * Алгоритм сэмплирования Гиббса.   | ||
| + | '''Робастная тематическая модель.'''  | ||
* Модель SWB с фоном и шумом. Робастная тематическая модель.   | * Модель SWB с фоном и шумом. Робастная тематическая модель.   | ||
* Модель LDA не снижает переобучение, а лишь точнее описывает вероятности редких слов.   | * Модель LDA не снижает переобучение, а лишь точнее описывает вероятности редких слов.   | ||
| + | '''Эксперименты по неустойчивости PLSA и LDA.'''  | ||
* Способы измерения расстояния между дискретными распределениями. [[Дивергенция Кульбака-Лейблера]].      | * Способы измерения расстояния между дискретными распределениями. [[Дивергенция Кульбака-Лейблера]].      | ||
* Эксперименты на синтетических данных: демонстрация неустойчивости PLSA и LDA.   | * Эксперименты на синтетических данных: демонстрация неустойчивости PLSA и LDA.   | ||
| Строка 50: | Строка 62: | ||
== Аддитивная регуляризация тематических моделей ==  | == Аддитивная регуляризация тематических моделей ==  | ||
Презентация: [[Media:Voron-PTM-4.pdf|(PDF, 1,7 МБ)]] {{важно|— обновление 11.03.2016}}.  | Презентация: [[Media:Voron-PTM-4.pdf|(PDF, 1,7 МБ)]] {{важно|— обновление 11.03.2016}}.  | ||
| + | '''Регуляризационный подход ARTM'''   | ||
* [[Аддитивная регуляризация тематических моделей]]. Линейные композиции регуляризаторов.   | * [[Аддитивная регуляризация тематических моделей]]. Линейные композиции регуляризаторов.   | ||
* Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.  | * Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.  | ||
* Мультимодальная ARTM. Виды модальностей и примеры прикладных задач.  | * Мультимодальная ARTM. Виды модальностей и примеры прикладных задач.  | ||
* Теорема о необходимом условии максимума регуляризованного правдоподобия для мультимодальной ARTM.  | * Теорема о необходимом условии максимума регуляризованного правдоподобия для мультимодальной ARTM.  | ||
| + | '''EM-алгоритм.'''   | ||
* Оффлайновый регуляризованный EM-алгоритм.   | * Оффлайновый регуляризованный EM-алгоритм.   | ||
* Онлайновый регуляризованный EM-алгоритм. Разделение коллекции на пакеты документов.  | * Онлайновый регуляризованный EM-алгоритм. Разделение коллекции на пакеты документов.  | ||
| - | * Обзор возможностей библиотеки BigARTM. Установка, подготовка данных, создание модели, оценивание модели.   | + | '''Использование BigARTM.'''  | 
| + | * Обзор возможностей библиотеки BigARTM.   | ||
| + | * Установка, подготовка данных, создание модели, оценивание модели.   | ||
'''Литература:'''   | '''Литература:'''   | ||
| Строка 63: | Строка 79: | ||
== Регуляризаторы I ==  | == Регуляризаторы I ==  | ||
Презентация: [[Media:Voron-PTM-5.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.  | Презентация: [[Media:Voron-PTM-5.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.  | ||
| + | '''Базовые регуляризаторы.'''  | ||
* Регуляризаторы сглаживания и разреживания. Частичное обучение как разновидность сглаживания.  | * Регуляризаторы сглаживания и разреживания. Частичное обучение как разновидность сглаживания.  | ||
* Разделение тем на предметные и фоновые. Автоматическое выделение стоп-слов.   | * Разделение тем на предметные и фоновые. Автоматическое выделение стоп-слов.   | ||
* Регуляризатор декоррелирования тем.  | * Регуляризатор декоррелирования тем.  | ||
| - | * Регуляризатор отбора тем. Эффект отбрасывания малых, дублирующих и линейно зависимых тем. Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).    | + | '''Определение числа тем.'''  | 
| - | * Критерии качества тематических моделей: перплексия, когерентность, чистота и контрастность тем. Эксперименты с композициями разреживания, сглаживания, декоррелирования и отбора тем.    | + | * Регуляризатор отбора тем.   | 
| + | * Эффект отбрасывания малых, дублирующих и линейно зависимых тем.   | ||
| + | * Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).    | ||
| + | '''Оценивание качества и первые эксперименты с ARTM.'''  | ||
| + | * Критерии качества тематических моделей: перплексия, когерентность, чистота и контрастность тем.   | ||
| + | * Эксперименты с композициями разреживания, сглаживания, декоррелирования и отбора тем.    | ||
| + | '''Использование BigARTM.'''  | ||
* Использование регуляризаторов и измерителей в BigARTM.   | * Использование регуляризаторов и измерителей в BigARTM.   | ||
* Комбинирование регуляризаторов для решения практических задач в BigARTM.   | * Комбинирование регуляризаторов для решения практических задач в BigARTM.   | ||
| Строка 79: | Строка 102: | ||
== Регуляризаторы II ==  | == Регуляризаторы II ==  | ||
Презентация: [[Media:Voron-PTM-6.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.  | Презентация: [[Media:Voron-PTM-6.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.  | ||
| + | '''Связи и корреляции.'''  | ||
* Регуляризаторы для регрессии и классификации на текстах.   | * Регуляризаторы для регрессии и классификации на текстах.   | ||
* Регуляризатор CTM (Correlated Topic Model).  | * Регуляризатор CTM (Correlated Topic Model).  | ||
* Регуляризатор для учёта гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.   | * Регуляризатор для учёта гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.   | ||
| + | * Регуляризаторы для анализа социальных сетей и выделения тематических сообществ.   | ||
| + | '''Время и пространство.'''  | ||
* Регуляризаторы времени для темпоральных тематических моделей. Разреживание тем в каждый момент времени. Сглаживание темы как временного ряда. Эксперименты на коллекции пресс-релизов.   | * Регуляризаторы времени для темпоральных тематических моделей. Разреживание тем в каждый момент времени. Сглаживание темы как временного ряда. Эксперименты на коллекции пресс-релизов.   | ||
* Вывод M-шага для негладкого регуляризатора.   | * Вывод M-шага для негладкого регуляризатора.   | ||
* Регуляризаторы геолокации для пространственных тематических моделей.   | * Регуляризаторы геолокации для пространственных тематических моделей.   | ||
| - | *   | + | '''Использование BigARTM.'''  | 
| + | * Как написать свой регуляризатор в BigARTM.  | ||
== Мультимодальные тематические модели ==  | == Мультимодальные тематические модели ==  | ||
Презентация: [[Media:Voron-PTM-7.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.  | Презентация: [[Media:Voron-PTM-7.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.  | ||
| + | '''Двухматричные разложения.'''  | ||
* Тематическая модель классификации. Пример: [[Технология информационного анализа электрокардиосигналов]].   | * Тематическая модель классификации. Пример: [[Технология информационного анализа электрокардиосигналов]].   | ||
* Мультиязычные тематические модели. Параллельные и сравнимые коллекции. Регуляризаторы для учёта двуязычных словарей.   | * Мультиязычные тематические модели. Параллельные и сравнимые коллекции. Регуляризаторы для учёта двуязычных словарей.   | ||
* Мультиграммные модели. Биграммы и битермы.   | * Мультиграммные модели. Биграммы и битермы.   | ||
| + | '''Многоматричные разложения.'''  | ||
* Модели трёхматричных разложений. Понятие порождающей модальности.   | * Модели трёхматричных разложений. Понятие порождающей модальности.   | ||
* Автор-тематическая модель (author-topic model).  | * Автор-тематическая модель (author-topic model).  | ||
| Строка 97: | Строка 126: | ||
* Тематическая модель текста и изображений. Задача аннотирования изображений.   | * Тематическая модель текста и изображений. Задача аннотирования изображений.   | ||
* Модель для выделения поведений объектов в видеопотоке.    | * Модель для выделения поведений объектов в видеопотоке.    | ||
| - | + | '''Гиперграфовая модель.'''  | |
| + | * Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.  | ||
* Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.  | * Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.  | ||
== Лингвистические тематические модели ==  | == Лингвистические тематические модели ==  | ||
Презентация: [[Media:Voron-PTM-8.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.  | Презентация: [[Media:Voron-PTM-8.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.  | ||
| - | + | '''Мультиграммные тематические модели.'''  | |
| - | + | * Биграммная тематическая модель.   | |
| + | '''Автоматическое извлечение терминов.'''  | ||
| + | * Задача редукции словаря (vocabulary reduction). Словарные лингвистические ресурсы.   | ||
* Синтаксическая, статистическая и тематическая фильтрация фраз.   | * Синтаксическая, статистическая и тематическая фильтрация фраз.   | ||
* Морфологический и микро-синтаксический анализ текста для первичной фильтрации фраз.   | * Морфологический и микро-синтаксический анализ текста для первичной фильтрации фраз.   | ||
| Строка 109: | Строка 141: | ||
* Тематическая фильтрация фраз.  | * Тематическая фильтрация фраз.  | ||
* Методы оценивания качества фильтрации.   | * Методы оценивания качества фильтрации.   | ||
| - | * Когерентность как мера интерпретируемости униграммных моделей. Регуляризатор когерентности.   | + | '''Совстречаемость слов.'''  | 
| + | * Способы оценивания совместной встречаемости слов. Поточечная взаимная информация.   | ||
| + | * Эксперименты, показывающие связь когерентности и интерпретируемости.  | ||
| + | * Когерентность как мера интерпретируемости униграммных моделей.   | ||
| + | * Регуляризатор когерентности.   | ||
| + | '''Модели дистрибутивной семантики.'''  | ||
| + | * Векторные модели слов (word embedding).  | ||
* Векторная модель word2vec и её интерпретация как латентной модели с матричным разложением.   | * Векторная модель word2vec и её интерпретация как латентной модели с матричным разложением.   | ||
* Гибрид тематической модели и векторной модели word2vec.  | * Гибрид тематической модели и векторной модели word2vec.  | ||
| Строка 117: | Строка 155: | ||
== Сегментация, аннотирование, суммаризация, именование тем ==  | == Сегментация, аннотирование, суммаризация, именование тем ==  | ||
Презентация: [[Media:Voron-PTM-9.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.  | Презентация: [[Media:Voron-PTM-9.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.  | ||
| - | + | '''Позиционный регуляризатор в ARTM.'''  | |
| + | * Пост-обработка Е-шага. Формулы М-шага. Разреживание распределения p(t|d,w).   | ||
* Интерпретация текста как пучка временных рядов. Задача разладки. Алгоритмы K-сегментации.  | * Интерпретация текста как пучка временных рядов. Задача разладки. Алгоритмы K-сегментации.  | ||
| + | '''Тематическая сегментация.'''  | ||
* Тематические модели сегментации (segmentation topic model).   | * Тематические модели сегментации (segmentation topic model).   | ||
* Тематические модели предложений (sentence topic model).    | * Тематические модели предложений (sentence topic model).    | ||
| + | '''Аннотирование и суммаризация.'''  | ||
* Аннотирование документа. Выделение тематичных слов и фраз (предложений). Оценка ценности фразы.   | * Аннотирование документа. Выделение тематичных слов и фраз (предложений). Оценка ценности фразы.   | ||
| + | * Суммаризация текстовой коллекции.   | ||
* Суммаризация темы. Кластеризация и ранжирование тематичных фраз.   | * Суммаризация темы. Кластеризация и ранжирование тематичных фраз.   | ||
* Автоматическое именование темы (topic labeling).  | * Автоматическое именование темы (topic labeling).  | ||
| Строка 156: | Строка 198: | ||
* Однородность темы: распределение расстояний между p(w|t) и p(w|t,d).   | * Однородность темы: распределение расстояний между p(w|t) и p(w|t,d).   | ||
* Конфликтность темы: близость темы к другим темам.  | * Конфликтность темы: близость темы к другим темам.  | ||
| - | + | * Интерпретируемость темы: экспертные оценки, метод интрузий, когерентность. Взрыв интерпретируемости в n-граммных моделях.   | |
| - | *   | + | |
| - | + | ||
| - | + | ||
'''Устойчивость и полнота.'''  | '''Устойчивость и полнота.'''  | ||
* Эксперименты по оцениванию устойчивости, интерпретируемости и полноты.   | * Эксперименты по оцениванию устойчивости, интерпретируемости и полноты.   | ||
* Построение выпуклых оболочек тем и фильтрация зависимых тем в сериях тематических моделей.   | * Построение выпуклых оболочек тем и фильтрация зависимых тем в сериях тематических моделей.   | ||
| - | |||
| - | |||
| - | |||
| - | |||
'''Критерии качества классификации и ранжирования.'''   | '''Критерии качества классификации и ранжирования.'''   | ||
* Полнота, точность и F-мера в задачах классификации и ранжирования.   | * Полнота, точность и F-мера в задачах классификации и ранжирования.   | ||
Версия 09:10, 13 марта 2016
Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.
В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Развивается многокритериальный подход к решению некорректно поставленной задачи стохастического матричного разложения — аддитивная регуляризация тематических моделей. Рассматриваются свойства интерпретируемости, устойчивости и полноты тематических моделей, а также способы их измерения. Рассматриваются прикладные задачи классификации и категоризации текстов, информационного поиска, персонализации и рекомендательных систем. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных.
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.
Программа курса
Условием сдачи спецкурса является выполнение индивидуальных практических заданий.
- Файл с описанием заданий: voron-2016-task-PTM.pdf
 
Введение
Презентация: (PDF, 0,6 МБ) — обновление 27.02.2016. Цели и задачи тематического моделирования.
- Понятие «темы», цели и задачи тематического моделирования. Основные предположения. Гипотеза «мешка слов». Методы предварительной обработки текстов.
 - Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости. Порождающая модель документа как вероятностной смеси тем.
 - Постановка обратной задачи восстановления параметров модели по данным.
 
Математический инструментарий.
- Принцип максимума правдоподобия.
 - Условия Каруша–Куна–Таккера.
 - Униграммные модели коллекции и документа.
 
Тематическая модель PLSA.
- Вероятностный латентный семантический анализ (PLSA).
 - Теорема о необходимых условиях максимума правдоподобия для модели PLSA.
 - ЕМ-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
 - Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).
 
Обзор задач и моделей
Презентация: (PDF, 8,3 МБ) — обновление 27.02.2016. Обзор моделей и задачи разведочного информационного поиска.
- Разновидности тематических моделей.
 - Средства визуализации тематических моделей.
 - Разведочный информационный поиск и требования к тематическим моделям.
 
Примеры приложений тематического моделирования.
- Задача поиска релевантных тем в социальных сетях.
 - Применение тематического моделирования для информационного анализа электрокардиосигналов.
 - Динамическая модель коллекции пресс-релизов.
 
BigARTM.
- Проект BigARTM. Функциональные возможности и основные идеи.
 - Открытые проблемы и направления исследований.
 
Латентное размещение Дирихле
Презентация: (PDF, 1,9 МБ) — обновление 04.03.2016. Модель LDA.
- Задача тематического моделирования как некорректно поставленная задача стохастического матричного разложения.
 - Латентное размещение Дирихле (LDA).
 - Некоторые свойства распределения Дирихле.
 - Теорема о необходимом условии максимума апостериорной вероятности для LDA.
 - Сравнение EM-алгоритма для LDA и PLSA.
 - Алгоритм сэмплирования Гиббса.
 
Робастная тематическая модель.
- Модель SWB с фоном и шумом. Робастная тематическая модель.
 - Модель LDA не снижает переобучение, а лишь точнее описывает вероятности редких слов.
 
Эксперименты по неустойчивости PLSA и LDA.
- Способы измерения расстояния между дискретными распределениями. Дивергенция Кульбака-Лейблера.
 - Эксперименты на синтетических данных: демонстрация неустойчивости PLSA и LDA.
 - Эксперименты по неустойчивости LDA на текстовых коллекциях социальных сетей.
 
Аддитивная регуляризация тематических моделей
Презентация: (PDF, 1,7 МБ) — обновление 11.03.2016. Регуляризационный подход ARTM
- Аддитивная регуляризация тематических моделей. Линейные композиции регуляризаторов.
 - Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
 - Мультимодальная ARTM. Виды модальностей и примеры прикладных задач.
 - Теорема о необходимом условии максимума регуляризованного правдоподобия для мультимодальной ARTM.
 
EM-алгоритм.
- Оффлайновый регуляризованный EM-алгоритм.
 - Онлайновый регуляризованный EM-алгоритм. Разделение коллекции на пакеты документов.
 
Использование BigARTM.
- Обзор возможностей библиотеки BigARTM.
 - Установка, подготовка данных, создание модели, оценивание модели.
 
Литература:
- Потапенко А. А. Отчет по серии экспериментов с онлайновым алгоритмом. 2013.
 
Регуляризаторы I
Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016. Базовые регуляризаторы.
- Регуляризаторы сглаживания и разреживания. Частичное обучение как разновидность сглаживания.
 - Разделение тем на предметные и фоновые. Автоматическое выделение стоп-слов.
 - Регуляризатор декоррелирования тем.
 
Определение числа тем.
- Регуляризатор отбора тем.
 - Эффект отбрасывания малых, дублирующих и линейно зависимых тем.
 - Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).
 
Оценивание качества и первые эксперименты с ARTM.
- Критерии качества тематических моделей: перплексия, когерентность, чистота и контрастность тем.
 - Эксперименты с композициями разреживания, сглаживания, декоррелирования и отбора тем.
 
Использование BigARTM.
- Использование регуляризаторов и измерителей в BigARTM.
 - Комбинирование регуляризаторов для решения практических задач в BigARTM.
 
Байесовские тематические модели
- EM-алгоритм.
 - Вариационный байесовский вывод.
 - Семплирование Гиббса.
 - Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.
 
Регуляризаторы II
Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016. Связи и корреляции.
- Регуляризаторы для регрессии и классификации на текстах.
 - Регуляризатор CTM (Correlated Topic Model).
 - Регуляризатор для учёта гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
 - Регуляризаторы для анализа социальных сетей и выделения тематических сообществ.
 
Время и пространство.
- Регуляризаторы времени для темпоральных тематических моделей. Разреживание тем в каждый момент времени. Сглаживание темы как временного ряда. Эксперименты на коллекции пресс-релизов.
 - Вывод M-шага для негладкого регуляризатора.
 - Регуляризаторы геолокации для пространственных тематических моделей.
 
Использование BigARTM.
- Как написать свой регуляризатор в BigARTM.
 
Мультимодальные тематические модели
Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016. Двухматричные разложения.
- Тематическая модель классификации. Пример: Технология информационного анализа электрокардиосигналов.
 - Мультиязычные тематические модели. Параллельные и сравнимые коллекции. Регуляризаторы для учёта двуязычных словарей.
 - Мультиграммные модели. Биграммы и битермы.
 
Многоматричные разложения.
- Модели трёхматричных разложений. Понятие порождающей модальности.
 - Автор-тематическая модель (author-topic model).
 - Иерархические модели. Оценивание качества тематических иерархий.
 - Тематическая модель текста и изображений. Задача аннотирования изображений.
 - Модель для выделения поведений объектов в видеопотоке.
 
Гиперграфовая модель.
- Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
 - Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.
 
Лингвистические тематические модели
Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016. Мультиграммные тематические модели.
- Биграммная тематическая модель.
 
Автоматическое извлечение терминов.
- Задача редукции словаря (vocabulary reduction). Словарные лингвистические ресурсы.
 - Синтаксическая, статистическая и тематическая фильтрация фраз.
 - Морфологический и микро-синтаксический анализ текста для первичной фильтрации фраз.
 - Статистическая фильтрация фраз. Критерий коллокации CValue. Совмещение критериев TF-IDF и CValue.
 - Тематическая фильтрация фраз.
 - Методы оценивания качества фильтрации.
 
Совстречаемость слов.
- Способы оценивания совместной встречаемости слов. Поточечная взаимная информация.
 - Эксперименты, показывающие связь когерентности и интерпретируемости.
 - Когерентность как мера интерпретируемости униграммных моделей.
 - Регуляризатор когерентности.
 
Модели дистрибутивной семантики.
- Векторные модели слов (word embedding).
 - Векторная модель word2vec и её интерпретация как латентной модели с матричным разложением.
 - Гибрид тематической модели и векторной модели word2vec.
 - Связь word2vec с регуляризатором когерентности.
 - Эксперименты с гибридной моделью W2V-TM.
 
Сегментация, аннотирование, суммаризация, именование тем
Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016. Позиционный регуляризатор в ARTM.
- Пост-обработка Е-шага. Формулы М-шага. Разреживание распределения p(t|d,w).
 - Интерпретация текста как пучка временных рядов. Задача разладки. Алгоритмы K-сегментации.
 
Тематическая сегментация.
- Тематические модели сегментации (segmentation topic model).
 - Тематические модели предложений (sentence topic model).
 
Аннотирование и суммаризация.
- Аннотирование документа. Выделение тематичных слов и фраз (предложений). Оценка ценности фразы.
 - Суммаризация текстовой коллекции.
 - Суммаризация темы. Кластеризация и ранжирование тематичных фраз.
 - Автоматическое именование темы (topic labeling).
 
Инициализация, траектории регуляризации, адекватность модели
Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016.
Инициализация.
- Случайная инициализация. Инициализация по документам.
 - Контекстная документная кластеризация.
 - Поиск якорных слов. Алгоритм Ароры.
 
Траектория регуляризации.
- Задача оптимизации трактории в пространстве коэффициентов регуляризации.
 - Относительные коэффициенты регуляризации.
 - Пространство коэффициентов регуляризации и пространство метрик качества. Регрессионная связь между ними. Инкрементная регрессия.
 - Подходы к скаляризации критериев.
 - Обучение с подкреплением. Контекстный многорукий бандит. Верхние доверительные границы (UCB).
 
Тесты адекватности.
- Статистические тесты условной независимости. Методология проверки статистических гипотез. Критерий согласия хи-квадрат Пирсона.
 - Проблема разреженности распределения. Эксперименты, показывающие неадекватность асимптотического распределения статистики хи-квадрат.
 - Статистики модифицированного хи-квадрат, Кульбака-Лейблера, Хеллингера.
 - Обобщённое семейство статистик Кресси-Рида.
 - Эмпирическое оценивание квантилей распределения статистики Кресси-Рида.
 - Применения теста условной независимости для поиска плохо смоделированных тем, документов, терминов. Поиск тем для расщепления.
 
Обзор оценок качества тематических моделей
Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016.
- Внутренние и внешние критерии качества.
 - Перплексия и правдоподобие. Интерпретация перплекcии. Перплексия контрольной коллекции. Проблема новых слов в контрольной коллекции. Проблема сравнения моделей с разными словарями. Относительная перплексия.
 
Оценивание качества темы.
- Лексическое ядро темы: множество типичных терминов темы.
 - Чистота и контрастность темы
 - Документное ядро темы: множество типичных документов темы.
 - Однородность темы: распределение расстояний между p(w|t) и p(w|t,d).
 - Конфликтность темы: близость темы к другим темам.
 - Интерпретируемость темы: экспертные оценки, метод интрузий, когерентность. Взрыв интерпретируемости в n-граммных моделях.
 
Устойчивость и полнота.
- Эксперименты по оцениванию устойчивости, интерпретируемости и полноты.
 - Построение выпуклых оболочек тем и фильтрация зависимых тем в сериях тематических моделей.
 
Критерии качества классификации и ранжирования.
- Полнота, точность и F-мера в задачах классификации и ранжирования.
 - Критерии качества ранжирования: MAP, DCG, NDCG.
 - Оценка качества тематического поиска документов по их длинным фрагментам.
 
Литература
Основная литература
- Воронцов К.В. Тематическое моделирование в BigARTM: теория, алгоритмы, приложения. Voron-2015-BigARTM.pdf.
 - Воронцов К.В. Лекции по тематическому моделированию. Voron-2013-ptm.pdf.
 - Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. Русский перевод
 
Дополнительная литература
- Воронцов К. В., Потапенко А. А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — T. 1, № 6. — С. 657–686.
 - Воронцов К. В., Фрей А. И., Ромов П. А., Янина А. О., Суворова М. А., Апишев М. А. BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций // Аналитика и управление данными в областях с интенсивным использованием данных. XVII Международная конференция DAMDID/RCDL’2015, Обнинск, 13-16 октября 2015.
 - Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011.
 - Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
 - Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
 - Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. — MIT Press, 2006. — Vol. 19. — Pp. 241–248.
 - Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
 - Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. of the Royal Statistical Society, Series B. — 1977. — no. 34. — Pp. 1–38.
 - Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
 - Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864.
 - Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
 - Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37.
 - Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Advances in Neural Information Processing Systems 22 / Ed. by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, A. Culotta. — 2009. — Pp. 1973–1981.
 
Ссылки
- Тематическое моделирование
 - Аддитивная регуляризация тематических моделей
 - Коллекции документов для тематического моделирования
 - BigARTM
 - Видеозапись лекции на ТМШ, 19 июня 2015
 
Подстраницы
| Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2015 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2016 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2017 | 
| Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2018 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМК | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2020 | 
| Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2021 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2024 | 

