Вероятностные тематические модели (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(обновление)
(уточнение, дополнение)
Строка 94: Строка 94:
* Многокритериальное оценивание качества модели
* Многокритериальное оценивание качества модели
* Определение числа тем и регуляризатор отбора тем
* Определение числа тем и регуляризатор отбора тем
 +
 +
'''Дополнительный материал:'''
 +
* Разведочный информационный поиск (exploratory search). '''[https://www.youtube.com/watch?v=frLW8UVp_Ik Видео]'''.
== Мультимодальные тематические модели ==
== Мультимодальные тематические модели ==
Строка 109: Строка 112:
* Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
* Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
* Регуляризаторы для выявления социальных ролей пользователей.
* Регуляризаторы для выявления социальных ролей пользователей.
-
<!---
 
-
'''Трёхматричные и гиперграфовые модели.'''
 
-
* Модели трёхматричных разложений. Понятие порождающей модальности.
 
-
* Автор-тематическая модель (author-topic model).
 
-
* Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
 
-
* Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.--->
 
== Тематические модели совстречаемости слов ==
== Тематические модели совстречаемости слов ==
Строка 127: Строка 124:
* Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
* Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
* Критерии тематичности фраз.
* Критерии тематичности фраз.
 +
* Комбинирование синтаксической, статистической и тематической фильтрации фраз.
'''Тематические модели дистрибутивной семантики.'''
'''Тематические модели дистрибутивной семантики.'''
* Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
* Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
Строка 138: Строка 136:
* ''Потапенко А. А.'' Векторные представления слов и документов. DataFest'4. [https://www.youtube.com/watch?v=KEXWC-ICH_Y '''Видео'''].
* ''Потапенко А. А.'' Векторные представления слов и документов. DataFest'4. [https://www.youtube.com/watch?v=KEXWC-ICH_Y '''Видео'''].
-
== Тематическая сегментация и суммаризация ==
+
== Тематическая сегментация ==
Презентация: [[Media:Voron18ptm-segm.pdf|(PDF,&nbsp;2,0&nbsp;МБ)]] {{важно|— обновление ??.??.2018}}.
Презентация: [[Media:Voron18ptm-segm.pdf|(PDF,&nbsp;2,0&nbsp;МБ)]] {{важно|— обновление ??.??.2018}}.
Строка 148: Строка 146:
* Метод TopicTiling. Критерии определения границ сегментов.
* Метод TopicTiling. Критерии определения границ сегментов.
* Критерии качества сегментации. Оптимизация параметров модели TopicTiling.
* Критерии качества сегментации. Оптимизация параметров модели TopicTiling.
 +
'''Позиционный регуляризатор в ARTM.'''
 +
* Регуляризация и пост-обработка Е-шага. Формулы М-шага.
 +
* Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.
 +
 +
== Визуализация и суммаризация тем ==
 +
Презентация: [[Media:Voron18ptm-vis.pdf|(PDF,&nbsp;?,?&nbsp;МБ)]] {{важно|— обновление ??.??.2018}}.
 +
 +
'''Средства визуализации тематических моделей.'''
 +
* Минимальные средства визуализации.
 +
* Визуализация темпоральных, иерархических, сегментирующих моделей.
 +
* Задача построения тематического спектра.
 +
* Визуализатор VisARTM.
'''Методы суммаризации текстов.'''
'''Методы суммаризации текстов.'''
* Автоматическая суммаризация текстов: задачи и подходы.
* Автоматическая суммаризация текстов: задачи и подходы.
Строка 153: Строка 163:
* Тематическая модель предложений для суммаризации.
* Тематическая модель предложений для суммаризации.
* Семейство критериев качества суммаризации ROUGE.
* Семейство критериев качества суммаризации ROUGE.
 +
'''Суммаризация и именование тем.'''
 +
* Суммаризация темы.
 +
* Автоматическое именование тем (topic labeling).
== Байесовское обучение тематических моделей ==
== Байесовское обучение тематических моделей ==
Строка 177: Строка 190:
* ''Потапенко А. А.'' [[Media:potapenko16BayesTM.pdf|Байесовское обучение тематических моделей]]. 2016.
* ''Потапенко А. А.'' [[Media:potapenko16BayesTM.pdf|Байесовское обучение тематических моделей]]. 2016.
 +
<!---
 +
* Определение числа тем и регуляризатор отбора тем
-
<!--Задача автоматического именования тем.-->
+
'''Трёхматричные и гиперграфовые модели.'''
-
<!--'''Позиционный регуляризатор в ARTM.'''
+
* Модели трёхматричных разложений. Понятие порождающей модальности.
-
* Пост-обработка Е-шага. Формулы М-шага. Интерпретация текста как пучка временных рядов.
+
* Автор-тематическая модель (author-topic model).
-
* Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.
+
* Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
-
-->
+
* Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.
-
<!---
 
== Примеры приложений тематического моделирования ==
== Примеры приложений тематического моделирования ==
Презентация: [[Media:Voron17ptm11.pdf|(PDF,&nbsp;3,3&nbsp;МБ)]] {{важно|— обновление 16.05.2017}}.
Презентация: [[Media:Voron17ptm11.pdf|(PDF,&nbsp;3,3&nbsp;МБ)]] {{важно|— обновление 16.05.2017}}.
-
* Разведочный информационный поиск (exploratory search). '''[https://www.youtube.com/watch?v=frLW8UVp_Ik Видео]'''.
 
-
* [[Технология информационного анализа электрокардиосигналов|Информационный анализ электрокардиосигналов]] для скрининговой диагностики.
 
-
* Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. '''[https://youtu.be/0q5p7xP4cdA?t=15168 Видео]'''.
 
-
 
-
== Обзор задач и моделей ==
 
-
Презентация: [[Media:Voron-PTM-2.pdf|(PDF,&nbsp;8,3&nbsp;МБ)]] {{важно|— обновление 27.02.2016}}.
 
-
 
-
'''Обзор задач и моделей.'''
 
-
* Разновидности тематических моделей.
 
-
* Средства визуализации тематических моделей.
 
-
* Разведочный информационный поиск (exploratory search) и требования к тематическим моделям. '''[https://www.youtube.com/watch?v=frLW8UVp_Ik Видео]'''.
 
'''Примеры приложений тематического моделирования.'''
'''Примеры приложений тематического моделирования.'''
* Задача поиска релевантных тем в социальных сетях и новостных потоках.
* Задача поиска релевантных тем в социальных сетях и новостных потоках.
Строка 247: Строка 250:
* Критерии качества ранжирования: MAP, DCG, NDCG.
* Критерии качества ранжирования: MAP, DCG, NDCG.
* Оценка качества тематического поиска документов по их длинным фрагментам.
* Оценка качества тематического поиска документов по их длинным фрагментам.
 +
 +
* Вывод M-шага для негладкого регуляризатора.
 +
* Тематическая модель текста и изображений. Задача аннотирования изображений.
 +
* Модель для выделения поведений объектов в видеопотоке.
-->
-->
Строка 252: Строка 259:
# ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]]. {{важно|— обновление 31.07.2017}}.
# ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]]. {{важно|— обновление 31.07.2017}}.
 +
# Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
# Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
# Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
# Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
# Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
-
# Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
 
# Янина А. О., Воронцов К. В. [http://jmlda.org/papers/doc/2016/no2/Ianina2016Multimodal.pdf Мультимодальные тематические модели для разведочного поиска в коллективном блоге] // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.
# Янина А. О., Воронцов К. В. [http://jmlda.org/papers/doc/2016/no2/Ianina2016Multimodal.pdf Мультимодальные тематические модели для разведочного поиска в коллективном блоге] // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.
 +
<!--
<!--
# ''Воронцов К.В.'' Тематическое моделирование в BigARTM: теория, алгоритмы, приложения. [[Media:Voron-2015-BigARTM.pdf|Voron-2015-BigARTM.pdf]].
# ''Воронцов К.В.'' Тематическое моделирование в BigARTM: теория, алгоритмы, приложения. [[Media:Voron-2015-BigARTM.pdf|Voron-2015-BigARTM.pdf]].
Строка 268: Строка 276:
# Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
# Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
# Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. of the Royal Statistical Society, Series B. — 1977. — no. 34. — Pp. 1–38.
# Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. of the Royal Statistical Society, Series B. — 1977. — no. 34. — Pp. 1–38.
-
# Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
 
# Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864.
# Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864.
 +
# Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
# Vorontsov K. V., Potapenko A. A. [[Media:Voron14mlj.pdf|Additive Regularization of Topic Models]] // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. [[Media:Voron14mlj-rus.pdf|Русский перевод]]
# Vorontsov K. V., Potapenko A. A. [[Media:Voron14mlj.pdf|Additive Regularization of Topic Models]] // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. [[Media:Voron14mlj-rus.pdf|Русский перевод]]
# Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. [[Media:Voron15cikm-tm.pdf|Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections]] // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37.
# Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. [[Media:Voron15cikm-tm.pdf|Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections]] // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37.
Строка 287: Строка 295:
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]
-
 
-
<!---
 
-
* Вывод M-шага для негладкого регуляризатора.
 
-
* Тематическая модель текста и изображений. Задача аннотирования изображений.
 
-
* Модель для выделения поведений объектов в видеопотоке.
 
-
 
-
'''Автоматическое извлечение терминов.'''
 
-
* Синтаксическая, статистическая и тематическая фильтрация фраз. Задача редукции словаря (vocabulary reduction).
 
-
* Морфологический и микро-синтаксический анализ текста для первичной фильтрации фраз.
 
-
* Статистическая фильтрация фраз. Критерий коллокации CValue. Совмещение критериев TF-IDF и CValue.
 
-
* Тематическая фильтрация фраз.
 
-
* Методы оценивания качества фильтрации.
 
-
 
-
'''Модели дистрибутивной семантики.'''
 
-
* Векторные модели слов (word embedding).
 
-
* Векторная модель word2vec и её интерпретация как латентной модели с матричным разложением.
 
-
* Гибрид тематической модели и векторной модели word2vec.
 
-
* Связь word2vec с регуляризатором когерентности.
 
-
* Эксперименты с гибридной моделью W2V-TM.
 
-
 
-
== Сегментация, аннотирование, суммаризация, именование тем ==
 
-
Презентация: [[Media:Voron-PTM-9.pdf|(PDF,&nbsp;Х,Х&nbsp;МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.
 
-
 
-
'''Тематическая сегментация.'''
 
-
* Тематические модели сегментации (segmentation topic model).
 
-
* Тематические модели предложений (sentence topic model).
 
-
'''Аннотирование и суммаризация.'''
 
-
* Аннотирование документа. Выделение тематичных слов и фраз (предложений). Оценка ценности фразы.
 
-
* Суммаризация текстовой коллекции.
 
-
* Суммаризация темы. Кластеризация и ранжирование тематичных фраз.
 
-
* Автоматическое именование тем (topic labeling).
 
-
--->
 

Версия 21:22, 30 марта 2018

Содержание

Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.

В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Тематическое моделирование рассматривается как ключевая математическая технология перспективных информационно-поисковых систем нового поколения, основанных на парадигме семантического разведочного поиска (exploratory search). Рассматриваются также прикладные задачи классификации, сегментации и суммаризации текстов, задачи анализа данных социальных сетей и рекомендательных систем. Развивается многокритериальный подход к построению композитных тематических моделей с заданными свойствами — аддитивная регуляризация тематических моделей (АРТМ). Он основан на регуляризации некорректно поставленных задач стохастического матричного разложения. Рассматриваются способы измерения и оптимизации важнейших свойств тематических моделей — правдоподобия, интерпретируемости, устойчивости, полноты. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных с помощью библиотеки тематического моделирования BigARTM.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.

Материалы для первого ознакомления:

Обзорная презентация: (PDF, 4,4 МБ) — обновление 14.03.2016.
Видеолекция на ПостНауке: Разведочный информационный поиск.

Основной материал:

Обзор вероятностных тематических моделей — обновление 14.07.2017.

Краткая ссылка на эту страницу: bit.ly/2EGWcjA.

Программа курса

Условием сдачи спецкурса является выполнение индивидуальных практических заданий.

Введение

Презентация: (PDF, 1,2 МБ) — обновление 15.02.2018.

Цели и задачи тематического моделирования.

  • Понятие «темы», цели и задачи тематического моделирования.
  • Основные предположения. Гипотеза «мешка слов» (bag-of-words). Методы предварительной обработки текстов.
  • Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости.
  • Порождающая модель документа как вероятностной смеси тем.
  • Упрощённая вероятностная модель текста и элементарное решение обратной задачи
  • Постановка обратной задачи восстановления параметров модели по данным.

Математический инструментарий.

Аддитивная регуляризация тематических моделей.

  • Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
  • EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
  • Вероятностный латентный семантический анализ (probabilistic latent semantic analysis, PLSA).
  • Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага). Оффлайновый регуляризованный EM-алгоритм.
  • Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
  • Библиотека BigARTM.

Обзор базовых инструментов

Александр Романенко, Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017.

Предварительная обработка текстов

  • Парсинг "сырых" данных.
  • Токенизация, стемминг и лемматизация.
  • Выделение энграмм.
  • Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.

Библиотека BigARTM

  • Методологические рекоммендации по проведению экспериментов.
  • Установка BigARTM.
  • Формат и импорт входных данных.
  • Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
  • Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.

Дополнительный материал:

  • Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
  • Видео — обновление 22.03.2017.
  • Воркшоп по BigARTM на DataFest'4. Видео.

Аддитивная регуляризация тематических моделей

Презентация: (PDF, 3,1 МБ) — обновление 15.03.2018.

Теория ARTM

  • Мультимодальные тематические модели
  • Регуляризаторы сглаживания и разреживания
  • Разделение тем на предметные и фоновые

Время и пространство

  • Регуляризаторы времени
  • Эксперименты на коллекции пресс-релизов
  • Гео-пространственные модели

Иерархические тематические модели

  • Нисходящая послойная стратегия
  • Оценивание качества тематических иерархий
  • Визуализация иерархии

Разведочный информационный поиск

Презентация: (PDF, 4,5 МБ) — обновление 15.03.2018.

Разведочный информационный поиск

  • Концепция разведочного поиска
  • Визуализация больших текстовых коллекций
  • Сценарий разведочного поиска

Эксперименты с тематическим поиском

  • Методика эксперимента
  • Построение тематической модели
  • Оптимизация гиперпараметров

Эксперименты с тематическими моделями

  • Измерение качества тематической модели
  • Многокритериальное оценивание качества модели
  • Определение числа тем и регуляризатор отбора тем

Дополнительный материал:

  • Разведочный информационный поиск (exploratory search). Видео.

Мультимодальные тематические модели

Презентация: (PDF, 1,4 МБ) — обновление 22.03.2018.

Мультиязычные тематические модели.

  • Параллельные и сравнимые коллекции.
  • Регуляризаторы для учёта двуязычных словарей.
  • Кросс-язычный информационный поиск.

Зависимости, корреляции, связи.

  • Тематические модели классификации и регрессии.
  • Модель коррелированных тем CTM (Correlated Topic Model).
  • Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.

Социальные сети.

  • Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
  • Регуляризаторы для выявления социальных ролей пользователей.

Тематические модели совстречаемости слов

Презентация: (PDF, 1,9 МБ) — обновление 29.03.2018.

Мультиграммные модели.

  • Модель BigramTM.
  • Модель Topical N-grams (TNG).
  • Мультимодальная мультиграммная модель.

Автоматическое выделение терминов.

  • Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
  • Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
  • Критерии тематичности фраз.
  • Комбинирование синтаксической, статистической и тематической фильтрации фраз.

Тематические модели дистрибутивной семантики.

  • Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
  • Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
  • Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
  • Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
  • Регуляризаторы когерентности.

Дополнительный материал:

  • Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.

Тематическая сегментация

Презентация: (PDF, 2,0 МБ) — обновление ??.??.2018.

Модели связного текста.

  • Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
  • Контекстная документная кластеризация (CDC).
  • Метод лексических цепочек.

Тематическая сегментация.

  • Метод TopicTiling. Критерии определения границ сегментов.
  • Критерии качества сегментации. Оптимизация параметров модели TopicTiling.

Позиционный регуляризатор в ARTM.

  • Регуляризация и пост-обработка Е-шага. Формулы М-шага.
  • Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.

Визуализация и суммаризация тем

Презентация: (PDF, ?,? МБ) — обновление ??.??.2018.

Средства визуализации тематических моделей.

  • Минимальные средства визуализации.
  • Визуализация темпоральных, иерархических, сегментирующих моделей.
  • Задача построения тематического спектра.
  • Визуализатор VisARTM.

Методы суммаризации текстов.

  • Автоматическая суммаризация текстов: задачи и подходы.
  • Релаксационный метод для многокритериальной дискретной оптимизации.
  • Тематическая модель предложений для суммаризации.
  • Семейство критериев качества суммаризации ROUGE.

Суммаризация и именование тем.

  • Суммаризация темы.
  • Автоматическое именование тем (topic labeling).

Байесовское обучение тематических моделей

Презентация: (PDF, 1,3 МБ) — обновление ??.??.2018.

EM-алгоритм.

  • Задачи оценивания скрытых параметров вероятностной модели.
  • EM-алгоритм для максимизации неполного правдоподобия. Сходимость в слабом смысле.
  • EM-алгоритм для модели PLSA.
  • EM-алгоритм с регуляризацией.

Методы оценивания параметров в модели LDA.

Языки описания вероятностных порождающих моделей.

  • Графическая плоская нотация (plate notation). Stop using plate notation.
  • Псевдокод порождающего процесса (genarative story).
  • Постановки оптимизационных задач.
  • Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.

Дополнительный материал:


Литература

  1. Воронцов К. В. Обзор вероятностных тематических моделей. — обновление 31.07.2017.
  2. Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
  3. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
  4. Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
  5. Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.


Ссылки

Подстраницы

Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2015Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2016Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2017
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2018Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМКВероятностные тематические модели (курс лекций, К.В.Воронцов)/2020
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2021
Личные инструменты