TopicNet

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: {{TOCright}} '''TopicNet''' — открытая библиотека тематического моделирования по...)
(Литература)
Строка 29: Строка 29:
==Литература==
==Литература==
-
* ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]]. 2020.
+
* Bulatov V., Egorov E., Veselova E., Polyudova D., Alekseev V., Goncharov A., Vorontsov K. [https://www.aclweb.org/anthology/2020.lrec-1.833.pdf TopicNet: Making Additive Regularisation for Topic Modelling Accessible] // Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), Marseille, 11–16 May 2020. Pp. 6745–6752.
 +
 
 +
* ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: теория, модели, алгоритмы и проект BigARTM]]. 2020.
==См. также==
==См. также==

Версия 15:01, 27 июля 2020

Содержание

TopicNet — открытая библиотека тематического моделирования под Python, верхнеуровневая обёртка над BigARTM, упрощающая построение тематических моделей в прикладных проектах и автоматизирующая проведение вычислительных экспериментов по оптимизации моделей.

Мотивации

Современные информационные системы генерируют потоки разнородных данных, в которых перемешаны числа, тексты, сигналы, транзакции, изображения. Цифровая вселенная — это данные о различных взаимосвязях и взаимодействиях, регистрируемых компьютерными системами. Пользователь ввел запрос, кликнул на рекламный баннер, приобрел товар, посмотрел видео, прочитал текст, написал комментарий — это всё взаимодействия или, говоря инженерным языком, транзакции. Мы постоянно взаимодействуем с текстами, когда читаем, пишем, ищем в Интернете. Тексты сопровождают буквально каждый предмет, производимый нашей цивилизацией. Совершенствуются технологии, способные переводить изображение или видеоряд в текстовое описание. Да и сам текст — это серия взаимодействий документа со словами. То есть мы имеем целую сеть разнообразных взаимодействий, особую роль в которой играют слова. Они обозначают всё, чем мы пользуемся и что нас окружает. Группируясь вместе, слова образуют темы, которые описывают наши интересы, несут определённые смыслы, позволяют нам коммуницировать и понимать друг друга.

Обрабатывая большие данные о взаимосвязях и взаимодействиях, TopicNet переносит смыслы слов с текстов на предметы и людей. Распространяя смыслы по сети взаимодействий, TopicNet формирует цифровые тематические профили всех объектов и субъектов, вовлечённых в эти взаимодействия. Тематический профиль (topical embedding) — это набор тем или интересов с числовыми оценками их важности, а каждая тема (topic) — это группа связанных по смыслу слов. В этом суть технологии тематического моделирования (topic modeling). Этим она отличается от нейронных сетей, в которых тоже возникают профили объектов, но их не удаётся интерпретировать, то есть объяснять словами естественного языка. Тематические профили интерпретируемы и универсальны. Они позволяют сравнивать любые объекты друг с другом независимо от их природы и находить объекты, схожие по смыслу.

Сферы применения этой технологии не ограничиваются анализом текстов. Вот несколько примеров задач, которые TopicNet уже умеет решать на практике.

  • Профилирование клиентов банков, финансовых или торговых компаний на основе анализа транзакционных данных.
  • Определение потребности клиентов и маршрутизация обращений клиентов в контактный центр.
  • Формирование тематических подборок статей, патентов, документации при поиске научно-технической информации.
  • Выделение событий, тем, мнений и позиций в новостных потоках.
  • Поиск похожих судебных решений в базе актов арбитражных судов.
  • Подбор курсов, мероприятий и индивидуальных образовательных траекторий в системах дистанционного образования.
  • Подбор подходящих пользователю товаров, фильмов, книг, сообществ в рекомендательных системах.

Описание

Ссылки

Литература

См. также

Личные инструменты