Коллекции документов для тематического моделирования

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Коллекция NIPS)
(См. также)
 
(11 промежуточных версий не показаны.)
Строка 58: Строка 58:
* NIPSOld_c.txt — контрольная выборка
* NIPSOld_c.txt — контрольная выборка
-
На данной коллекции была построена тематическая модель PLSA из нескольких случайных приближения, а также регуляризованная модель с разреженными декоррелированными предметными и сглаженными фоновыми темами. Полученные матрицы phi и theta могут использоваться для дальнейших экспериментов.
+
== Матрицы Φ и Θ ==
-
'''Формат данных:''' элементы матриц разделены пробелами и символами новой строки. Размерность матрицы phi -- длина словаря на число тем, размерность матрицы theta -- число тем на число документов в обучении.
+
На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно).
 +
Полученные матрицы Φ и Θ могут использоваться для генерации полумодельных данных.
 +
 
 +
'''Формат данных:''' элементы разделены пробелами и символами новой строки. Размерность Φ — длина словаря на число тем, размерность Θ — число тем на число документов в обучении.
 +
 
 +
'''Файлы:'''
 +
* [[Медиа:Phi-theta-PLSA.rar‎ | Матрицы модели PLSA]]
 +
* [[Медиа:Phi-theta-Reg.rar | Матрицы модели ARTM]]
 +
'''Статьи:'''
'''Статьи:'''
Строка 70: Строка 78:
== См. также ==
== См. также ==
* [[Тематическое моделирование]]
* [[Тематическое моделирование]]
-
* [[Вероятностные тематические модели (курс лекций, К.В.Воронцов)]]. Текст: [[Media:Voron-2013-ptm.pdf|(PDF, 500 КБ)]]. Презентация [[Media:Voron-ML-TopicModels-slides.pdf| (PDF, 1 МБ)]].
+
* [[Аддитивная регуляризация тематических моделей]]
-
* К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. '''[[Media:voron-viniti-23apr2013.pdf|(PDF, 2.0 МБ)]]'''.
+
* [[BigARTM]]
 +
* ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: теория регуляризации ARTM и библиотека с открытым кодом BigARTM]]. 2023.
* Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]].
* Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]].

Текущая версия

Содержание

Коллекции текстовых документов для экспериментов по тематическому моделированию.

Коллекция RuDis

Документы представляют собой коллекцию авторефератов диссертаций на русском языке.

Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 20211 слов.

Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: заголовок коллекции содержит две строки:

число документов
число слов в словаре

далее для каждого документа в файле записано по три строки:

число различных слов в документе
идентификаторы слов через пробел, в порядке возрастания идентификаторов
частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел

Файлы: Архив RAR, 4.5 MБ

  • RuDisOld_t.txt — обучающая выборка
  • RuDisOld_c.txt — контрольная выборка

Статьи: [1]

Коллекция NIPS

Документы представляют собой статьи конференции NIPS на английском языке.

Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 13649 слов.

Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: тот же, что для коллекции RuDis

Файлы: Архив RAR, 1.5 MБ

  • NIPSOld_t.txt — обучающая выборка
  • NIPSOld_c.txt — контрольная выборка

Матрицы Φ и Θ

На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно). Полученные матрицы Φ и Θ могут использоваться для генерации полумодельных данных.

Формат данных: элементы разделены пробелами и символами новой строки. Размерность Φ — длина словаря на число тем, размерность Θ — число тем на число документов в обучении.

Файлы:

Статьи: [1]

Литература


См. также

Личные инструменты