Коллекции документов для тематического моделирования
Материал из MachineLearning.
(→Коллекция NIPS) |
(→См. также) |
||
(6 промежуточных версий не показаны.) | |||
Строка 57: | Строка 57: | ||
* NIPSOld_t.txt — обучающая выборка | * NIPSOld_t.txt — обучающая выборка | ||
* NIPSOld_c.txt — контрольная выборка | * NIPSOld_c.txt — контрольная выборка | ||
+ | |||
+ | == Матрицы Φ и Θ == | ||
На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно). | На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно). | ||
- | Полученные матрицы | + | Полученные матрицы Φ и Θ могут использоваться для генерации полумодельных данных. |
- | '''Формат данных:''' элементы разделены пробелами и символами новой строки. Размерность | + | '''Формат данных:''' элементы разделены пробелами и символами новой строки. Размерность Φ — длина словаря на число тем, размерность Θ — число тем на число документов в обучении. |
'''Файлы:''' | '''Файлы:''' | ||
Строка 76: | Строка 78: | ||
== См. также == | == См. также == | ||
* [[Тематическое моделирование]] | * [[Тематическое моделирование]] | ||
- | * [[ | + | * [[Аддитивная регуляризация тематических моделей]] |
- | * К.В. | + | * [[BigARTM]] |
+ | * ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: теория регуляризации ARTM и библиотека с открытым кодом BigARTM]]. 2023. | ||
* Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]]. | * Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]]. | ||
Текущая версия
|
Коллекции текстовых документов для экспериментов по тематическому моделированию.
Коллекция RuDis
Документы представляют собой коллекцию авторефератов диссертаций на русском языке.
Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
Элементами словаря являются отдельные слова (словосочетания не выделялись).
Длина словаря: 20211 слов.
Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.
Разделение на обучающую выборку и контрольную — случайное.
Формат данных: заголовок коллекции содержит две строки:
число документов число слов в словаре
далее для каждого документа в файле записано по три строки:
число различных слов в документе идентификаторы слов через пробел, в порядке возрастания идентификаторов частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел
Файлы: Архив RAR, 4.5 MБ
- RuDisOld_t.txt — обучающая выборка
- RuDisOld_c.txt — контрольная выборка
Статьи: [1]
Коллекция NIPS
Документы представляют собой статьи конференции NIPS на английском языке.
Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
Элементами словаря являются отдельные слова (словосочетания не выделялись).
Длина словаря: 13649 слов.
Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.
Разделение на обучающую выборку и контрольную — случайное.
Формат данных: тот же, что для коллекции RuDis
Файлы: Архив RAR, 1.5 MБ
- NIPSOld_t.txt — обучающая выборка
- NIPSOld_c.txt — контрольная выборка
Матрицы Φ и Θ
На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно). Полученные матрицы Φ и Θ могут использоваться для генерации полумодельных данных.
Формат данных: элементы разделены пробелами и символами новой строки. Размерность Φ — длина словаря на число тем, размерность Θ — число тем на число документов в обучении.
Файлы:
Статьи: [1]
Литература
См. также
- Тематическое моделирование
- Аддитивная регуляризация тематических моделей
- BigARTM
- Воронцов К. В. Вероятностное тематическое моделирование: теория регуляризации ARTM и библиотека с открытым кодом BigARTM. 2023.
- Лекция по латентному размещению Дирихле в рамках спецкурса БММО (PDF, 480 КБ).