Коллекции документов для тематического моделирования

Материал из MachineLearning.

Перейти к: навигация, поиск

Коллекции документов для тематического моделирования

Коллекция RuDis

Документы представляют собой коллекцию авторефератов диссертаций на русском языке.

Предварительная обработка: стемминг, лемматизация, формирование матрицы частот. Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются. Элементами словаря являются отдельные слова.

Длина словаря 20211 слов.

Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.

Формат данных: заголовок коллекции содержит две строки:

число документов
число слов в словаре

для каждого документа в файле записано три строки:

число различных слов в документе
идентификаторы слов через пробел, в порядке возрастания идентификаторов
частоты соответствующих слов, т.е. сколько раз слово встретилось в документе

Файлы: (RAR, 4.5 MБ).

Статьи: [1]

Личные инструменты