Коллекции документов для тематического моделирования

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(RuDis)
Строка 26: Строка 26:
'''Статьи:'''
'''Статьи:'''
-
<ref name="potapenko13robust">Potapenko A. A., [[User:Vokov|Vorontsov K. V.]] Robust PLSA Performs Better Than LDA // 35th European Conference on Information Retrieval, [[http://ecir2013.org ECIR-2013]], Moscow, Russia, 24–27 March 2013. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2013. Pp. 784–787.<ref/>
+
<ref name="potapenko13robust">Potapenko A. A., [[User:Vokov|Vorontsov K. V.]] Robust PLSA Performs Better Than LDA // 35th European Conference on Information Retrieval, [[http://ecir2013.org ECIR-2013]], Moscow, Russia, 24–27 March 2013. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2013. Pp. 784–787.</ref>

Версия 14:01, 7 июня 2013

Коллекции документов для тематического моделирования

Коллекция RuDis

Документы представляют собой коллекцию авторефератов диссертаций на русском языке.

Предварительная обработка: стемминг, лемматизация, формирование матрицы частот. Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются. Элементами словаря являются отдельные слова.

Длина словаря 20211 слов.

Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.

Формат данных: заголовок коллекции содержит две строки:

число документов
число слов в словаре

для каждого документа в файле записано три строки:

число различных слов в документе
идентификаторы слов через пробел, в порядке возрастания идентификаторов
частоты соответствующих слов, т.е. сколько раз слово встретилось в документе

Файлы: (RAR, 4.5 MБ).

Статьи: [1]


См. также


Личные инструменты