Коллекции документов для тематического моделирования

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(См. также)
(RuDis)
Строка 1: Строка 1:
Коллекции документов для тематического моделирования
Коллекции документов для тематического моделирования
 +
 +
== Коллекция RuDis ==
 +
 +
Документы представляют собой коллекцию авторефератов диссертаций на русском языке.
 +
 +
Предварительная обработка: стемминг, лемматизация, формирование матрицы частот.
 +
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
 +
Элементами словаря являются отдельные слова.
 +
 +
Длина словаря 20211 слов.
 +
 +
Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.
 +
 +
'''Формат данных:'''
 +
заголовок коллекции содержит две строки:
 +
число документов
 +
число слов в словаре
 +
для каждого документа в файле записано три строки:
 +
число различных слов в документе
 +
идентификаторы слов через пробел, в порядке возрастания идентификаторов
 +
частоты соответствующих слов, т.е. сколько раз слово встретилось в документе
 +
 +
'''Файлы:'''
 +
[[Media:RuDis-collection.rar|(RAR, 4.5 MБ)]].
 +
 +
'''Статьи:'''
 +
<ref name="potapenko13robust">Potapenko A. A., [[User:Vokov|Vorontsov K. V.]] Robust PLSA Performs Better Than LDA // 35th European Conference on Information Retrieval, [[http://ecir2013.org ECIR-2013]], Moscow, Russia, 24–27 March 2013. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2013. Pp. 784–787.<ref/>
Строка 7: Строка 34:
* К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. '''[[Media:voron-viniti-23apr2013.pdf|(PDF,&nbsp;2.0&nbsp;МБ)]]'''.
* К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. '''[[Media:voron-viniti-23apr2013.pdf|(PDF,&nbsp;2.0&nbsp;МБ)]]'''.
* Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]].
* Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]].
 +
 +
<references/>
{{stub}}
{{stub}}

Версия 13:33, 7 июня 2013

Коллекции документов для тематического моделирования

Коллекция RuDis

Документы представляют собой коллекцию авторефератов диссертаций на русском языке.

Предварительная обработка: стемминг, лемматизация, формирование матрицы частот. Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются. Элементами словаря являются отдельные слова.

Длина словаря 20211 слов.

Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.

Формат данных: заголовок коллекции содержит две строки:

число документов
число слов в словаре

для каждого документа в файле записано три строки:

число различных слов в документе
идентификаторы слов через пробел, в порядке возрастания идентификаторов
частоты соответствующих слов, т.е. сколько раз слово встретилось в документе

Файлы: (RAR, 4.5 MБ).

Статьи: [1]

Личные инструменты