Коллекции документов для тематического моделирования

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 16:14, 6 февраля 2015

Содержание

1 Коллекция RuDis
2 Коллекция NIPS
3 Литература
4 См. также

Коллекции текстовых документов для экспериментов по тематическому моделированию.

Коллекция RuDis

Документы представляют собой коллекцию авторефератов диссертаций на русском языке.

Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 20211 слов.

Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: заголовок коллекции содержит две строки:

число документов
число слов в словаре

далее для каждого документа в файле записано по три строки:

число различных слов в документе
идентификаторы слов через пробел, в порядке возрастания идентификаторов
частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел

Файлы: Архив RAR, 4.5 MБ

RuDisOld_t.txt — обучающая выборка
RuDisOld_c.txt — контрольная выборка

Статьи: ^[1]

Коллекция NIPS

Документы представляют собой статьи конференции NIPS на английском языке.

Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 13649 слов.

Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: тот же, что для коллекции RuDis

Файлы: Архив RAR, 1.5 MБ

NIPSOld_t.txt — обучающая выборка
NIPSOld_c.txt — контрольная выборка

На данной коллекции была построена тематическая модель PLSA со 100 темами из нескольких случайных приближений, а также регуляризованная модель с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 тем соответственно). Полученные матрицы phi и theta могут использоваться для генерации полумодельных данных.

Формат данных: элементы разделены пробелами и символами новой строки. Размерность матрицы phi -- длина словаря на число тем, размерность матрицы theta -- число тем на число документов в обучении.

Статьи: ^[1]

Литература

См. также

Тематическое моделирование
Вероятностные тематические модели (курс лекций, К.В.Воронцов). Текст: (PDF, 500 КБ). Презентация (PDF, 1 МБ).
К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. (PDF, 2.0 МБ).
Лекция по латентному размещению Дирихле в рамках спецкурса БММО (PDF, 480 КБ).

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BB%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B8_%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%B4%D0%BB%D1%8F_%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F»

Категории: Незавершённые статьи | Тематическое моделирование | Анализ текстов | Машинное обучение

@@ Строка 58: / Строка 58: @@
 * NIPSOld_c.txt — контрольная выборка
-На данной коллекции была построена тематическая модель PLSA из нескольких случайных приближения, а также регуляризованная модель с разреженными декоррелированными предметными и сглаженными фоновыми темами. Полученные матрицы phi и theta могут использоваться для дальнейших экспериментов.
+На данной коллекции была построена тематическая модель PLSA со 100 темами из нескольких случайных приближений, а также регуляризованная модель с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 тем соответственно).
+Полученные матрицы phi и theta могут использоваться для генерации полумодельных данных.
-'''Формат данных:''' элементы матриц разделены пробелами и символами новой строки. Размерность матрицы phi -- длина словаря на число тем, размерность матрицы theta -- число тем на число документов в обучении.
+'''Формат данных:''' элементы разделены пробелами и символами новой строки.
+Размерность матрицы phi -- длина словаря на число тем, размерность матрицы theta -- число тем на число документов в обучении.
 '''Статьи:'''

Коллекции документов для тематического моделирования

Материал из MachineLearning.

Версия 16:14, 6 февраля 2015

Содержание

Коллекция RuDis

Коллекция NIPS

Литература

См. также

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты