Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Содержание

1 Задачи
2 Невиртуальные семинары
3 Ссылки

Данная страница предназначена для обсуждения задач и методов, планов и результатов исследований по направлениям Коллаборативная фильтрация и Анализ клиентских сред.

Семинар ориентирован в первую очередь на студентов и аспирантов кафедры Интеллектуальные системы ФУПМ МФТИ и кафедры Математические методы прогнозирования ВМиК МГУ. Все желающие интересующиеся могут присоединяться!

Ведущий семинара — Участник:Vokov

Задачи

Здесь перечислены задачи, по которым у нас есть данные, либо по которым ожидается получить данные в ближайшее время.

Задача «Яндекс»

Исходными данными являются протоколы переходов пользователей на ресурсы, найденные поисковой машиной. Лог поисковой машины, предоставленный компанией Яндекс (по конкурсу на стипендию Яндекс, 2005г.), охватывает 7 дней, по 5–10 миллионов запросов в день, и имеет объём 3.6Мб. Для каждого запроса лог содержит уникальный идентификатор пользователя, список выданных документов и время обращения пользователя к выбранным им документам. В простейшем варианте тексты запросов и время обращения пользователей к документам можно не анализировать, учитывая только сами факты выбора документов. Лог содержит данные о U = 14 606 пользователях и 207 312 запросах. Из 1 972 636 документов, предлагавшихся поисковой машиной в качестве результатов поиска, R = 129 600 были выбраны пользователями.

Ссылки:

Отчёт 2005. Применение технологии АКС для обработки логов поисковой машины Яндекс. Строятся оценки сходства пользователей и сайтов (документов), приводятся фрагменты глобальной и персонализированной карт сходства сайтов.

Задача «Нетфликс»

Ссылки:

Конкурс Netflix — здесь размещались условия конкурса; здесь так же можно было зарегистрироваться и скачать данные.
Лидеры конкурса Netflix.

Задача «Ключевые слова»

Задача «Блоги»

В задаче существует несколько постановок с различными исходными данными.

Невиртуальные семинары

Семинар 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар

Ведущие: К.В.Воронцов, А.И.Майсурадзе, Н.Ю.Пустовойтов.

План:

Постановки стандартных задач
Результаты студенческих работ по задаче «Нетфликс»
Задача «Блоги»

На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы.

Семинар 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение

Выступление К.В.Воронцова на семинаре Б.Г.Миркина, ВШЭ. Презентация: (PDF, 1083 КБ).

План:

Постановка задач коллаборативной фильтрации.
Примеры приложений: рекомендующие системы, анализ текстов, социальные сети.
Простые методы коллаборативной фильтрации: user-based, item-based.
Латентные методы: ко-кластеризация, матричные разложения, байесовские модели.
PLSA — вероятностный латентный семантический анализ.
Вероятностная модель генерации посещений.
EM-алгоритм, симметризованный EM-алгоритм.
Дальнейшие обобщения и усовершенствования алгоритма.
Эксперименты по оптимизации параметров алгоритма. Исследование переобучения.

Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA

Ведущий: К. В. Воронцов

План:

Владимир Герасимов. Инкрементальный вероятностный латентный семантический анализ. Презентация: (PDF, 259 КБ)

Возникшие вопросы:

Как изменится предложенный алгоритм если в протокол добавлятся новые записи о существующих клиентах и ресурсах?
Нужно проверить не портятся ли старые профили при внесении новых данных.

Василий Лексин. Иерархический вероятностный латентный семантический анализ. Презентация: (PDF, 140 КБ)

Возникшие вопросы:

Критерий содержит много эвристики, как от нее избавиться?
А действительно ли стоит расщеплять темы в профиле, то есть содержат ли расщеплённые темы действительно значимо различающуюся информацию? Возможно необходимо ввести статистические критерии типа проверки однородности.
Как повысить эффективность алгоритма, ведь придётся многократно повторять попытки то расщеплять профиль, то склеивать его обратно?

Обсуждение проекта по созданию Полигона алгоритмов коллаборативной фильтрации.

Литература:

Incremental Probabilistic Latent Semantic Analysis for Automatic Question Recommendation (PDF, 2,15 MB)
Using Incremental PLSI for Threshold-Resilient Online Event Analysis (PDF, 2,51 MB)
Vinokourov A., Girolami M. A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections // Information Processing and Management. — 2002. (PDF, 267 KB)

Ссылки

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D1%81%D0%BA%D0%B8%D1%85_%D1%81%D1%80%D0%B5%D0%B4_%D0%B8_%D0%BA%D0%BE%D0%BB%D0%BB%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%B8%D0%B2%D0%BD%D0%B0%D1%8F_%D1%84%D0%B8%D0%BB%D1%8C%D1%82%D1%80%D0%B0%D1%86%D0%B8%D1%8F_%28%D0%B2%D0%B8%D1%80%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D1%81%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80%29»

Категории: Виртуальные семинары | Коллаборативная фильтрация

@@ Строка 30: / Строка 30: @@
 '''Ссылки:'''
-* [http://www.netflixprize.com Конкурс Netflix] — условия конкурса; здесь же можно зарегистрироваться и скачать данные.
+* [http://www.netflixprize.com Конкурс Netflix] — здесь размещались условия конкурса; здесь так же можно было зарегистрироваться и скачать данные.
 * [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix].
@@ Строка 36: / Строка 36: @@
 === Задача «Блоги» ===
+В задаче существует несколько постановок с различными исходными данными.
 == Невиртуальные семинары ==
-=== 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар ===
+=== Семинар 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар ===
-Ведущие: К.В.Воронцов, А.И.Майсурадзе, Н.Ю.Пустовойтов.
+Ведущие: [[Участник:Vokov|К.В.Воронцов]], [[Участник:AIM|А.И.Майсурадзе]], [[Участник:Nikita Pustovoytov|Н.Ю.Пустовойтов]].
 '''План:'''
@@ Строка 49: / Строка 50: @@
 На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы.
-=== (время?) :: Методы коллаборативной фильтрации в социологических исследованиях ===
+=== Семинар 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение ===
-Ведущий: А.И.Майсурадзе
+Выступление К.В.Воронцова на семинаре Б.Г.Миркина, [[Высшая школа экономики|ВШЭ]].
+Презентация: '''[[Media:Voron-2008-11-10-cf.pdf|(PDF,&nbsp;1083&nbsp;КБ)]]'''.
 '''План:'''
-*
+* Постановка задач коллаборативной фильтрации.
+* Примеры приложений: рекомендующие системы, анализ текстов, социальные сети.
+* Простые методы коллаборативной фильтрации: user-based, item-based.
+* Латентные методы: ко-кластеризация, матричные разложения, байесовские модели.
+* PLSA — [[вероятностный латентный семантический анализ]].
+* Вероятностная модель генерации посещений.
+* [[EM-алгоритм]], симметризованный EM-алгоритм.
+* Дальнейшие обобщения и усовершенствования алгоритма.
+* Эксперименты по оптимизации параметров алгоритма. Исследование переобучения.
-=== (время?) :: Латентные модели ===
+=== Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA ===
-Ведущие: К.В.Воронцов, В.А.Лексин
+Ведущий: [[Участник:Vokov|К. В. Воронцов]]
 '''План:'''
-* Вероятностная модель генерации посещений
+* ''Владимир Герасимов''. Инкрементальный вероятностный латентный семантический анализ. Презентация: '''[[Media:Gerasimov-2009-11-03-IncPLSA.pdf|(PDF,&nbsp;259&nbsp;КБ)]]'''
-* [[EM-алгоритм]]
+::'''Возникшие вопросы:'''
-* Симметризованный EM-алгоритм
+::*Как изменится предложенный алгоритм если в протокол добавлятся новые записи о существующих клиентах и ресурсах?
-* Эксперименты по оптимизации параметров алгоритма. Переобучение.
+::*Нужно проверить не портятся ли старые профили при внесении новых данных.
-* Постановки задач по усовершенствованию алгоритма.
+* ''Василий Лексин''. Иерархический вероятностный латентный семантический анализ. Презентация: '''[[Media:Leksin-2009-11-03-HPLSA.pdf|(PDF,&nbsp;140&nbsp;КБ)]]'''
+::'''Возникшие вопросы:'''
+::*Критерий содержит много эвристики, как от нее избавиться?
+::*А действительно ли стоит расщеплять темы в профиле, то есть содержат ли расщеплённые темы действительно значимо различающуюся информацию? Возможно необходимо ввести статистические критерии типа проверки однородности.
+::*Как повысить эффективность алгоритма, ведь придётся многократно повторять попытки то расщеплять профиль, то склеивать его обратно?
+* Обсуждение проекта по созданию Полигона алгоритмов [[коллаборативная фильтрация|коллаборативной фильтрации]].
+'''Литература:'''
+# Incremental Probabilistic Latent Semantic Analysis for Automatic Question Recommendation '''[[Media:IPLSA for Q&A systems.pdf|(PDF,&nbsp;2,15&nbsp;MB)]]'''
+# Using Incremental PLSI for Threshold-Resilient Online Event Analysis '''[[Media:UsingIPLSA.pdf|(PDF,&nbsp;2,51&nbsp;MB)]]'''
+# Vinokourov A., Girolami M. A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections // Information Processing and Management. —  2002. '''[[Media:vinokourov02probabilistic.pdf|(PDF,&nbsp;267&nbsp;KB)]]'''
 == Ссылки ==
 * [[Анализ клиентских сред]]
 * [[Коллаборативная фильтрация]]
+* [[Полигон алгоритмов коллаборативной фильтрации]]
 [[Категория:Виртуальные семинары]]
 [[Категория:Коллаборативная фильтрация]]

Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)

Материал из MachineLearning.

Текущая версия

Содержание

Задачи

Задача «Яндекс»

Задача «Нетфликс»

Задача «Ключевые слова»

Задача «Блоги»

Невиртуальные семинары

Семинар 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар

Семинар 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение

Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты