Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA)
Текущая версия (07:39, 24 декабря 2011) (править) (отменить)
м (Задача «Нетфликс»: немного устарело)
 
(9 промежуточных версий не показаны.)
Строка 30: Строка 30:
'''Ссылки:'''
'''Ссылки:'''
-
* [http://www.netflixprize.com Конкурс Netflix] — условия конкурса; здесь же можно зарегистрироваться и скачать данные.
+
* [http://www.netflixprize.com Конкурс Netflix] — здесь размещались условия конкурса; здесь так же можно было зарегистрироваться и скачать данные.
* [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix].
* [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix].
Строка 66: Строка 66:
=== Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA ===
=== Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA ===
-
Ведущий: [[Участник:Vokov|К.В.Воронцов]]
+
Ведущий: [[Участник:Vokov|К. В. Воронцов]]
'''План:'''
'''План:'''
* ''Владимир Герасимов''. Инкрементальный вероятностный латентный семантический анализ. Презентация: '''[[Media:Gerasimov-2009-11-03-IncPLSA.pdf|(PDF, 259 КБ)]]'''
* ''Владимир Герасимов''. Инкрементальный вероятностный латентный семантический анализ. Презентация: '''[[Media:Gerasimov-2009-11-03-IncPLSA.pdf|(PDF, 259 КБ)]]'''
-
* ''Василий Лексин''. Иерархический вероятностный латентный семантический анализ. Презентация: '''[[Media:Leksin-2009-11-03-IncPLSA.pdf|(PDF, XXX КБ)]]'''
+
::'''Возникшие вопросы:'''
 +
::*Как изменится предложенный алгоритм если в протокол добавлятся новые записи о существующих клиентах и ресурсах?
 +
::*Нужно проверить не портятся ли старые профили при внесении новых данных.
 +
 
 +
* ''Василий Лексин''. Иерархический вероятностный латентный семантический анализ. Презентация: '''[[Media:Leksin-2009-11-03-HPLSA.pdf|(PDF, 140 КБ)]]'''
 +
::'''Возникшие вопросы:'''
 +
::*Критерий содержит много эвристики, как от нее избавиться?
 +
::*А действительно ли стоит расщеплять темы в профиле, то есть содержат ли расщеплённые темы действительно значимо различающуюся информацию? Возможно необходимо ввести статистические критерии типа проверки однородности.
 +
::*Как повысить эффективность алгоритма, ведь придётся многократно повторять попытки то расщеплять профиль, то склеивать его обратно?
* Обсуждение проекта по созданию Полигона алгоритмов [[коллаборативная фильтрация|коллаборативной фильтрации]].
* Обсуждение проекта по созданию Полигона алгоритмов [[коллаборативная фильтрация|коллаборативной фильтрации]].
'''Литература:'''
'''Литература:'''
-
#
+
# Incremental Probabilistic Latent Semantic Analysis for Automatic Question Recommendation '''[[Media:IPLSA for Q&A systems.pdf|(PDF, 2,15 MB)]]'''
-
Статья:'''[[Media:UsingIPLSA.pdf|Incremental Probabilistic Latent Semantic Analysis for Automatic Question Recommendation]]'''
+
# Using Incremental PLSI for Threshold-Resilient Online Event Analysis '''[[Media:UsingIPLSA.pdf|(PDF, 2,51 MB)]]'''
 +
# Vinokourov A., Girolami M. A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections // Information Processing and Management. — 2002. '''[[Media:vinokourov02probabilistic.pdf|(PDF, 267 KB)]]'''
== Ссылки ==
== Ссылки ==
* [[Анализ клиентских сред]]
* [[Анализ клиентских сред]]
* [[Коллаборативная фильтрация]]
* [[Коллаборативная фильтрация]]
 +
* [[Полигон алгоритмов коллаборативной фильтрации]]
[[Категория:Виртуальные семинары]]
[[Категория:Виртуальные семинары]]
[[Категория:Коллаборативная фильтрация]]
[[Категория:Коллаборативная фильтрация]]

Текущая версия

Содержание

Данная страница предназначена для обсуждения задач и методов, планов и результатов исследований по направлениям Коллаборативная фильтрация и Анализ клиентских сред.

Семинар ориентирован в первую очередь на студентов и аспирантов кафедры Интеллектуальные системы ФУПМ МФТИ и кафедры Математические методы прогнозирования ВМиК МГУ. Все желающие интересующиеся могут присоединяться!

Ведущий семинара — Участник:Vokov

Задачи

Здесь перечислены задачи, по которым у нас есть данные, либо по которым ожидается получить данные в ближайшее время.

Задача «Яндекс»

Исходными данными являются протоколы переходов пользователей на ресурсы, найденные поисковой машиной. Лог поисковой машины, предоставленный компанией Яндекс (по конкурсу на стипендию Яндекс, 2005г.), охватывает 7 дней, по 5–10 миллионов запросов в день, и имеет объём 3.6Мб. Для каждого запроса лог содержит уникальный идентификатор пользователя, список выданных документов и время обращения пользователя к выбранным им документам. В простейшем варианте тексты запросов и время обращения пользователей к документам можно не анализировать, учитывая только сами факты выбора документов. Лог содержит данные о U = 14 606 пользователях и 207 312 запросах. Из 1 972 636 документов, предлагавшихся поисковой машиной в качестве результатов поиска, R = 129 600 были выбраны пользователями.

Ссылки:

  • Отчёт 2005. Применение технологии АКС для обработки логов поисковой машины Яндекс. Строятся оценки сходства пользователей и сайтов (документов), приводятся фрагменты глобальной и персонализированной карт сходства сайтов.

Задача «Нетфликс»

Ссылки:

Задача «Ключевые слова»

Задача «Блоги»

В задаче существует несколько постановок с различными исходными данными.

Невиртуальные семинары

Семинар 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар

Ведущие: К.В.Воронцов, А.И.Майсурадзе, Н.Ю.Пустовойтов.

План:

  • Постановки стандартных задач
  • Результаты студенческих работ по задаче «Нетфликс»
  • Задача «Блоги»

На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы.

Семинар 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение

Выступление К.В.Воронцова на семинаре Б.Г.Миркина, ВШЭ. Презентация: (PDF, 1083 КБ).

План:

  • Постановка задач коллаборативной фильтрации.
  • Примеры приложений: рекомендующие системы, анализ текстов, социальные сети.
  • Простые методы коллаборативной фильтрации: user-based, item-based.
  • Латентные методы: ко-кластеризация, матричные разложения, байесовские модели.
  • PLSA — вероятностный латентный семантический анализ.
  • Вероятностная модель генерации посещений.
  • EM-алгоритм, симметризованный EM-алгоритм.
  • Дальнейшие обобщения и усовершенствования алгоритма.
  • Эксперименты по оптимизации параметров алгоритма. Исследование переобучения.

Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA

Ведущий: К. В. Воронцов

План:

  • Владимир Герасимов. Инкрементальный вероятностный латентный семантический анализ. Презентация: (PDF, 259 КБ)
Возникшие вопросы:
  • Как изменится предложенный алгоритм если в протокол добавлятся новые записи о существующих клиентах и ресурсах?
  • Нужно проверить не портятся ли старые профили при внесении новых данных.
  • Василий Лексин. Иерархический вероятностный латентный семантический анализ. Презентация: (PDF, 140 КБ)
Возникшие вопросы:
  • Критерий содержит много эвристики, как от нее избавиться?
  • А действительно ли стоит расщеплять темы в профиле, то есть содержат ли расщеплённые темы действительно значимо различающуюся информацию? Возможно необходимо ввести статистические критерии типа проверки однородности.
  • Как повысить эффективность алгоритма, ведь придётся многократно повторять попытки то расщеплять профиль, то склеивать его обратно?

Литература:

  1. Incremental Probabilistic Latent Semantic Analysis for Automatic Question Recommendation (PDF, 2,15 MB)
  2. Using Incremental PLSI for Threshold-Resilient Online Event Analysis (PDF, 2,51 MB)
  3. Vinokourov A., Girolami M. A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections // Information Processing and Management. — 2002. (PDF, 267 KB)

Ссылки

Личные инструменты