Полигон алгоритмов коллаборативной фильтрации

Материал из MachineLearning.

Версия от 15:01, 11 марта 2010; Olman (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Назначение системы
2 Цели создания «Полигона»
3 Функциональные возможности системы
- 3.1 Требования
4 Варианты постановок задач
5 Конкретныe прикладные задачи с данными
6 Генераторы модельных данных, под какие алгоритмы CF заточены
7 Оценка качества
8 См. также
9 Ссылки

Назначение системы

Система «Полигон алгоритмов коллаборативной фильтрации (collaborative filtering, CF)» будет служить платформой для испытания и тестирования новых алгоритмов CF, оценки успешности решения различных прикладных задач. Позволит сопоставить алгоритмы и построить выводы о целесообразности использования того или иного алгоритма для решения конкретной бизнес-задачи. А также позволит автору нового алгоритма выявить его недостатки, наметить области модернизации, направления совершенствования.

Пользователями Системы будут являться специалисты по анализу данных, эксперты в различных предметных областях, разработчики алгоритмов CF.

Цели создания «Полигона»

Создать коллектив единомышленников – специалистов в области создания рекомендующих систем на основе алгоритмов CF;
создать платформу для решения задач коллаборативной фильтрации, возникающих в различных предметных областях;
предоставить технологию пополнения библиотеки алгоритмов и базы задач;
предоставить методику тестирования различных алгоритмов CF;
выработать критерии оценки качества решения задач;
создать возможности для более удобного исследования свойств алгоритмов CF, в том числе собственных.

Функциональные возможности системы

Требования

Полигон должен:

Поддерживать способ удобной загрузки новых алгоритмов CF;
обеспечивать интерфейс удобного описания нового эксперимента;
обеспечивать хранение и работу с репозиторием алгоритмов CF;
предоставлять данные на вход алгоритмам в стандартизованном виде;
обрабатывать данные и генерировать отчеты.

Пользователь должен иметь возможность:

Загружать новый алгоритм в систему в виде независимого модуля/выполнимого файла;
описывать параметры нового алгоритма;
загружать новые данные в систему в стандартизованном виде;
тестировать все имеющиеся в репозитории алгоритмы на различных наборах данных.

Реализации алгоритмов CF должны:

Принимать на вход данные в стандартизованном виде;
принимать на вход набор параметров алгоритма;
генерировать скрытые профили пользователей и ресурсов.

Варианты постановок задач

Конкретныe прикладные задачи с данными

Netflix Prize: NetflixPrize.com, (данные); 480,000 пользователей; 17,770 объектов; 100,480,507 оценок; 1.23% заполненность

Jester dataset

Anonymous Ratings from the Jester Online Joke Recommender System

73,421 пользователей
100 объектов
~4.1 миллиона оценок
54.5% заполненность
63,974 пользователей
150 объектов
~1.7 миллионов оценок
17.7% заполненность

MovieLens datasets 100,000 ratings for 1682 movies by 943 users 1 million ratings for 3900 movies by 6040 users 10 million ratings and 100,000 tags for 10681 movies by 71567 users

LibimSeTi dating agency dataset: 135,359 пользователей; 168,791 объектов; 17,359,346 оценок; 0.76% заполненность

EachMovie dataset (supposed to be unavailable): 72,916 пользователей; 1628 объектов; 2,811,983 оценок

Book-Crossing Dataset: 278,858 пользователей; 271,379 объектов; 1,149,780 оценок; 0.0015% заполненность

Neilsen Media Research dataset

Media Metrix

UC Irvine Census data

TODO: check TheInfo Infochimps

Генераторы модельных данных, под какие алгоритмы CF заточены

Оценка качества

Функционалы для оценки качества (это оччень скользский вопрос!)

Графики, которые позволят судить о качестве алгоритмов и сравнивать их

Графики, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри,

См. также

Ссылки

Collaborative Filtering Resources (Dr.Jun Wang)
Collaborative Filtering Research Papers (James Thornton)
Википедия

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D0%BE%D0%BB%D0%B8%D0%B3%D0%BE%D0%BD_%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC%D0%BE%D0%B2_%D0%BA%D0%BE%D0%BB%D0%BB%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%B8%D0%B2%D0%BD%D0%BE%D0%B9_%D1%84%D0%B8%D0%BB%D1%8C%D1%82%D1%80%D0%B0%D1%86%D0%B8%D0%B8»

Категория: Коллаборативная фильтрация