Полигон алгоритмов коллаборативной фильтрации
Материал из MachineLearning.
 
  | 
Назначение системы
Система «Полигон алгоритмов коллаборативной фильтрации (collaborative filtering, CF)» будет служить платформой для испытания и тестирования новых алгоритмов CF, оценки успешности решения различных прикладных задач. Позволит сопоставить алгоритмы и построить выводы о целесообразности использования того или иного алгоритма для решения конкретной бизнес-задачи. А также позволит автору нового алгоритма выявить его недостатки, наметить области модернизации, направления совершенствования.
Пользователями Системы будут являться специалисты по анализу данных, эксперты в различных предметных областях, разработчики алгоритмов CF.
Цели создания «Полигона»
- Создать коллектив единомышленников – специалистов в области создания рекомендующих систем на основе алгоритмов CF;
 - создать платформу для решения задач коллаборативной фильтрации, возникающих в различных предметных областях;
 - предоставить технологию пополнения библиотеки алгоритмов и базы задач;
 - предоставить методику тестирования различных алгоритмов CF;
 - выработать критерии оценки качества решения задач;
 - создать возможности для более удобного исследования свойств алгоритмов CF, в том числе собственных.
 
Функциональные возможности системы
Требования
Полигон должен:
- Поддерживать способ удобной загрузки новых алгоритмов CF;
 - обеспечивать интерфейс удобного описания нового эксперимента;
 - обеспечивать хранение и работу с репозиторием алгоритмов CF;
 - предоставлять данные на вход алгоритмам в стандартизованном виде;
 - обрабатывать данные и генерировать отчеты.
 
Пользователь должен иметь возможность:
- Загружать новый алгоритм в систему в виде независимого модуля/выполнимого файла;
 - описывать параметры нового алгоритма;
 - загружать новые данные в систему в стандартизованном виде;
 - тестировать все имеющиеся в репозитории алгоритмы на различных наборах данных.
 
Реализации алгоритмов CF должны:
- Принимать на вход данные в стандартизованном виде;
 - принимать на вход набор параметров алгоритма;
 - генерировать скрытые профили пользователей и ресурсов.
 
Варианты постановок задач
Конкретныe прикладные задачи с данными
- Netflix Prize
 - NetflixPrize.com, (данные)
 - 480,000 пользователей
 - 17,770 объектов
 - 100,480,507 оценок
 - 1.23% заполненность
 
- Jester dataset
 -  Anonymous Ratings from the Jester Online Joke Recommender System
-  73,421 пользователей 
100 объектов
~4.1 миллиона оценок
54.5% заполненность -  63,974 пользователей 
150 объектов
~1.7 миллионов оценок
17.7% заполненность 
 -  73,421 пользователей 
 
-  MovieLens datasets
- 100,000 ratings for 1682 movies by 943 users
 - 1 million ratings for 3900 movies by 6040 users
 - 10 million ratings and 100,000 tags for 10681 movies by 71567 users
 
 
- LibimSeTi dating agency dataset
 - 135,359 пользователей
 - 168,791 объектов
 - 17,359,346 оценок
 - 0.76% заполненность
 
- EachMovie dataset (supposed to be unavailable)
 - 72,916 пользователей
 - 1628 объектов
 - 2,811,983 оценок
 
- Book-Crossing Dataset
 - 278,858 пользователей
 - 271,379 объектов
 - 1,149,780 оценок
 - 0.0015% заполненность
 
- Neilsen Media Research dataset
 
- Media Metrix
 
- UC Irvine Census data
 
TODO: check TheInfo Infochimps
Генераторы модельных данных, под какие алгоритмы CF заточены
Оценка качества
Функционалы для оценки качества (это оччень скользский вопрос!)
Графики, которые позволят судить о качестве алгоритмов и сравнивать их
Графики, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри,
См. также
- Анализ клиентских сред
 - Коллаборативная фильтрация
 - Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)
 
Ссылки
- Collaborative Filtering Resources (Dr.Jun Wang)
 - Collaborative Filtering Research Papers (James Thornton)
 - Википедия
 

