Полигон алгоритмов коллаборативной фильтрации
Материал из MachineLearning.
(Различия между версиями)
												
			
			 (→Конкретныe прикладные задачи с данными)  | 
				|||
| Строка 1: | Строка 1: | ||
| - | == Функциональные   | + | == Функциональные возможности системы ==  | 
| + | |||
| + | Полигон должен:  | ||
| + | |||
| + | * работать с набором реализаций алгоритмов CF  | ||
| + | * предоставлять данные на вход алгоритмам в стандартизованном виде  | ||
| + | * обрабатывать результаты работы и генерировать отчеты  | ||
== Варианты постановок задач ==  | == Варианты постановок задач ==  | ||
| Строка 8: | Строка 14: | ||
: 17,770 объектов  | : 17,770 объектов  | ||
: 100,480,507 оценок  | : 100,480,507 оценок  | ||
| + | : 1.23% заполненность  | ||
| + | |||
| + | ; [http://eigentaste.berkeley.edu/dataset/ Jester dataset]  | ||
| + | : Anonymous Ratings from the [http://eigentaste.berkeley.edu/ Jester] Online Joke Recommender System  | ||
| + | :* 73,421 пользователей <br /> 100 объектов <br /> ~4.1 миллиона оценок <br /> 54.5% заполненность  | ||
| + | :* 63,974 пользователей <br /> 150 объектов <br /> ~1.7 миллионов оценок <br /> 17.7% заполненность  | ||
| + | |||
| + | ; [http://www.grouplens.org/node/73 MovieLens datasets]  | ||
| + | :* 100,000 ratings for 1682 movies by 943 users  | ||
| + | :* 1 million ratings for 3900 movies by 6040 users  | ||
| + | :* 10 million ratings and 100,000 tags for 10681 movies by 71567 users  | ||
; [http://www.occamslab.com/petricek/data/ LibimSeTi dating agency dataset]  | ; [http://www.occamslab.com/petricek/data/ LibimSeTi dating agency dataset]  | ||
| Строка 13: | Строка 30: | ||
: 168,791 объектов  | : 168,791 объектов  | ||
: 17,359,346 оценок  | : 17,359,346 оценок  | ||
| - | + | : 0.76% заполненность  | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
; EachMovie dataset (supposed to be unavailable)  | ; EachMovie dataset (supposed to be unavailable)  | ||
| Строка 23: | Строка 36: | ||
: 1628 объектов  | : 1628 объектов  | ||
: 2,811,983 оценок  | : 2,811,983 оценок  | ||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
; Neilsen Media Research dataset  | ; Neilsen Media Research dataset  | ||
| Строка 37: | Строка 45: | ||
TODO: check [http://theinfo.org/ TheInfo] [http://infochimps.org/ Infochimps]  | TODO: check [http://theinfo.org/ TheInfo] [http://infochimps.org/ Infochimps]  | ||
| - | ==   | + | == Генераторы модельных данных, под какие алгоритмы CF заточены ==  | 
== Оценка качества ==  | == Оценка качества ==  | ||
| - | === Функционалы для оценки   | + | === Функционалы для оценки качества (это оччень скользский вопрос!) ===  | 
=== Графики, которые позволят судить о качестве алгоритмов и сравнивать их ===  | === Графики, которые позволят судить о качестве алгоритмов и сравнивать их ===  | ||
| - | ===   | + | === Графики, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри, ===  | 
Версия 13:24, 11 ноября 2009
Содержание | 
Функциональные возможности системы
Полигон должен:
- работать с набором реализаций алгоритмов CF
 - предоставлять данные на вход алгоритмам в стандартизованном виде
 - обрабатывать результаты работы и генерировать отчеты
 
Варианты постановок задач
Конкретныe прикладные задачи с данными
- Netflix Prize
 - NetflixPrize.com, (данные)
 - 480,000 пользователей
 - 17,770 объектов
 - 100,480,507 оценок
 - 1.23% заполненность
 
- Jester dataset
 -  Anonymous Ratings from the Jester Online Joke Recommender System
-  73,421 пользователей 
100 объектов
~4.1 миллиона оценок
54.5% заполненность -  63,974 пользователей 
150 объектов
~1.7 миллионов оценок
17.7% заполненность 
 -  73,421 пользователей 
 
-  MovieLens datasets
- 100,000 ratings for 1682 movies by 943 users
 - 1 million ratings for 3900 movies by 6040 users
 - 10 million ratings and 100,000 tags for 10681 movies by 71567 users
 
 
- LibimSeTi dating agency dataset
 - 135,359 пользователей
 - 168,791 объектов
 - 17,359,346 оценок
 - 0.76% заполненность
 
- EachMovie dataset (supposed to be unavailable)
 - 72,916 пользователей
 - 1628 объектов
 - 2,811,983 оценок
 
- Neilsen Media Research dataset
 
- Media Metrix
 
- UC Irvine Census data
 
TODO: check TheInfo Infochimps

