Полигон алгоритмов коллаборативной фильтрации

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Конкретныe прикладные задачи с данными)
Строка 1: Строка 1:
-
== Функциональные возможностей системы ==
+
== Функциональные возможности системы ==
 +
 
 +
Полигон должен:
 +
 
 +
* работать с набором реализаций алгоритмов CF
 +
* предоставлять данные на вход алгоритмам в стандартизованном виде
 +
* обрабатывать результаты работы и генерировать отчеты
== Варианты постановок задач ==
== Варианты постановок задач ==
Строка 8: Строка 14:
: 17,770 объектов
: 17,770 объектов
: 100,480,507 оценок
: 100,480,507 оценок
 +
: 1.23% заполненность
 +
 +
; [http://eigentaste.berkeley.edu/dataset/ Jester dataset]
 +
: Anonymous Ratings from the [http://eigentaste.berkeley.edu/ Jester] Online Joke Recommender System
 +
:* 73,421 пользователей <br /> 100 объектов <br /> ~4.1 миллиона оценок <br /> 54.5% заполненность
 +
:* 63,974 пользователей <br /> 150 объектов <br /> ~1.7 миллионов оценок <br /> 17.7% заполненность
 +
 +
; [http://www.grouplens.org/node/73 MovieLens datasets]
 +
:* 100,000 ratings for 1682 movies by 943 users
 +
:* 1 million ratings for 3900 movies by 6040 users
 +
:* 10 million ratings and 100,000 tags for 10681 movies by 71567 users
; [http://www.occamslab.com/petricek/data/ LibimSeTi dating agency dataset]
; [http://www.occamslab.com/petricek/data/ LibimSeTi dating agency dataset]
Строка 13: Строка 30:
: 168,791 объектов
: 168,791 объектов
: 17,359,346 оценок
: 17,359,346 оценок
-
 
+
: 0.76% заполненность
-
; [http://eigentaste.berkeley.edu/dataset/ Jester dataset]
+
-
: Anonymous Ratings from the [http://eigentaste.berkeley.edu/ Jester] Online Joke Recommender System
+
-
:* 73,421 пользователей <br /> 100 объектов <br /> ~4.1 миллиона оценок
+
-
:* 63,974 пользователей <br /> 150 объектов <br /> ~1.7 миллионов оценок
+
; EachMovie dataset (supposed to be unavailable)
; EachMovie dataset (supposed to be unavailable)
Строка 23: Строка 36:
: 1628 объектов
: 1628 объектов
: 2,811,983 оценок
: 2,811,983 оценок
-
 
-
; [http://www.grouplens.org/node/73 MovieLens datasets]
 
-
:* 100,000 ratings for 1682 movies by 943 users
 
-
:* 1 million ratings for 3900 movies by 6040 users
 
-
:* 10 million ratings and 100,000 tags for 10681 movies by 71567 users
 
; Neilsen Media Research dataset
; Neilsen Media Research dataset
Строка 37: Строка 45:
TODO: check [http://theinfo.org/ TheInfo] [http://infochimps.org/ Infochimps]
TODO: check [http://theinfo.org/ TheInfo] [http://infochimps.org/ Infochimps]
-
== Генераторов модельных данных, и под какие алгоритмы CF они заточены ==
+
== Генераторы модельных данных, под какие алгоритмы CF заточены ==
== Оценка качества ==
== Оценка качества ==
-
=== Функционалы для оценки качество (это оччень скользский вопрос!) ===
+
=== Функционалы для оценки качества (это оччень скользский вопрос!) ===
=== Графики, которые позволят судить о качестве алгоритмов и сравнивать их ===
=== Графики, которые позволят судить о качестве алгоритмов и сравнивать их ===
-
=== Графиков, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри, ===
+
=== Графики, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри, ===

Версия 13:24, 11 ноября 2009

Содержание

Функциональные возможности системы

Полигон должен:

  • работать с набором реализаций алгоритмов CF
  • предоставлять данные на вход алгоритмам в стандартизованном виде
  • обрабатывать результаты работы и генерировать отчеты

Варианты постановок задач

Конкретныe прикладные задачи с данными

Netflix Prize
NetflixPrize.com, (данные)
480,000 пользователей
17,770 объектов
100,480,507 оценок
1.23% заполненность
Jester dataset
Anonymous Ratings from the Jester Online Joke Recommender System
  • 73,421 пользователей
    100 объектов
    ~4.1 миллиона оценок
    54.5% заполненность
  • 63,974 пользователей
    150 объектов
    ~1.7 миллионов оценок
    17.7% заполненность
MovieLens datasets
  • 100,000 ratings for 1682 movies by 943 users
  • 1 million ratings for 3900 movies by 6040 users
  • 10 million ratings and 100,000 tags for 10681 movies by 71567 users
LibimSeTi dating agency dataset
135,359 пользователей
168,791 объектов
17,359,346 оценок
0.76% заполненность
EachMovie dataset (supposed to be unavailable)
72,916 пользователей
1628 объектов
2,811,983 оценок
Neilsen Media Research dataset
Media Metrix
UC Irvine Census data

TODO: check TheInfo Infochimps

Генераторы модельных данных, под какие алгоритмы CF заточены

Оценка качества

Функционалы для оценки качества (это оччень скользский вопрос!)

Графики, которые позволят судить о качестве алгоритмов и сравнивать их

Графики, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри,

Личные инструменты