Репозиторий UCI

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 18: Строка 18:
Качество некоторых алгоритмов может оказаться ''неразличимым'', если выполнено не достаточно много разбиений выборки.
Качество некоторых алгоритмов может оказаться ''неразличимым'', если выполнено не достаточно много разбиений выборки.
-
Всегда существует опасность того, что результаты, представленные в таблице {{S|«задачи × алгоритмы»}} несколько смещены в оптимистичную сторону.
+
Всегда существует опасность того, что результаты, представленные в таблице {{S|«задачи × алгоритмы»}}, несколько смещены в оптимистичную сторону.
Это происходит из-за того, что в процессе экспериментирования исследователь многократно строит эту таблицу, и если она ему не нравится (предложенный алгоритм не выходит в лидеры соревнования), он вручную подстраивает некоторые его параметры. {{S|По сути дела}}, эта та же подгонка под выборку, только выполняется она не компьютером, а самим исследователем.
Это происходит из-за того, что в процессе экспериментирования исследователь многократно строит эту таблицу, и если она ему не нравится (предложенный алгоритм не выходит в лидеры соревнования), он вручную подстраивает некоторые его параметры. {{S|По сути дела}}, эта та же подгонка под выборку, только выполняется она не компьютером, а самим исследователем.
Как и всякая подгонка, она может приводить к [[переобучению]], причём, чем больше вариантов перебрал исследователь, тем более существенным может оказаться эффект переобучения.
Как и всякая подгонка, она может приводить к [[переобучению]], причём, чем больше вариантов перебрал исследователь, тем более существенным может оказаться эффект переобучения.
Строка 38: Строка 38:
{{S|[[регрессия]] — 12}},
{{S|[[регрессия]] — 12}},
{{S|[[кластеризация]] — 5}}.
{{S|[[кластеризация]] — 5}}.
-
{{S|В виде}} матрицы «объекты-признаки» представлены только {{S|122 задачи}}, остальные имеют более сложную структуру данных.
+
{{S|В виде}} матрицы {{S|«объекты × признаки»}} представлены только {{S|122 задачи}}, остальные имеют более сложную структуру данных.
Более полная статистика по типам задач показана на странице [http://archive.ics.uci.edu/ml/datasets.html].
Более полная статистика по типам задач показана на странице [http://archive.ics.uci.edu/ml/datasets.html].
Строка 67: Строка 67:
== Литература ==
== Литература ==
-
# ''Pat Langley'' [http://www-csli.stanford.edu/icml2k/craft.html Crafting Papers on Machine Learning] // Proc. 17th International Conf. on Machine Learning. 2000. Morgan Kaufmann, San Francisco, CA. Pp 1207-1212.
+
# ''Pat Langley''. [http://www-csli.stanford.edu/icml2k/craft.html Crafting Papers on Machine Learning] // Proc. 17th International Conf. on Machine Learning. 2000. Morgan Kaufmann, San Francisco, CA. Pp 1207-1212.
[[Категория:Инструменты и технологии]]
[[Категория:Инструменты и технологии]]

Версия 12:05, 29 марта 2008

Репозиторий UCI (UCI Machine Learning Repository) — крупнейший репозиторий реальных и модельных задач машинного обучения. Cодержит реальные данные по прикладным задачам в области биологии, медицины, физики, техники, социологии, и др. Задачи (наборы данных, data set) именно этого репозитория чаще всего используются научным сообществом для эмпирического анализа алгоритмов машинного обучения.

Репозиторий UCI создан в университете г.Ирвин (Калифорния, США).

Содержание

Использование Репозитория UCI

Преимущества использования общего репозитория:

  • обеспечивается возможность воспроизведения и верификации результатов другими исследователями;
  • поскольку задач много, существенно затрудняется «подгонка» алгоритма под одну конкретную задачу;
  • возникает возможность выделять классы задач, для решения которых исследуемый алгоритм подходит лучше.

В публикациях результаты эмпирического анализа представляются в виде таблицы «задачи × алгоритмы». В каждой ячейке таблицы показывается значения функционала качества. Как правило, это функционал скользящего контроля, характеризующий обобщающую (предсказательную) способность алгоритма. Чтобы оценить доверительные интервалы для значений качества, представленных в таблице, скользящий контроль выполняется многократно, обычно не менее 20 раз, по случайным разбиениям выборки.

Хорошей (но, к сожалению, редкой) практикой является применение методов дисперсионного анализа для проверки статистической значимости выявленых различий качества алгоритмов. Качество некоторых алгоритмов может оказаться неразличимым, если выполнено не достаточно много разбиений выборки.

Всегда существует опасность того, что результаты, представленные в таблице «задачи × алгоритмы», несколько смещены в оптимистичную сторону. Это происходит из-за того, что в процессе экспериментирования исследователь многократно строит эту таблицу, и если она ему не нравится (предложенный алгоритм не выходит в лидеры соревнования), он вручную подстраивает некоторые его параметры. По сути дела, эта та же подгонка под выборку, только выполняется она не компьютером, а самим исследователем. Как и всякая подгонка, она может приводить к переобучению, причём, чем больше вариантов перебрал исследователь, тем более существенным может оказаться эффект переобучения.

В последние годы всё большее распространение приобретает методика тестирования, когда набор задач делится на две части. По первой разрешается выполнять ручную подгонку алгоритма, по второй делается однократное окончательное сравнение алгоритмов. Рекомендуется, чтобы оба набора содержали несколько десятков задач.

История

Первая версия архива собрана Дэвидом Аха (David Aha) и его студентами в 1987 году. Начиная с этого момента репозиторий широко использовался студентами, преподавателями и исследователями по всему миру как первичный источник данных для тестирования и сравнения алгоритмов машинного обучения. Текущая версия с новым веб-интерфейсом разработана в 2007 году и поддерживается Артуром Асунсьоном (Arthur Asuncion) и Дэвидом Ньюманом (David Newman).

Архив задач постоянно пополняется. На конец марта 2008 года число задач составляло 171, из них: классификация — 113, регрессия — 12, кластеризация — 5. В виде матрицы «объекты × признаки» представлены только 122 задачи, остальные имеют более сложную структуру данных. Более полная статистика по типам задач показана на странице [1].

Начиная с момента создания, более 1000 статей сослались на Репозиторий UCI, то есть содержали описания экспериментов, выполненых над задачами из UCI. Ссылка на Репозиторий UCI постоянно находится в числе 100 наиболее цитируемых источников в области информатики (computer science).

Цитирование

При публикации результатов исследований, в которых использовались задачи из Репозитория UCI, ссылка на Репозиторий обязательна:

Запись в формате BiBTeX:

@misc{Asuncion+Newman:2007,
   author      = "A. Asuncion and D.J. Newman",
   year        = "2007",
   title       = "{UCI} Machine Learning Repository",
   url         = "http://www.ics.uci.edu/$\sim$mlearn/{MLR}epository.html",
   institution = "University of California, Irvine, School of Information and Computer Sciences" 
} 

Некоторые из задач требуют дополнительных ссылок, что отдельно указывается на веб-странице каждой задачи.

Ссылки

  1. UCI Machine Learning Repository — домашняя страница проекта.
  2. Data sets — список всех задач.

Литература

  1. Pat Langley. Crafting Papers on Machine Learning // Proc. 17th International Conf. on Machine Learning. 2000. Morgan Kaufmann, San Francisco, CA. Pp 1207-1212.
Личные инструменты