Репозиторий UCI
Материал из MachineLearning.
Репозиторий UCI (UCI Machine Learning Repository) — крупнейший репозиторий реальных и модельных задач машинного обучения. Cодержит реальные данные по прикладным задачам в области биологии, медицины, физики, техники, социологии, и др. Задачи (наборы данных, data set) именно этого репозитория чаще всего используются научным сообществом для эмпирического анализа алгоритмов машинного обучения.
Репозиторий UCI создан в университете г.Ирвин (Калифорния, США).
Содержание |
Использование Репозитория UCI
Преимущества использования общедоступного репозитория:
- обеспечивается возможность воспроизведения и верификации результатов другими исследователями;
- поскольку задач много, существенно затрудняется «подгонка» алгоритма под одну конкретную задачу;
- возникает возможность выделять классы задач, для решения которых исследуемый алгоритм подходит лучше.
Результаты эмпирического анализа представляются в отчётах и публикациях в виде таблицы «задачи × алгоритмы». Строки таблицы соответствуют задачам, столбцы — алгоритмам (в редких случаях, когда алгоритмов больше, чем задач, таблица строится в транспонированном виде «алгоритмы × задачи»). В каждой ячейке таблицы показывается значения функционала качества для данного алгоритма на данной задаче. Как правило, это функционал скользящего контроля, характеризующий обобщающую (предсказательную) способность алгоритма. Чтобы оценить доверительные интервалы для значений качества, представленных в таблице, скользящий контроль выполняется многократно, обычно не менее 20 раз, по случайным разбиениям выборки.
Хорошей (но, к сожалению, редкой) практикой является применение методов дисперсионного анализа для проверки статистической значимости выявленых различий качества алгоритмов. Качество некоторых алгоритмов может оказаться неразличимым, если выполнено не достаточно много разбиений выборки.
Всегда существует опасность того, что результаты, представленные в таблице «задачи × алгоритмы», несколько смещены в оптимистичную сторону. Это происходит из-за того, что в процессе экспериментирования исследователь многократно строит эту таблицу, и если она ему не нравится (предложенный алгоритм не выходит в лидеры соревнования), он вручную подстраивает некоторые его параметры. По сути дела, эта та же подгонка под выборку, только выполняется она не компьютером, а самим исследователем. Как и всякая подгонка, она может приводить к переобучению, причём, чем больше вариантов перебрал исследователь, тем более существенным может оказаться эффект переобучения.
В последние годы всё большее распространение приобретает методика тестирования, когда набор задач делится на две части. По первой разрешается выполнять ручную подгонку алгоритма, по второй делается однократное окончательное сравнение алгоритмов. Рекомендуется, чтобы оба набора содержали несколько десятков задач.
О методиках тестирования немного рассказно в статье Пэта Лэнгли. См. также Полигон алгоритмов/Методика тестирования.
История
Первая версия архива собрана Дэвидом Аха (David Aha) и его студентами в 1987 году. Начиная с этого момента репозиторий широко использовался студентами, преподавателями и исследователями по всему миру как первичный источник данных для тестирования и сравнения алгоритмов машинного обучения. Текущая версия с новым веб-интерфейсом разработана в 2007 году и поддерживается Артуром Асунсьоном (Arthur Asuncion) и Дэвидом Ньюманом (David Newman).
Архив задач постоянно пополняется. На 1 октября 2008 года число задач составляло 174, из них: классификация — 115, регрессия — 12, кластеризация — 5. В виде матрицы «объекты × признаки» представлены только 124 задачи, остальные имеют более сложную структуру данных. Более полная статистика по типам задач показана на странице Data sets.
Начиная с момента создания, более 1000 статей сослались на Репозиторий UCI, то есть содержали описания экспериментов, выполненых над задачами из UCI. Ссылка на Репозиторий UCI постоянно находится в числе 100 наиболее цитируемых источников в области информатики (computer science).
Цитирование
При публикации результатов исследований, в которых использовались задачи из Репозитория UCI, ссылка на Репозиторий обязательна:
- Asuncion A., Newman D.J. UCI Machine Learning Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html). Irvine, CA: University of California, School of Information and Computer Science. 2007.
Запись в формате BiBTeX:
@misc{Asuncion+Newman:2007, author = "A. Asuncion and D.J. Newman", year = "2007", title = "{UCI} Machine Learning Repository", url = "http://www.ics.uci.edu/$\sim$mlearn/{MLR}epository.html", institution = "University of California, Irvine, School of Information and Computer Sciences" }
Некоторые из задач требуют дополнительных ссылок, что отдельно указывается на веб-странице каждой задачи.
См. также
- Коллекция учебных задач
- Категория:Учебные задачи
- Категория:Конкурсы
- Полигон алгоритмов
- Полигон алгоритмов/Методика тестирования
Ссылки
- UCI Machine Learning Repository — домашняя страница проекта.
- Data sets — список всех задач.
Литература
- Pat Langley. Crafting Papers on Machine Learning // Proc. 17th International Conf. on Machine Learning. 2000. Morgan Kaufmann, San Francisco, CA. Pp 1207-1212.