Признаковое описание
Материал из MachineLearning.
Признаковое описание объекта — это вектор, составленный из значений фиксированного набора признаков на данном объекте. Признаки в общем случае могут иметь различные типы, причём не обязательно числовые.
Содержание |
Определения
Пусть — множество объектов (ситуаций, прецедентов). Что есть объект, определяется спецификой предметной области. Например, в задачах медицинской диагностики объектами являются пациенты. В задаче кредитного скоринга объектами являются заёмщики. В задаче обнаружения спама объектами являются письма электронной почты.
Признак
Признаком (feature) называется результат измерения некоторой характеристики объекта. Формально, признак — это отображение , где — множество допустимых значений признака. В зависимости от природы этого множества признаки делятся на следующие типы:
- бинарный признак: ;
- номинальный признак: — конечное множество;
- порядковый признак: — конечное упорядоченное множество;
- количественный признак: .
В прикладных задачах встречаются и более сложные случаи. Значениями признаков могут быть числовые последовательности, изображения, тексты, функции, графы, результаты запросов к базе данных, и т. д.
Если все признаки имеют одинаковый тип, то исходные данные называются однородными, в противном случае — разнородными.
Признаковое описание объекта
Пусть имеется набор признаков . Вектор называется признаковым описанием объекта . В машинном обучении не делается различия между объектом и его признаковым описанием; полагается, что .
Матрица объектов–признаков
Совокупность признаковых описаний всех объектов обучающей выборки , записанную в виде таблицы размером , называют матрицей объектов–признаков, матрицей информации или просто матрицей исходных данных:
Строки матрицы — это признаковые описания обучающих объектов. Столбцы матрицы соотвествуют признакам.
Матрица «объекты × признаки» является стандартным и наиболее распространённым способом представления исходных данных в задачах классификации и регрессии. Подавляющее большинство методов обучения приспособлены к обработке именно таких данных. Однако на практике встречаются задачи, в которых данные устроены сложнее. Например, в задаче обнаружения спама объекты (письма) представляются текстами произвольной длины; к тому же, в письмо могут быть вложены файлы произвольного формата. В таких случаях по имеющимся исходным данным вычисляются некоторые признаки, что позволяет привести данные к стандартному матричному виду. Этот приём называется извлечением признаков из данных (features extraction) или генерацией признаков (features generation).
Таким образом, признаки — это характеристики объектов, которые либо измеряются непосредственно, либо вычисляются по «сырым» исходным данным. Любое отображение из множества можно рассматривать как признак.
В том числе, любой алгоритм регрессии или классификации, как отображение вида , также может рассматриваться в роли признака. Хотя это наблюдение тривиально, тем не менее, оно даёт ключ к построению суперпозиций или композиций алгоритмов. Всегда имеется возможность, построив один или несколько алгоритмов, присоединить их к признаковому описанию в роли новых признаков и использовать при построении следующего алгоритма.
Литература
- Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
- Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
- Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.
Ссылки
- Воронцов К. В. Математические методы обучения по прецедентам. Курс лекций. МФТИ. 2006