Признаковое описание

Материал из MachineLearning.

Версия от 19:00, 29 марта 2008; Vokov (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Признаковое описание объекта — это вектор, составленный из значений фиксированного набора признаков на данном объекте. Признаки в общем случае могут иметь различные типы, причём не обязательно числовые.

Содержание

Определения

Пусть X — множество объектов (ситуаций, прецедентов). Что есть объект, определяется спецификой предметной области. Например, в задачах медицинской диагностики объектами являются пациенты. В задаче кредитного скоринга объектами являются заёмщики. В задаче обнаружения спама объектами являются письма электронной почты.

Признак

Признаком (feature) называется результат измерения некоторой характеристики объекта. Формально, признак — это отображение f:\: X\to D_f, где D_f — множество допустимых значений признака. В зависимости от природы этого множества признаки делятся на следующие типы:

  • бинарный признак: D_f=\{0,1\};
  • номинальный признак: D_f — конечное множество;
  • порядковый признак: D_f — конечное упорядоченное множество;
  • количественный признак: D_f=\mathbb{R}.

В прикладных задачах встречаются и более сложные случаи. Значениями признаков могут быть числовые последовательности, изображения, тексты, функции, графы, результаты запросов к базе данных, и т. д.

Если все признаки имеют одинаковый тип, то исходные данные называются однородными, в противном случае — разнородными.

Признаковое описание объекта

Пусть имеется набор признаков f_1,\ldots,f_n. Вектор \bigl( f_1(x),\ldots,f_n(x) \bigr) называется признаковым описанием объекта x\in X. В машинном обучении не делается различия между объектом и его признаковым описанием; полагается, что X = D_{f_1}\times\dots\times D_{f_n}.

Матрица объектов–признаков

Совокупность признаковых описаний всех объектов обучающей выборки X^\ell = \bigl(x_1,\ldots,x_\ell \bigr), записанную в виде таблицы размером \ell\times n, называют матрицей объектов–признаков, матрицей информации или просто матрицей исходных данных:

F = \bigl( f_j(x_i) \bigr)_{\ell\times n} =
\begin{pmatrix}
f_1(x_1) & \cdots & f_n(x_1) \\
\cdots & \cdots & \cdots    \\
f_1(x_\ell) & \cdots & f_n(x_\ell)
\end{pmatrix}

Строки матрицы — это признаковые описания обучающих объектов. Столбцы матрицы соотвествуют признакам.

Матрица «объекты × признаки» является стандартным и наиболее распространённым способом представления исходных данных в задачах классификации и регрессии. Подавляющее большинство методов обучения приспособлены к обработке именно таких данных. Однако на практике встречаются задачи, в которых данные устроены сложнее. Например, в задаче обнаружения спама объекты (письма) представляются текстами произвольной длины; к тому же, в письмо могут быть вложены файлы произвольного формата. В таких случаях по имеющимся исходным данным вычисляются некоторые признаки, что позволяет привести данные к стандартному матричному виду. Этот приём называется извлечением признаков из данных (features extraction) или генерацией признаков (features generation).

Таким образом, признаки — это характеристики объектов, которые либо измеряются непосредственно, либо вычисляются по «сырым» исходным данным. Любое отображение из множества X можно рассматривать как признак.

Литература

  1. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
  2. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
  3. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
  4. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.

Ссылки

Личные инструменты