Признаковое описание

Материал из MachineLearning.

Версия от 19:00, 29 марта 2008; Vokov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Признаковое описание объекта — это вектор, составленный из значений фиксированного набора признаков на данном объекте. Признаки в общем случае могут иметь различные типы, причём не обязательно числовые.

Определения

Пусть $X$ — множество объектов (ситуаций, прецедентов). Что есть объект, определяется спецификой предметной области. Например, в задачах медицинской диагностики объектами являются пациенты. В задаче кредитного скоринга объектами являются заёмщики. В задаче обнаружения спама объектами являются письма электронной почты.

Признак

Признаком (feature) называется результат измерения некоторой характеристики объекта. Формально, признак — это отображение $f:\: X\to D_f$ , где $D_f$ — множество допустимых значений признака. В зависимости от природы этого множества признаки делятся на следующие типы:

бинарный признак: $D_f=\{0,1\}$ ;
номинальный признак: $D_f$ — конечное множество;
порядковый признак: $D_f$ — конечное упорядоченное множество;
количественный признак: $D_f=\mathbb{R}$ .

В прикладных задачах встречаются и более сложные случаи. Значениями признаков могут быть числовые последовательности, изображения, тексты, функции, графы, результаты запросов к базе данных, и т. д.

Если все признаки имеют одинаковый тип, то исходные данные называются однородными, в противном случае — разнородными.

Признаковое описание объекта

Пусть имеется набор признаков $f_1,\ldots,f_n$ . Вектор $\bigl( f_1(x),\ldots,f_n(x) \bigr)$ называется признаковым описанием объекта $x\in X$ . В машинном обучении не делается различия между объектом и его признаковым описанием; полагается, что $X = D_{f_1}\times\dots\times D_{f_n}$ .

Матрица объектов–признаков

Совокупность признаковых описаний всех объектов обучающей выборки $X^\ell = \bigl(x_1,\ldots,x_\ell \bigr)$ , записанную в виде таблицы размером $\ell\times n$ , называют матрицей объектов–признаков, матрицей информации или просто матрицей исходных данных:

$F = \bigl( f_j(x_i) \bigr)_{\ell\times n} = \begin{pmatrix} f_1(x_1) & \cdots & f_n(x_1) \\ \cdots & \cdots & \cdots \\ f_1(x_\ell) & \cdots & f_n(x_\ell) \end{pmatrix}$

Строки матрицы — это признаковые описания обучающих объектов. Столбцы матрицы соотвествуют признакам.

Матрица «объекты × признаки» является стандартным и наиболее распространённым способом представления исходных данных в задачах классификации и регрессии. Подавляющее большинство методов обучения приспособлены к обработке именно таких данных. Однако на практике встречаются задачи, в которых данные устроены сложнее. Например, в задаче обнаружения спама объекты (письма) представляются текстами произвольной длины; к тому же, в письмо могут быть вложены файлы произвольного формата. В таких случаях по имеющимся исходным данным вычисляются некоторые признаки, что позволяет привести данные к стандартному матричному виду. Этот приём называется извлечением признаков из данных (features extraction) или генерацией признаков (features generation).

Таким образом, признаки — это характеристики объектов, которые либо измеряются непосредственно, либо вычисляются по «сырым» исходным данным. Любое отображение из множества $X$ можно рассматривать как признак.

Литература

Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.

Ссылки

Воронцов К. В. Математические методы обучения по прецедентам. Курс лекций. МФТИ. 2006

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%BE%D0%B2%D0%BE%D0%B5_%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5»

Категории: Машинное обучение | Энциклопедия анализа данных

Признаковое описание

Материал из MachineLearning.

Содержание

Определения

Признак

Признаковое описание объекта

Матрица объектов–признаков

Литература

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты