Отбор признаков

Материал из MachineLearning.

Перейти к: навигация, поиск

Шаблон:Философия ИИ/Статья создана с помощью ИИ

Отбор признаков (Feature Selection)

Отбор признаков (англ. feature selection) — процесс выбора оптимального подмножества релевантных признаков (предикторов, переменных) для построения модели машинного обучения. Отбор признаков преследует несколько фундаментальных целей: преодоление «проклятия размерности» (curse of dimensionality), устранение мультиколлинеарности, минимизация времени обучения и радикальное повышение интерпретируемости результирующих моделей при сохранении или увеличении их обобщающей способности.

1. Математическая постановка задачи

Пусть задана обучающая выборка, представленная в виде матрицы объекты-признаки X \in \mathbf{R}^{N \times D}, где N — количество независимых объектов (наблюдений), а D — исходная размерность признакового пространства. Каждому объекту (строке матрицы) x_i \in \mathbf{R}^D поставлен в соответствие истинный ответ (целевая переменная) y_i \in \mathbf{Y}. Для задач регрессии \mathbf{Y} = \mathbf{R}, для задач многоклассовой классификации \mathbf{Y} = \{1, \dots, K\}.

Определим полное множество индексов исходных признаков как:

\Omega = \{1, \dots, D\}, \quad |\Omega| = D

Задачей отбора признаков является нахождение оптимального подмножества индексов S \subset \Omega фиксированной или переменной мощности |S| = d (где d \ll D), которое минимизирует функционал эмпирического риска выбранного базового алгоритма обучения A на отложенной выборке:

S^* = \arg\min_{S \subset \Omega} \frac{1}{M} \sum_{m=1}^{M} \mathcal{L}\left(A(X_{S}^{train})_{x_m}, y_m\right)
где X_S — усеченная матрица объектов размерности N \times d, содержащая только столбцы с индексами из множества S, \mathcal{L} — функция потерь алгоритма, а M — размер валидационной выборки.

Полный перебор всех возможных комбинаций требует оценки 2^D вариантов, что представляет собой NP-трудную задачу. В силу этого на практике применяются эвристические подходы, разделяемые на три класса: фильтрация (filters), обертывание (wrappers) и встроенные методы (embedded).

2. Методы фильтрации (Filter Methods)

Методы фильтрации оценивают статистические свойства признаков изолированно от структуры и параметров финальной прогностической модели. Из-за вычислительной простоты они используются в качестве методов быстрой предварительной фильтрации (screener).

  • Порог дисперсии (Variance Threshold): Устраняет константные и квазиконстантные признаки, не несущие дискриминативной информации. Признак j</g> удаляется, если его выборочная дисперсия ниже заданного порога <tex>\tau:
\sigma^2_j = \frac{1}{N}\sum_{i=1}^{N} (x_{ij} - \mu_j)^2 < \tau, \quad \mu_j = \frac{1}{N}\sum_{i=1}^{N} x_{ij}
  • Линейный коэффициент корреляции Пирсона: Из