Шаговая регрессия (пример)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 46: Строка 46:
Признаки удаляются , пока значение F-критерия на шаге не станет больше заданного критического значения <tex> F_2 </tex>.
Признаки удаляются , пока значение F-критерия на шаге не станет больше заданного критического значения <tex> F_2 </tex>.
 +
 +
Критические значения <tex> F_1 </tex> и <tex> F_2 </tex> для каждого шага определяются по таблице Фишера c заданным уровнем значимости <tex> \alpha </tex> со степенями свободы <tex> p_1 - p_2 </tex> и <tex> m - p_2 </tex>.
== Остановка алгоритма ==
== Остановка алгоритма ==

Версия 21:48, 24 апреля 2010

Содержание

Логистическая регрессия - частный случай обобщенной линейной регрессии. Предполагается, что зависимая переменная принимает два значения и имеет биномиальное распределение

В данной статье рассматриваются два алгоритма отбора признаков линейной регрессии: метод наименьших углов и шаговая регрессия.

Метод наименьших углов (англ. least angle regression, LARS) - алгоритм отбора признаков в задачах линейной регрессии. При большом количестве свободных переменных возникает проблема неустойчивого оценивания весов модели. LARS предлагает метод выбора такого набора свободных переменных, который имел бы наиболее значимую статистическую связь с зависимой переменной. Также LARS предлагает метод оценки весов.

Шаговая регрессия (stepwise regression)

Цель пошаговой регрессии состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной.

Пусть нам задана регрессионная модель

 y= f(\beta, x) +\mathbf{\varepsilon}.

Алгоритм заключается в последовательном добавлении и удалении признаков согласно определённому критерию. Обычно используется F- критерий, который имеет вид

F={\frac{S_1-S_2}{S_2}}{\frac{m-p_2}{p_1-p_2}

где индекс 2 соответствует второй регрессионной модели , индекс 1 соответствует первой регрессионной модели, которая является модификацией второй модели;  p_1, p_2 - соответствующие числа параметров модели; S- сумма квадратов невязок, задающий критерий качества модели.

S=\sum_{i} {(y^i-f(\beta, x^i))^2.

Шаговая регрессия включает два основных шага: шаг Add (последовательное добавление признаков) и шаг Del (последовательное удаление признаков).

Постановка задачи

Задана выборка - матрица X, столбцы которой соответствуют независимым переменным, а строки - элементам выборки и вектор \mathbf{y}, содержащий элементы зависимой переменной. Назначена линейная модель \mathbf{y}=X\mathbf{\beta}+\mathbf{\varepsilon}.

Требуется найти набор признаков (столбцов матрицы  X ) , удовлетворяющий F-критерию.

Описание алгоритма

Обозначим текущий набор признаков  A . Начальным набором является пустой набор  A= \emptyset. К текущему набору  A присоединяется по одному признаку, который дoставляет максимум F-критерию или

 j^*= arg \max_{j\in J}F_add= arg \max_{j\in J}{\frac{S(A)-S(A\cup x^j)}{S(A\cup x^j)}}

Добавляется несколько признаков, пока значение критерия на шаге не станет меньше заданного  F_1 . Затем признаки удаляются по одному так, чтобы значение F-критерия было минимально:

 j^*= arg \min_{j\in J}F_del= arg \min_{j\in J}{\frac{S(A/x^j)-S(A)}{S(A)}}

Признаки удаляются , пока значение F-критерия на шаге не станет больше заданного критического значения  F_2 .

Критические значения  F_1 и  F_2 для каждого шага определяются по таблице Фишера c заданным уровнем значимости  \alpha со степенями свободы  p_1 - p_2 и  m - p_2 .

Остановка алгоритма

Останов алгоритма производится при достижении заданного минимума критерием Маллоуза  C_p  :

 C_p= {\frac{S}{MSE}} +2k - m ,

где  MSE= {\frac{S_n}{n}} - среднеквадратичная ошибка, вычисленная для модели, настроенной методом наименьших квадратов на всем множестве признаков, k - сложность модели.

Критерий штрафует модели с большим количеством признаков. Минимизация критерия позволяет найти множество, состоящее из значимых признаков.

Личные инструменты