Фактор инфляции дисперсии
Материал из MachineLearning.
 (→Ссылки)  | 
				м  (викификация)  | 
			||
| Строка 1: | Строка 1: | ||
| - | В задаче восстановления регрессии '''фактор инфляции дисперсии''' (VIF) — мера [[ Мультиколлинеарность| мультиколлинеарности ]] . Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.  | + | В задаче восстановления регрессии '''фактор инфляции дисперсии''' (VIF) — мера [[Мультиколлинеарность|мультиколлинеарности]]. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.  | 
==Определение==  | ==Определение==  | ||
Версия 09:38, 10 марта 2010
В задаче восстановления регрессии фактор инфляции дисперсии (VIF) — мера мультиколлинеарности. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.
Содержание | 
Определение
Пусть задана выборка  откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию . В этом случае дисперсия 
:
 
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где  — коэффициент детерминации j-го признака относительно остальных:
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение  велико, то 
 — мало, то есть 
 близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Вычислительный эксперимент
Мы использовали реальные данные, на которых тестировался LARS. На них был проведен эксперимент по вычислению VIF для различных признаков. Код и данные размещены в репозитории Sourceforge. Полученные результаты представлены в таблице.
| # | VIF | # | VIF | 
|---|---|---|---|
| 1 | 1.21 | 7 | 3.82 | 
| 2 | 1.31 | 8 | 7.43 | 
| 3 | 1.69 | 9 | 3.46 | 
| 4 | 1.51 | 10 | 1.47 | 
| 5 | 19.27 | 11 | 1.97 | 
| 6 | 16.37 | 
Мы видим, что у 2 признаков значение фактора инфляции дисперсии больше 10, еще у одного больше 5. Такой результат — следствие их мультиколлинеарности относительно остальных признаков нашего набора.
Смотри также
Ссылки
Литература
1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — Вильямс, 2007. — С. 487.

