Фактор инфляции дисперсии
Материал из MachineLearning.
м  («Фактор инфляции регрессии» переименована в «Фактор инфляции дисперсии»: опечатка)  | 
				|||
| Строка 5: | Строка 5: | ||
Пусть задана выборка <tex>D = \{ y_i,\mathbf{x}_i\}_{i=1}^n</tex> откликов и признаков. Рассматривается множество [[Линейная регрессия (пример)|линейных регрессионных моделей]] вида:  | Пусть задана выборка <tex>D = \{ y_i,\mathbf{x}_i\}_{i=1}^n</tex> откликов и признаков. Рассматривается множество [[Линейная регрессия (пример)|линейных регрессионных моделей]] вида:  | ||
| - | <tex>y_i=\sum_{j=1}^m   | + | <tex>y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n</tex>  | 
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию <tex>\sigma^2</tex>. В этом случае дисперсия <tex>w_i</tex>:  | Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию <tex>\sigma^2</tex>. В этом случае дисперсия <tex>w_i</tex>:  | ||
| Строка 14: | Строка 14: | ||
<tex>VIF_j=\frac{1}{1-R_j^2},</tex>  | <tex>VIF_j=\frac{1}{1-R_j^2},</tex>  | ||
| + | |||
| + | где <tex>R</tex> — [[коэффициент детерминации]]:  | ||
<tex>R^2 \equiv 1-{\sum_{j=1}^n (y_j - \hat{y}_j)^2 \over \sum_{j=1}^n (y_j-\bar{y})^2},\.</tex>  | <tex>R^2 \equiv 1-{\sum_{j=1}^n (y_j - \hat{y}_j)^2 \over \sum_{j=1}^n (y_j-\bar{y})^2},\.</tex>  | ||
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.   | Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.   | ||
| + | |||
| + | ==Ссылки==  | ||
| + | |||
| + | [http://en.wikipedia.org/wiki/Variance_Inflation_Factor]  | ||
==Литература==  | ==Литература==  | ||
| Строка 27: | Строка 33: | ||
|страницы     = 487   | |страницы     = 487   | ||
}}  | }}  | ||
| + | |||
| + | [[Категория:Линейная регрессия]]  | ||
Версия 20:50, 4 марта 2010
В задаче восстановления регрессии фактор инфляции дисперсии (VIF) — мера мультиколлинеарности . Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.
Определение
Пусть задана выборка  откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию . В этом случае дисперсия 
:
 
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где  — коэффициент детерминации:
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение  велико, то 
 — мало, то есть 
 близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных. 
Ссылки
Литература
1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — Вильямс, 2007. — С. 487.

