Фактор инфляции дисперсии
Материал из MachineLearning.
 (Новая: В задаче восстановления регрессии '''фактор инфляции дисперсии''' (VIF) — мера [[ Мультиколлинеарность| м...)  | 
				м  (→Ссылки)  | 
			||
| (12 промежуточных версий не показаны.) | |||
| Строка 1: | Строка 1: | ||
| - | В задаче восстановления регрессии '''фактор инфляции дисперсии''' (VIF) — мера [[ Мультиколлинеарность| мультиколлинеарности ]] . Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.  | + | В задаче восстановления регрессии '''фактор инфляции дисперсии''' (VIF) — мера [[Мультиколлинеарность|мультиколлинеарности]]. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.  | 
==Определение==  | ==Определение==  | ||
| Строка 5: | Строка 5: | ||
Пусть задана выборка <tex>D = \{ y_i,\mathbf{x}_i\}_{i=1}^n</tex> откликов и признаков. Рассматривается множество [[Линейная регрессия (пример)|линейных регрессионных моделей]] вида:  | Пусть задана выборка <tex>D = \{ y_i,\mathbf{x}_i\}_{i=1}^n</tex> откликов и признаков. Рассматривается множество [[Линейная регрессия (пример)|линейных регрессионных моделей]] вида:  | ||
| - | <tex>y_i=\sum_{j=1}^m   | + | <tex>y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n</tex>  | 
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию <tex>\sigma^2</tex>. В этом случае дисперсия <tex>w_i</tex>:  | Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию <tex>\sigma^2</tex>. В этом случае дисперсия <tex>w_i</tex>:  | ||
| Строка 15: | Строка 15: | ||
<tex>VIF_j=\frac{1}{1-R_j^2},</tex>  | <tex>VIF_j=\frac{1}{1-R_j^2},</tex>  | ||
| - | <tex>  | + | где <tex>R_j^2</tex> — [[коэффициент детерминации]] j-го признака относительно остальных:  | 
| - | Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.   | + | <tex>R_j^2 \equiv 1-{\sum_{i=1}^n (x_{ij} - \hat{x}_{ij})^2 \over \sum_{i=1}^n (x_{ij}-\bar{\mathbf{x}}_j)^2},\.</tex>  | 
| + | |||
| + | Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.  | ||
| + | |||
| + | ==Вычислительный эксперимент==  | ||
| + | |||
| + | Мы использовали [http://www-stat.stanford.edu/~hastie/Papers/LARS/ реальные данные], на которых тестировался [[LARS]]. На них был проведен эксперимент по вычислению VIF для различных признаков. Код и данные размещены в [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/ZaitsevPavlov2009VIF/ репозитории Sourceforge]. Полученные результаты представлены в таблице.  | ||
| + | |||
| + | {| class="wikitable" style="text-align: center;"  | ||
| + | |- bgcolor="#ccccc"  | ||
| + | ! width=30 % |#  | ||
| + | ! width=40 % |VIF  | ||
| + | ! width=30 % |#  | ||
| + | ! width=40 % |VIF  | ||
| + | |-  | ||
| + | | '''1''' || 1.21 || '''7''' || 3.82     | ||
| + | |-  | ||
| + | | '''2''' || 1.31 || '''8''' || 7.43   | ||
| + | |-  | ||
| + | | '''3''' || 1.69 || '''9''' || 3.46    | ||
| + | |-  | ||
| + | | '''4''' || 1.51 || '''10''' || 1.47   | ||
| + | |-  | ||
| + | | '''5''' || 19.27 || '''11''' || 1.97   | ||
| + | |-  | ||
| + | | '''6''' || 16.37 || ''' ''' || ''' '''   | ||
| + | |-  | ||
| + | |}  | ||
| + | |||
| + | Мы видим, что у двух признаков значение фактора инфляции дисперсии больше 10, еще у одного больше 5. Такой результат — следствие их мультиколлинеарности относительно остальных признаков нашего набора.  | ||
| + | |||
| + | ==Смотри также==  | ||
| + | |||
| + | * [[Мультиколлинеарность]]  | ||
| + | * [[Анализ мультиколлинеарности (пример)]]  | ||
| + | * [[Коэффициент детерминации]]  | ||
| + | |||
| + | ==Ссылки==  | ||
| + | |||
| + | * [http://en.wikipedia.org/wiki/Variance_Inflation_Factor Wikipedia]  | ||
| + | * [http://www-stat.stanford.edu/~hastie/Papers/LARS/ Данные для вычислительного эксперимента]  | ||
| + | * [https://svn.code.sf.net/p/mlalgorithms/code/Group674/ZaitsevPavlov2009VIF/ Репозиторий]  | ||
==Литература==  | ==Литература==  | ||
| Строка 27: | Строка 68: | ||
|страницы     = 487   | |страницы     = 487   | ||
}}  | }}  | ||
| + | |||
| + | [[Категория:Линейная регрессия]]  | ||
Текущая версия
В задаче восстановления регрессии фактор инфляции дисперсии (VIF) — мера мультиколлинеарности. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.
Содержание | 
Определение
Пусть задана выборка  откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию . В этом случае дисперсия 
:
 
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где  — коэффициент детерминации j-го признака относительно остальных:
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение  велико, то 
 — мало, то есть 
 близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Вычислительный эксперимент
Мы использовали реальные данные, на которых тестировался LARS. На них был проведен эксперимент по вычислению VIF для различных признаков. Код и данные размещены в репозитории Sourceforge. Полученные результаты представлены в таблице.
| # | VIF | # | VIF | 
|---|---|---|---|
| 1 | 1.21 | 7 | 3.82 | 
| 2 | 1.31 | 8 | 7.43 | 
| 3 | 1.69 | 9 | 3.46 | 
| 4 | 1.51 | 10 | 1.47 | 
| 5 | 19.27 | 11 | 1.97 | 
| 6 | 16.37 | 
Мы видим, что у двух признаков значение фактора инфляции дисперсии больше 10, еще у одного больше 5. Такой результат — следствие их мультиколлинеарности относительно остальных признаков нашего набора.
Смотри также
Ссылки
Литература
1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — Вильямс, 2007. — С. 487.

