Анализ мультиколлинеарности (пример)
Материал из MachineLearning.
м  (→Методика Belsley, Kuh, и Welsch (BKW))  | 
				м  (→Методика Belsley, Kuh, и Welsch (BKW))  | 
			||
| Строка 22: | Строка 22: | ||
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.  | Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.  | ||
=== Методика Belsley, Kuh, и Welsch (BKW) ===  | === Методика Belsley, Kuh, и Welsch (BKW) ===  | ||
| - | Диагностика Коллинеарности BKW основана на двух элементах, относящихся к <tex> n \times p</tex> матрице данных <tex>X </tex> использующейся в линейной регрессии <tex> y = X \beta + \epsilon</tex> : индексы   | + | Диагностика Коллинеарности BKW основана на двух элементах, относящихся к <tex> n \times p</tex> матрице данных <tex>X </tex> использующейся в линейной регрессии <tex> y = X \beta + \epsilon</tex> : индексы обусловленности(the scaled condition indexes) и дисперсионные соотношения(the  variance-decomposition proportions). Оба этих диагностических элемента могут быть получены из сингулярного разложения (SVD) матрицы <tex>X</tex>: <tex> X=UD{V^{T}}</tex>, где <tex>{U}^{T}U={V}^{T}V={I}_{p}</tex> и <tex>D</tex> - диогональная с неотрицательными элементами <tex>{\mu}_{1},...,{\mu}_{p}</tex> называющимися сингулярными значениями <tex>X</tex>. Индексы обусловленности это:  | 
<tex>{\eta}_{k}\equiv\frac{{\mu}_{max}}{{\mu}_{k}}</tex>, <tex>k=1,...,p</tex> <br />  | <tex>{\eta}_{k}\equiv\frac{{\mu}_{max}}{{\mu}_{k}}</tex>, <tex>k=1,...,p</tex> <br />  | ||
<tex>{\eta}_{k} \geq 0 </tex> для всех <tex>k</tex>. Большое значение <tex>{\eta}_{k}</tex> указывает на зависимость близкую к линейной между признаками и чем больше <tex>{\eta}_{k}</tex> тем сильнее зависимость. Дисперсионные соотношения разложения проистекают из того факта, что используя SVD ковариационная матрица метода наименьших квадратов <tex> b=(X^{T}X)^{-1}X^{T}y</tex> может записана как:<br /> <tex> V(b)={\sigma}^{2}(X^{T}X)^{-1} = {\sigma}^{2}V D^{-2} V^{T}</tex> (3)<br />  | <tex>{\eta}_{k} \geq 0 </tex> для всех <tex>k</tex>. Большое значение <tex>{\eta}_{k}</tex> указывает на зависимость близкую к линейной между признаками и чем больше <tex>{\eta}_{k}</tex> тем сильнее зависимость. Дисперсионные соотношения разложения проистекают из того факта, что используя SVD ковариационная матрица метода наименьших квадратов <tex> b=(X^{T}X)^{-1}X^{T}y</tex> может записана как:<br /> <tex> V(b)={\sigma}^{2}(X^{T}X)^{-1} = {\sigma}^{2}V D^{-2} V^{T}</tex> (3)<br />  | ||
| Строка 58: | Строка 58: | ||
|-  | |-  | ||
|}  | |}  | ||
| - | Перед использованием BKW необходимо отмасштабировать матрицу <tex>X</tex>. Стандартно применяется приведение столбцов к одинаковой длинне(норму). Будем рассматривать отмасштабированные индексы   | + | Перед использованием BKW необходимо отмасштабировать матрицу <tex>X</tex>. Стандартно применяется приведение столбцов к одинаковой длинне(норму). Будем рассматривать отмасштабированные индексы обусловленности <tex>\stackrel{\sim}{{\eta}_{i}}(X)</tex> :<br/>  | 
<tex>X=[{X}_{1}\cdot\cdot\cdot{X}_{p}]<tex><br/> <tex>{s}_{i}\equiv{({X}^{T}_{i}{X}_{i})}^{-1/2}</tex><br/> <tex>S\equiv \mbox{diag}({s}_{1},...,{s}_{p})</tex><br/>  | <tex>X=[{X}_{1}\cdot\cdot\cdot{X}_{p}]<tex><br/> <tex>{s}_{i}\equiv{({X}^{T}_{i}{X}_{i})}^{-1/2}</tex><br/> <tex>S\equiv \mbox{diag}({s}_{1},...,{s}_{p})</tex><br/>  | ||
<tex>\stackrel{\sim}{\eta}\equiv {\eta}_{i}(XS)</tex>, <tex>i=1,...,p</tex><br/>  | <tex>\stackrel{\sim}{\eta}\equiv {\eta}_{i}(XS)</tex>, <tex>i=1,...,p</tex><br/>  | ||
| - | Алгоритм BKW   | + | ====Алгоритм BKW====  | 
1. Создание матрицы данных <tex>X</tex>.<br/>  | 1. Создание матрицы данных <tex>X</tex>.<br/>  | ||
2. Приведение столбцов матрицы к одинаковой длинне.<br/>  | 2. Приведение столбцов матрицы к одинаковой длинне.<br/>  | ||
| - | 3. Вычисление индексов   | + | 3. Вычисление индексов обусловленности и дисперсионных соотношений.<br/>  | 
| - | 4. Определение зависимых признаков.  | + | 4. Определение зависимых признаков.<br/>  | 
| + | Зависимыми выбираются признаки у которых индекс обусловленности больше какого либо выбранного значения.  | ||
| + | Относительная сила зависимости определяется положение значения индеса обусловленности в прогресии 1, 3, 10, 30, 100, 300, 1000 итд.<br/>  | ||
| + | 5. Определение влияющих признаков.<br/>  | ||
| + | Для каждого зависимого признака  | ||
== Вычислительный эксперимент ==  | == Вычислительный эксперимент ==  | ||
Версия 12:34, 7 июня 2010
Мультиколлинеарность — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.
Содержание | 
Постановка задачи
Задана выборка  откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию 
.
Требуется создать инструмент исследования мультиколлинеарности признаков (методики VIF, Belsley) и исследовать устойчивость модели на зависимость параметров модели от дисперсии случайной переменной и выбросов в выборке.
Описание алгоритма
Фактор инфляции дисперсии (VIF)
Дисперсия :
 
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где  — коэффициент детерминации j-го признака относительно остальных:
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение  велико, то 
 — мало, то есть 
 близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Методика Belsley, Kuh, и Welsch (BKW)
Диагностика Коллинеарности BKW основана на двух элементах, относящихся к  матрице данных 
 использующейся в линейной регрессии 
 : индексы обусловленности(the scaled condition indexes) и дисперсионные соотношения(the  variance-decomposition proportions). Оба этих диагностических элемента могут быть получены из сингулярного разложения (SVD) матрицы 
: 
, где 
 и 
 - диогональная с неотрицательными элементами 
 называющимися сингулярными значениями 
. Индексы обусловленности это:
, 
 
 для всех 
. Большое значение 
 указывает на зависимость близкую к линейной между признаками и чем больше 
 тем сильнее зависимость. Дисперсионные соотношения разложения проистекают из того факта, что используя SVD ковариационная матрица метода наименьших квадратов 
 может записана как:
  (3)
где  это дисперсия возмущения 
. Таким образом дисперсия k-го регрессионного коэффициента 
 это k-й диогональный элемент (3): 
       (4)
где  - сингулярные значения 
 и 
. 
Определим 
-е дисперсионное соотношение как долю дисперсии k-го регрессионного коэффициента связанная с j-м компонентом его разложения (4). Доля считается как:
 
, 
, 
 
Дисперсионное соотношение: 
 
, 
 
 
Данные удобно представить в виде таблицы: 
, 
,
, 
| Condition index | ||||
|---|---|---|---|---|
|   |   |   | ... |   | 
|   |   | ... | ... |   | 
| . | . | . | . | |
| . | . | . | . | |
| . | . | . | . | |
|   |   |   | ... |   | 
Перед использованием BKW необходимо отмасштабировать матрицу . Стандартно применяется приведение столбцов к одинаковой длинне(норму). Будем рассматривать отмасштабированные индексы обусловленности 
 :
 
, 
Алгоритм BKW
1. Создание матрицы данных .
2. Приведение столбцов матрицы к одинаковой длинне.
3. Вычисление индексов обусловленности и дисперсионных соотношений.
4. Определение зависимых признаков.
Зависимыми выбираются признаки у которых индекс обусловленности больше какого либо выбранного значения.
Относительная сила зависимости определяется положение значения индеса обусловленности в прогресии 1, 3, 10, 30, 100, 300, 1000 итд.
5. Определение влияющих признаков.
Для каждого зависимого признака
Вычислительный эксперимент
Исходный код
Смотри также
Литература
|   |  Данная статья является непроверенным учебным заданием.
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.  | 

