Анализ мультиколлинеарности (пример)
Материал из MachineLearning.
м  (→Смотри также)  | 
				м  (→Вычислительный эксперимент)  | 
			||
| Строка 77: | Строка 77: | ||
В эксперименте используются модельные данные, для которых вычисляется VIF и матрица Belsley в зависимоти от параметра определяющего степень коллинеарности между признаками. Зависимость VIF и индексов обусловленности показана на графиках. Остальная часть таблицы BKW раскрашивалась (от темно-синего для 0 к темно-красному для 1) и создавалось видео показывающее ее изменение при параметре от 0 до 1.    | В эксперименте используются модельные данные, для которых вычисляется VIF и матрица Belsley в зависимоти от параметра определяющего степень коллинеарности между признаками. Зависимость VIF и индексов обусловленности показана на графиках. Остальная часть таблицы BKW раскрашивалась (от темно-синего для 0 к темно-красному для 1) и создавалось видео показывающее ее изменение при параметре от 0 до 1.    | ||
===Пример 1===  | ===Пример 1===  | ||
| - | Используются 2 ортогональных признака   | + | Используются 2 ортогональных признака <tex>x_1</tex>, <tex>x_2</tex> и третий <tex>y_1</tex> зависящий от параметра <tex>k</tex>. При параметре равном 0 все признаки ортогональны, при его увеличении <tex>y_1</tex> приближается к <tex>x_1</tex>, вплоть до полной коллинеарности при <tex>k=1</tex>.   | 
Зависимость VIF от параметра:<br/>  | Зависимость VIF от параметра:<br/>  | ||
[[Изображение:plot3vif.jpg|600px]]<br/>  | [[Изображение:plot3vif.jpg|600px]]<br/>  | ||
| - | Как видно из графика VIF   | + | Как видно из графика VIF <tex>x_1</tex> и <tex>y_1</tex> растет вплоть до бесконечности при <tex>k=1</tex>, VIF <tex>x_2</tex> при это не изменен и равен 1.<br/>  | 
| - | Зависимость индексов обусловленности от k:<br/>  | + | Зависимость индексов обусловленности от <tex>k</tex>:<br/>  | 
[[Изображение:plot3sci.jpg|600px]]<br/>  | [[Изображение:plot3sci.jpg|600px]]<br/>  | ||
Таблица дисперсионных долей:<br/>  | Таблица дисперсионных долей:<br/>  | ||
| Строка 87: | Строка 87: | ||
 |<videoflash type="youtube">Z2I2tDdYKVk</videoflash>  |  |<videoflash type="youtube">Z2I2tDdYKVk</videoflash>  | ||
 |}<br/>  |  |}<br/>  | ||
| - | Видно что   | + | Видно что <tex>x_1</tex> и <tex>y_1</tex> связаны усиляющейся зависимостью, и что других связей нет.  | 
===Пример 2===  | ===Пример 2===  | ||
| - | Используется неизменный признак   | + | Используется неизменный признак <tex>x_1</tex> и зависящие от параметра <tex>y_1</tex>, <tex>y_2</tex>, <tex>y_3</tex>. При параметре равном 0 все признаки ортогональны, при его увеличении <tex>y_1</tex>, <tex>y_2</tex>, <tex>y_3</tex> одновременно начинают приближаться к <tex>x_1</tex> вплоть до полной коллинеарности при <tex>k=1</tex>.  | 
Зависимость VIF от параметра:<br/>  | Зависимость VIF от параметра:<br/>  | ||
[[Изображение:plot1vif.jpg|600px]]<br/>  | [[Изображение:plot1vif.jpg|600px]]<br/>  | ||
| - | Зависимость индексов обусловленности от k:<br/>  | + | Зависимость индексов обусловленности от <tex>k</tex>:<br/>  | 
[[Изображение:plot1sci.jpg|600px]]<br/>  | [[Изображение:plot1sci.jpg|600px]]<br/>  | ||
Таблица дисперсионных долей:<br/>  | Таблица дисперсионных долей:<br/>  | ||
| Строка 98: | Строка 98: | ||
 |<videoflash type="youtube">mxdctxZ_j2o</videoflash>  |  |<videoflash type="youtube">mxdctxZ_j2o</videoflash>  | ||
 |}<br/>  |  |}<br/>  | ||
| - | Наблюдаются 3 зависимости - в самой сильной участвуют все 4 признака, во второй   | + | Наблюдаются 3 зависимости - в самой сильной участвуют все 4 признака, во второй <tex>y_1</tex> и <tex>y_3</tex>, и в самой слабой <tex>y_1</tex> и <tex>y_1</tex>.  | 
===Пример 3===  | ===Пример 3===  | ||
| - | Используется неизменные признаки   | + | Используется неизменные признаки <tex>x_1</tex>, <tex>x_2</tex> и зависящие от параметра <tex>y_1</tex>,<tex>y_2</tex>,<tex>y_3</tex>. ПРи параметре равном 0 все признаки ортогональны, при  его увеличении <tex>y_1</tex>, <tex>y_2</tex> приближаются к <tex>x_1</tex>, <tex>y_3</tex> - к <tex>x_2</tex> вплоть до полной коллинеарности при <tex>k=1</tex>.<br/>  | 
Зависимость VIF от параметра:<br/>  | Зависимость VIF от параметра:<br/>  | ||
[[Изображение:plot2vif.jpg|600px]]<br/>  | [[Изображение:plot2vif.jpg|600px]]<br/>  | ||
| - | Зависимость индексов обусловленности от k:<br/>  | + | Зависимость индексов обусловленности от <tex>k</tex>:<br/>  | 
[[Изображение:plot2sci.jpg|600px]]<br/>  | [[Изображение:plot2sci.jpg|600px]]<br/>  | ||
Таблица дисперсионных долей:<br/>  | Таблица дисперсионных долей:<br/>  | ||
| Строка 110: | Строка 110: | ||
 |<videoflash type="youtube">Ba6oCK_-QlY</videoflash>  |  |<videoflash type="youtube">Ba6oCK_-QlY</videoflash>  | ||
 |}<br/>  |  |}<br/>  | ||
| - | Наблюдается 2 основных зависимости - между   | + | Наблюдается 2 основных зависимости - между <tex>x_1</tex>, <tex>y_1</tex>, <tex>y_2</tex> и вторая между <tex>x_2</tex>, <tex>x_3</tex>.  | 
== Исходный код ==  | == Исходный код ==  | ||
Версия 21:26, 28 сентября 2010
Мультиколлинеарность — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.
Содержание | 
Постановка задачи
Задана выборка  признаков и зависимой переменной. Рассматривается линейная регрессионная модель вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию 
.
Требуется создать инструмент исследования мультиколлинеарности признаков (методики VIF, Belsley) и исследовать устойчивость модели на зависимость параметров от дисперсии случайной переменной.
Описание алгоритма
Фактор инфляции дисперсии (VIF)
В задаче восстановления регрессии фактор инфляции дисперсии (VIF) — мера мультиколлинеарности. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.
Дисперсия  может быть выражена как:
 
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где  — коэффициент детерминации j-го признака относительно остальных - фактически он содержит информацию о том, насколько точно можно построить регрессию для j-го признака относительно остальных, т.е его зависимость от них. 
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение  велико, то 
 — мало, то есть 
 близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Методика Belsley, Kuh, и Welsch (BKW)
Диагностика коллинеарности BKW основана на двух элементах, относящихся к  матрице данных 
 использующейся в линейной регрессии 
 : индексы обусловленности(the scaled condition indexes) и дисперсионные доли(the  variance-decomposition proportions). Оба этих диагностических элемента могут быть получены из сингулярного разложения (SVD) матрицы 
: 
, где 
 и 
 - диагональная с неотрицательными элементами 
 называющимися сингулярными числами 
. Индексы обусловленности это:
, 
 
 для всех 
. Большое значение 
 указывает на зависимость близкую к линейной между признаками и чем больше 
 тем сильнее зависимость. Дисперсионные доли находятся из того факта, что используя SVD ковариационная матрица метода наименьших квадратов 
 может записана как:
 
где  это дисперсия возмущения 
. Таким образом дисперсия 
-го регрессионного коэффициента 
 это 
-й диогональный элемент (3): 
где  - сингулярные значения 
 и 
. 
Определим 
-е дисперсионное соотношение как долю дисперсии 
-го регрессионного коэффициента связанная с 
-м компонентом его разложения (4). Доля считается как:
 
, 
, 
 
Дисперсионное соотношение: 
 
, 
 
 
Данные удобно представить в виде таблицы: 
| Condition index | ||||
|---|---|---|---|---|
|   |   |   | ... |   | 
|   |   | ... | ... |   | 
| . | . | . | . | |
| . | . | . | . | |
| . | . | . | . | |
|   |   |   | ... |   | 
Перед использованием BKW необходимо отмасштабировать матрицу . Стандартно применяется приведение столбцов к одинаковой длинне(норму). Будем рассматривать отмасштабированные индексы обусловленности 
 :
 
, 
Алгоритм BKW
1. Стандартизация столбцов матрицы.
2. Вычисление индексов обусловленности и дисперсионных долей.
3. Определение количества зависимостей.
Превышение индексом обусловленности выбраного заранее порога означает наличие зависимости между признаками.
Относительная сила зависимости определяется положение значения индекса обусловленности в прогресии 1, 3, 10, 30, 100, 300, 1000 итд.
4. Определение признаков участвующих в зависимости. 
2 случая :
1) Только один достаточно большой индекс обусловленности - тогда возможно определение участвующих в зависимости признаков из дисперсионных долей: признак считается вовлеченным если его дисперсионная доля связанная с этим индексом превышает выбранный порог  (обычно 0.25).
2) Есть несколько больших индексов обусловленности. В этом случае вовлеченность признака в зависимость определяется по сумме его дисперсионных долей отвечающих большим значениям индекса обусловленности - когда сумма превышает порог  признак участвует как минимум в одной линейной зависимости.
Вычислительный эксперимент
В эксперименте используются модельные данные, для которых вычисляется VIF и матрица Belsley в зависимоти от параметра определяющего степень коллинеарности между признаками. Зависимость VIF и индексов обусловленности показана на графиках. Остальная часть таблицы BKW раскрашивалась (от темно-синего для 0 к темно-красному для 1) и создавалось видео показывающее ее изменение при параметре от 0 до 1.
Пример 1
Используются 2 ортогональных признака , 
 и третий 
 зависящий от параметра 
. При параметре равном 0 все признаки ортогональны, при его увеличении 
 приближается к 
, вплоть до полной коллинеарности при 
. 
Зависимость VIF от параметра:
![]()
Как видно из графика VIF  и 
 растет вплоть до бесконечности при 
, VIF 
 при это не изменен и равен 1.
Зависимость индексов обусловленности от :
![]()
Таблица дисперсионных долей:
Видно что  и 
 связаны усиляющейся зависимостью, и что других связей нет.
Пример 2
Используется неизменный признак  и зависящие от параметра 
, 
, 
. При параметре равном 0 все признаки ортогональны, при его увеличении 
, 
, 
 одновременно начинают приближаться к 
 вплоть до полной коллинеарности при 
.
Зависимость VIF от параметра:
![]()
Зависимость индексов обусловленности от :
![]()
Таблица дисперсионных долей:
Наблюдаются 3 зависимости - в самой сильной участвуют все 4 признака, во второй  и 
, и в самой слабой 
 и 
.
Пример 3
Используется неизменные признаки , 
 и зависящие от параметра 
,
,
. ПРи параметре равном 0 все признаки ортогональны, при  его увеличении 
, 
 приближаются к 
, 
 - к 
 вплоть до полной коллинеарности при 
.
Зависимость VIF от параметра:
![]()
Зависимость индексов обусловленности от :
![]()
Таблица дисперсионных долей:
Наблюдается 2 основных зависимости - между , 
, 
 и вторая между 
, 
.
Исходный код
- Cкачать листинги алгоритмов можно здесь [1]
 
Смотри также
- Фактор инфляции дисперсии
 - Мультиколлинеарность
 - Метод наименьших квадратов
 - Линейная регрессия (пример)
 - Сингулярное разложение
 - Методика Belsley
 
Литература
- Gianfranco Galmacci, Collinearity Detection in Linear Regression. Computational Economics 9:215-227, 1996.
 - D. A. Belsley, A Guide to Using the Collinearity Diagnostics. Computer Science in Economics and Management 4: 33-50, 1991.
 
|   |  Данная статья является непроверенным учебным заданием.
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.  | 

