Анализ мультиколлинеарности (пример)
Материал из MachineLearning.
м   | 
				м   | 
			||
| Строка 1: | Строка 1: | ||
'''[[Мультиколлинеарность]]''' — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.  | '''[[Мультиколлинеарность]]''' — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.  | ||
== Постановка задачи ==  | == Постановка задачи ==  | ||
| + | Задана выборка <tex>D = \{ y_i,\mathbf{x}_i\}_{i=1}^n</tex> откликов и признаков. Рассматривается множество [[Линейная регрессия (пример)|линейных регрессионных моделей]] вида:  | ||
| + | |||
| + | <tex>y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n</tex>  | ||
| + | Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию <tex>\sigma^2</tex>.  | ||
| + | Требуется создать инструмент исследования мультиколлинеарности признаков (методики VIF, Belsley) и исследовать устойчивость модели на зависимость параметров модели от дисперсии случайной переменной и выбросов в выборке.  | ||
== Описание алгоритма ==  | == Описание алгоритма ==  | ||
=== [[Фактор инфляции дисперсии|Фактор инфляции дисперсии (VIF)]] ===  | === [[Фактор инфляции дисперсии|Фактор инфляции дисперсии (VIF)]] ===  | ||
| + | Дисперсия <tex>w_i</tex>:  | ||
| + | |||
| + | <tex>D\hat{w}_j=\frac{\sigma^2}{(n-1)D x_j}\frac{1}{1-R_j^2}.</tex>   | ||
| + | |||
| + | Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:  | ||
| + | |||
| + | <tex>VIF_j=\frac{1}{1-R_j^2},</tex>  | ||
| + | |||
| + | где <tex>R_j^2</tex> — [[коэффициент детерминации]] j-го признака относительно остальных:  | ||
| + | |||
| + | <tex>R_j^2 \equiv 1-{\sum_{i=1}^n (x_{ij} - \hat{x}_{ij})^2 \over \sum_{i=1}^n (x_{ij}-\bar{\mathbf{x}}_j)^2},\.</tex>  | ||
| + | Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.  | ||
=== Метод Belsley ===  | === Метод Belsley ===  | ||
== Вычислительный эксперимент ==  | == Вычислительный эксперимент ==  | ||
Версия 12:57, 8 мая 2010
Мультиколлинеарность — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.
Содержание | 
Постановка задачи
Задана выборка  откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию 
.
Требуется создать инструмент исследования мультиколлинеарности признаков (методики VIF, Belsley) и исследовать устойчивость модели на зависимость параметров модели от дисперсии случайной переменной и выбросов в выборке.
Описание алгоритма
Фактор инфляции дисперсии (VIF)
Дисперсия :
 
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где  — коэффициент детерминации j-го признака относительно остальных:
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение  велико, то 
 — мало, то есть 
 близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Метод Belsley
Вычислительный эксперимент
Исходный код
Смотри также
Литература
|   |  Данная статья является непроверенным учебным заданием.
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.  | 

