Метод Белсли
Материал из MachineLearning.
 (Новая: Линейные регрессионные модели часто используются для исследования зависимости между ответом и приз...)  | 
				м  (→Анализ коллинеарности)  | 
			||
| Строка 8: | Строка 8: | ||
Где <tex>U</tex> - n x p ортогональная матрица, <tex>D</tex> - p x p верхняя диагональная матрица, чьи неотрицательные элементы являются сингулярными значениями <tex>X</tex>, <tex>V</tex> - p x p ортогональная матрица, чьи колонки это собственные вектора <tex>X^T X</tex>. Если существует коллинеарная зависимоть, то  | Где <tex>U</tex> - n x p ортогональная матрица, <tex>D</tex> - p x p верхняя диагональная матрица, чьи неотрицательные элементы являются сингулярными значениями <tex>X</tex>, <tex>V</tex> - p x p ортогональная матрица, чьи колонки это собственные вектора <tex>X^T X</tex>. Если существует коллинеарная зависимоть, то  | ||
будут какие-либо сингулярные значения, скажем, (р - s), которые близки к нулю.  | будут какие-либо сингулярные значения, скажем, (р - s), которые близки к нулю.  | ||
| + | Предположим, что <tex>d_{jj}</tex>, или просто <tex>d_{j}</tex>, элементы матрицы <tex>D</tex> упорядочены так, что <br/>  | ||
| + | <tex>d_{1} \geq d_{2} \geq ...\geq d_{s} \geq ... \geq  d_{p} \geq 0 </tex><br/>  | ||
| + | И рассмотрим разбиение<br/>  | ||
| + | <tex>  | ||
| + | D=\begin{bmatrix} D_{s\times s} & O_{s \times (p-s)} \\ O_{(p-s) \times s} & D_{(p-s)\times (p-s)} \end{bmatrix}.  | ||
| + | </tex>  | ||
| + | |||
==Анализ полученных данных==  | ==Анализ полученных данных==  | ||
== Смотри также ==  | == Смотри также ==  | ||
== Литература ==  | == Литература ==  | ||
Версия 14:36, 27 июня 2010
Линейные регрессионные модели часто используются для исследования зависимости между ответом и признаками, однако результаты часто сомнительны, так как данные не всегда подходящие. Например, при большом количестве признаков часто многие из них сильно зависимы друг от друга, и эта зависимость уменьшает вероятность получения адекватных результатов. Belsley, Kuh и Welsch предложили метод анализа мультиколлинеарности основанный на индексах обусловленности(the scaled condition indexes) и дисперсионных долях(the variance-decomposition proportions).
Содержание | 
Анализ коллинеарности
Линейная регрессионная модель: 
где  - n-мерный ветор ответа(зависимой переменной), 
 - n x p (n>p) матрица признаков 
 - p-мерный вектор неизвестных коэффициентов, 
 - p-мерный вектор случайного возмущения с нулевым матожиданием и ковариационной матрицей 
, где 
 это n x n единичная матрица, а 
. Будем считать что 
 имеет ранг p.
Если есть коллинеарность между признаками согласно Belsley имеет смысл использовать сингулярное разложение(SVD) чтобы определить вовлеченные переменные. Матрица сингулярного разложения 
 определяется как: 
Где  - n x p ортогональная матрица, 
 - p x p верхняя диагональная матрица, чьи неотрицательные элементы являются сингулярными значениями 
, 
 - p x p ортогональная матрица, чьи колонки это собственные вектора 
. Если существует коллинеарная зависимоть, то
будут какие-либо сингулярные значения, скажем, (р - s), которые близки к нулю.
Предположим, что 
, или просто 
, элементы матрицы 
 упорядочены так, что 
И рассмотрим разбиение

