Мультиколлинеарность
Материал из MachineLearning.
м  (→Смотри также)  | 
				 (→Методы устранения мультиколлинеарности)  | 
			||
| Строка 28: | Строка 28: | ||
** Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности  | ** Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности  | ||
** Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной  | ** Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной  | ||
| - | ** К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного <tex>R^2</tex>  | + | ** К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного <<tex>tex</tex>>R^2</tex>  | 
**: Процесс присоединения регрессоров прекращается, когда значение скорректированного <tex>R^2</tex> становится меньше достигнутого на предыдущем шаге.  | **: Процесс присоединения регрессоров прекращается, когда значение скорректированного <tex>R^2</tex> становится меньше достигнутого на предыдущем шаге.  | ||
Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы <tex>A^TA</tex>, а, следовательно, и к повышению качества оценок параметров модели.  | Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы <tex>A^TA</tex>, а, следовательно, и к повышению качества оценок параметров модели.  | ||
| + | |||
| + | ----  | ||
| + | |||
| + | Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты — это '''метод предварительного центрирования'''. Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: <tex>Y'_t = Y_t - \bar{Y}</tex>. Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми ([http://sergey.svetunkov.ru/science/multicolinear.phtml Построение многофакторных моделей в условиях мультиколлинеарности]).  | ||
==Литература==  | ==Литература==  | ||
Версия 11:16, 3 апреля 2010
Мультиколлинеарность - тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.
Содержание | 
Основные положения
Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место полная (совершенная) мультиколлинеарность. Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой методом наименьших квадратов, если определитель матрицы  будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений. 
В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с частичной мультиколлинеарностью, которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица  будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми. 
Среди последствий частичной мультиколлинеарности можно выделить следующие:
- увеличение дисперсий оценок параметров
 - уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
 - получение неустойчивых оценок параметров модели и их дисперсий
 - возможность получения неверного с точки зрения теории знака у оценки параметра
 
Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:
-  Превышение некого порога модулем парного коэффициента корреляции между регрессорами 
и
 -  Близость к нулю определителя матрицы 
 - Большое количество статистически незначимых параметров в модели
 
Методы устранения мультиколлинеарности
Существует два основных подхода к решению этой задачи.
- Метод дополнительных регрессий
- Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми остальными
 -  Вычисляются коэффициенты детерминации 
для каждого уравнения регрессии
 -  Проверяется статистическая гипотеза 
с помощью F-теста
-  Вывод: если гипотеза 
не отвергается, то данный регрессор не приводит к мультиколлинеарности.
 
 -  Вывод: если гипотеза 
 
 
- Метод последовательного присоединения
- Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности
 - Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной
 -  К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного <
>R^2</tex>
-  Процесс присоединения регрессоров прекращается, когда значение скорректированного 
становится меньше достигнутого на предыдущем шаге.
 
 -  Процесс присоединения регрессоров прекращается, когда значение скорректированного 
 
 
Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы , а, следовательно, и к повышению качества оценок параметров модели.
Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты — это метод предварительного центрирования. Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: . Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми (Построение многофакторных моделей в условиях мультиколлинеарности).

