Значимость коэффициентов линейной регрессии

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Анализ структкры модели)
Строка 30: Строка 30:
== Анализ структкры модели ==
== Анализ структкры модели ==
-
Если для <tex>Y,X,\Theta</tex> выполнено {{eqref|1}}, то говорят, что соотношение {{eqref|1}} описывает "процесс, порождающий данные" или что {{eqref|1}} является "истинной моделью". Как правило, на практике истинная модель неизвестна, исследователь оценивает модель, которая лишь приближенно соответствует процессу, порождающему данные. Выбор регрессоров, которые присутствуют в модели назовём '''структурой модели'''.
+
Если для <tex>\hat{Y},X,\Theta</tex> выполнено {{eqref|1}}, то говорят, что соотношение {{eqref|1}} описывает "процесс, порождающий данные" или что {{eqref|1}} является "истинной моделью". Как правило, на практике истинная модель неизвестна, исследователь оценивает модель, которая лишь приближенно соответствует процессу, порождающему данные. Выбор регрессоров, которые присутствуют в модели назовём '''структурой модели'''.
Возникает вопрос о соотношении между [[Метод наименьших квадратов|МНК-оценками]] параметров в истинной и выбранной моделях. Рассмотрим две ситуации:
Возникает вопрос о соотношении между [[Метод наименьших квадратов|МНК-оценками]] параметров в истинной и выбранной моделях. Рассмотрим две ситуации:
Строка 39: Строка 39:
'''Утверждение 1''' ''(исключение существенных переменных):''
'''Утверждение 1''' ''(исключение существенных переменных):''
-
''Если [[Многомерная линейная регрессия|основные предположения многомерной линейной регрессии]] верны для <tex>X = (X^1 ,X^2)</tex>, но МНК-оценка <tex>\hat{\Theta^1}</tex> построена только по <tex>X^1</tex>, то <tex>\hat{\Theta} = \left[\hat{\Theta^1} \\ \0\right]</tex> - [[Несмещённая оценка|смещённая]] и [[Состоятельная оценка|несостоятельная]] оценка для <tex>\theta</tex>.''
+
''Если [[Многомерная линейная регрессия|основные предположения многомерной линейной регрессии]] верны для <tex>X = (X^1 ,X^2)</tex>, но МНК-оценка <tex>\hat{\Theta^1}</tex> построена только по <tex>X^1</tex>, то <tex>\hat{\Theta} = \left[\hat{\Theta^1} \\ \0\right]</tex> - [[Несмещённая оценка|смещённая]] и [[Состоятельная оценка|несостоятельная]] оценка для <tex>\Theta</tex>.''
Утверждение 1 говорит о том, что если при построении модели регрессии мы недобрали предикторных переменных, то получим плохую МНК-оценку для параметров регрессии.
Утверждение 1 говорит о том, что если при построении модели регрессии мы недобрали предикторных переменных, то получим плохую МНК-оценку для параметров регрессии.
Строка 50: Строка 50:
Здесь <tex>\tr\; cov\; \hat{\Theta}</tex> - след ковариционной матрицы оценок.
Здесь <tex>\tr\; cov\; \hat{\Theta}</tex> - след ковариционной матрицы оценок.
-
В утверждении 2 говорится, что если в регрессионной модели присутствуют лишние предикторных переменных, то возрастают дисперсии полученных МНК-оценок.
+
В утверждении 2 говорится, что если в регрессионной модели присутствуют лишние предикторные переменных, то возрастают дисперсии полученных МНК-оценок.
Можно сделать вывод, что если не выполнять проверок на значимость предикторных переменных, то для получения хорошей МНК-оценки коэффициентов регрессии лучше взять предикторных переменных больше, нежели недобрать их.
Можно сделать вывод, что если не выполнять проверок на значимость предикторных переменных, то для получения хорошей МНК-оценки коэффициентов регрессии лучше взять предикторных переменных больше, нежели недобрать их.

Версия 20:02, 23 января 2009

Проверка статистической значимости коэффициентов линейной регрессии заключается в проверке гипотезы значимости или незначимости отличия оценок некоторых регрессионных коэффициентов от нуля. Если в результате проверки оказывается, что отличие оценок каких-то регрессионных коэффициентов от нуля не влияет на качество модели, то соответствующие предикторные переменные можно искличить из регрессионной модели.

Содержание

Обозначения

Введем обозначения:

  •  X_i= \left[ x_{i1} \\ ...\\ x_{in}  \right] , i = 1,\dots,k - набор k предикторных переменных


  •   \Theta= \left[\theta_1 \\ ...\\\theta_k  \right] - коэффициенты линейной регрессии.


  •  \hat{Y}= \left[ \hat{y}_1 \\ ...\\ \hat{y}_n\right] – зависимая переменная (отклик)
Модель линейной регрессии имеет вид:
(1)
\hat{Y} = \sum_{i=1}^k \theta_i \cdot X_i

Пусть k = k_1+k_2.Введём дополнительные обозначения:


  • X = \(X_1,\dots,X_k\) ,\;\; X^1 = (X_1,\dots, X_{k_1}), \;\; X^2 = (X_{k_1+1},\dots, X_k)

Тогда X = (X^1 ,X^2).


  •   \Theta^1= \left[\theta_1 \\ ...\\\theta_{k1} \right],\;\; \Theta^2= \left[\theta_{k1+1} \\ ...\\\theta_k  \right]


Тогда \Theta = \left[\Theta^1 \\ \Theta^2\right].

Анализ структкры модели

Если для \hat{Y},X,\Theta выполнено (1), то говорят, что соотношение (1) описывает "процесс, порождающий данные" или что (1) является "истинной моделью". Как правило, на практике истинная модель неизвестна, исследователь оценивает модель, которая лишь приближенно соответствует процессу, порождающему данные. Выбор регрессоров, которые присутствуют в модели назовём структурой модели.

Возникает вопрос о соотношении между МНК-оценками параметров в истинной и выбранной моделях. Рассмотрим две ситуации:

  • в оцениваемой модели отсутствет часть предикторных переменных, которые есть в истинной модели(исключение существенных переменных);
  • в оцениваемой модели присутствуют предикторных переменные, которых нет в истинной модели(включение несущественных переменных).


Утверждение 1 (исключение существенных переменных):

Если основные предположения многомерной линейной регрессии верны для X = (X^1 ,X^2), но МНК-оценка \hat{\Theta^1} построена только по X^1, то \hat{\Theta} = \left[\hat{\Theta^1} \\ \0\right] - смещённая и несостоятельная оценка для \Theta.

Утверждение 1 говорит о том, что если при построении модели регрессии мы недобрали предикторных переменных, то получим плохую МНК-оценку для параметров регрессии.

Утверждение 2 (включение несущественных переменных):

Если основные предположения многомерной линейной регрессии верны для X^1, но МНК-оценка \hat{\Theta} построена по X, то \hat{\Theta} - несмещённая и состоятельная оценка для \Theta = \left[\Theta^1 \\ \0\right].

При этом \textstyle \tr\; cov\; \hat{\Theta} > \tr\; cov \;\hat{\Theta^1} .

Здесь \tr\; cov\; \hat{\Theta} - след ковариционной матрицы оценок. В утверждении 2 говорится, что если в регрессионной модели присутствуют лишние предикторные переменных, то возрастают дисперсии полученных МНК-оценок.

Можно сделать вывод, что если не выполнять проверок на значимость предикторных переменных, то для получения хорошей МНК-оценки коэффициентов регрессии лучше взять предикторных переменных больше, нежели недобрать их.

Проверка значимости коэффициентов

Коэффициент линейной регрессии считается значимым, если его МНК-оценка отлична от нуля.

Опишем критерий Фишера проверки значимости коэффициентов линейной регрессии.

Нулевая гипотеза H_0:\; \Theta^2 = 0.

Нулевая гипотеза утверждает, что отклик Y не зависит от предикторных переменных X^2.

Статистика критерия:

F = \frac{\frac{1}{k - k_1} \| X\cdot\hat{\Theta} - X^1 \cdot \hat{\Theta^1}\|^2}{\frac{1}{n-k}\|Y - X\cdot\hat{\Theta}\|^2}

имеет имеет распределение Фишера с k-k_1 и n-k степенями свободы. Тогда критической областью критерия является правый хвост распределения Фишера, что соотвествует альтернативной гипотезе H_1.

Критерий (при уровне значимости \alpha) против альтернативы H_1:\; \Theta^2 \neq 0:

  • если F>F_{1-\alpha}(k-k_1,n-k), то нулевая гипотеза H_0 отвергается в пользу альтернативы H_1;
  • если F<=F_{1-\alpha}(k-k_1,n-k), то принимаем нулевую гипотезу H_0;

где F_{\alpha}(n-1,m-1) есть \alpha-квантиль распределения Фишера с n-1 и m-1 степенями свободы.

Литература

  1. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2004. — 576 с. стр.124-132

См. также

Ссылки

Личные инструменты