Анализ регрессионных остатков

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Under construction.)
Строка 1: Строка 1:
-
Under construction.
+
Для получения информации об адекватности построеной модели [[Многомерная линейная регрессия|многомерной линейной регрессии]] исследуют [[Многомерная линейная регрессия|регрессионные остатки]]. Если выбранная регрессионная модель хорошо описывает истинную зависимость,
 +
то остатки должны быть [[Выборка|независимыми]] [[Нормальное распределение|нормально распределенными]] [[Многомерная случайная величина|случайными величинами]] с нулевым [[Многомерная случайная величина|средним]],
 +
и в их значениях должен отсутствовать [[тренд]]. '''Анализ регрессионных остатков''' - это процесс проверки выполнения этих условий.
 +
 
 +
==Обозначения==
 +
Пусть дана последовательность наблюдаемых величин <tex>Y_1(X_1),\dots,Y_n(X_n)</tex>
 +
и получены их оценки:
 +
::<tex>\hat{Y_i}(X_i)=X_i \cdot \Theta , X_i \in \mathbb{R}^m , i= 1,\dots,n</tex> - [[Многомерная линейная регрессия|предикторные переменные]], <tex>\Theta \in \mathbb{R}^m</tex> - [[Многомерная линейная регрессия|коэффициенты регрессионной модели]], <tex>\hat{Y}_i \in \mathbb{R} , i= 1,\dots,n</tex> - [[Многомерная линейная регрессия|ответ]].
 +
 
 +
Регрессионные остатки обозначим через <tex>\varepsilon_i=Y_i-\hat{Y_i}</tex>, <tex>i= 1,\dots,n</tex>.
 +
 
 +
==Свойства регрессионных остатков==
 +
Для того, чтобы регрессионная модель хорошо описывала истинные данные, регрессионные остатки <tex>\varepsilon_i (i= 1,\dots,n)</tex> должны обладать следующими свойствами:
 +
*<tex> E \varepsilon_i = 0,i= 1,\dots,n</tex>{{eqno|1}}
 +
Эту гипотезу можно проверять одним из любым [[Проверка статистических гипотез|параметрическим]] или [[Проверка статистических гипотез|непараметрическим критерием]] сравнения среднего с заданным значением( в данном случае - с нулём).
 +
 
 +
*<tex> D \varepsilon_i = \sigma^2,i= 1,\dots,n</tex>{{eqno|2}} - т.е. дисперсия не изменяется.
 +
Проверяется аналогично, любым [[Проверка статистических гипотез|параметрическим]] или [[Проверка статистических гипотез|непараметрическим критерием]] сравнения дисперсии с заданным значением. Например, [[Критерий Зигеля-Тьюки]].
 +
 
 +
*<tex> \varepsilon_i \sim N(0,\sigma) i= 1,\dots,n, i \neq j</tex> {{eqno|3}}
 +
Это дополнительное предположение. Его важно проверить, если мы хотим использовать статистический критерий, предполагающий нормальность данных. Для проверки этой гипотезы можно использовать [[Статистический критерий|Критерий нормальности]].
 +
 
 +
*<tex> \varepsilon_i i= 1,\dots,n</tex>{{eqno|4}} - независимы.
 +
Независимость остатков может быть проверена при помощи [[Статистика Дарбина-Уотсона|статистики Дарбина-Уотсона]].
 +
 
 +
*{{eqno|6}}
 +
::<tex> E \varepsilon_i \varepsilon_j = 0,i,j= 1,\dots,n, i \neq j;</tex>
 +
 
 +
::<tex>E \varepsilon_i \hat{Y_i} = 0,i= 1,\dots,n;</tex>
 +
 
 +
::<tex>E \varepsilon_i i = 0,i= 1,\dots,n;</tex>
 +
 
 +
::<tex>E \varepsilon_i x_{ij} = 0,i= 1,\dots,n,j= 1,\dots,m, X_i = (x_{i1} , \dots, x_{im})</tex>.
 +
 
 +
Для проверки этих условий используется [[визуальный анализ]]. Зависимость <tex>\varepsilon_i (\cdot)</tex> не должна иметь закономерностей, где <tex>\cdot = \varepsilon_j,i,\hat{Y_i},x_{ij}</tex>.
 +
 
 +
*''Гипотеза случайности <tex> \varepsilon_i</tex> ''
 +
Один из вариантов проверки этой гипотезы [[критерий экстремумов]].{{eqno|7}}
 +
 
 +
*''Гипотеза отсутствия тренда ''{{eqno|8}}
 +
Отсутствие тренда удобно проверять с помощью [[Критерий Уилкоксона-Манна-Уитни|U-критерия]].
 +
Также можно применить визуальный анализ.
 +
 
 +
*''Гипотеза стационарности <tex> \varepsilon_i</tex>''
 +
 
 +
Эта гипотеза - объединяет {{eqref|2}},{{eqref|4}}. Если выполнено {{eqref|1}}, то стационарность удобно проверять с помощью [[Критерий Вальда-Вольфовица|критерия серий]].
 +
==Литература==
 +
#''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с. (стр. 658-659)
 +
==См. также==
 +
 
 +
==Ссылки==
 +
 
 +
[[Категория:Прикладная статистика]]
 +
[[Категория:Регрессионный анализ]]
 +
{{UnderConstruction|[[Участник:Валентина Федорова|Валентина Федорова]] 04:10, 23 января 2009 (MSK)}}{{Stub|}}

Версия 01:10, 23 января 2009

Для получения информации об адекватности построеной модели многомерной линейной регрессии исследуют регрессионные остатки. Если выбранная регрессионная модель хорошо описывает истинную зависимость, то остатки должны быть независимыми нормально распределенными случайными величинами с нулевым средним, и в их значениях должен отсутствовать тренд. Анализ регрессионных остатков - это процесс проверки выполнения этих условий.

Содержание

Обозначения

Пусть дана последовательность наблюдаемых величин Y_1(X_1),\dots,Y_n(X_n) и получены их оценки:

\hat{Y_i}(X_i)=X_i \cdot \Theta , X_i \in \mathbb{R}^m , i= 1,\dots,n - предикторные переменные, \Theta \in \mathbb{R}^m - коэффициенты регрессионной модели, \hat{Y}_i \in \mathbb{R} , i= 1,\dots,n - ответ.

Регрессионные остатки обозначим через \varepsilon_i=Y_i-\hat{Y_i}, i= 1,\dots,n.

Свойства регрессионных остатков

Для того, чтобы регрессионная модель хорошо описывала истинные данные, регрессионные остатки \varepsilon_i (i= 1,\dots,n) должны обладать следующими свойствами:

  •  E \varepsilon_i = 0,i= 1,\dots,n
    (1)

Эту гипотезу можно проверять одним из любым параметрическим или непараметрическим критерием сравнения среднего с заданным значением( в данном случае - с нулём).

  •  D \varepsilon_i = \sigma^2,i= 1,\dots,n
    (2)
    - т.е. дисперсия не изменяется.

Проверяется аналогично, любым параметрическим или непараметрическим критерием сравнения дисперсии с заданным значением. Например, Критерий Зигеля-Тьюки.

  •   \varepsilon_i \sim N(0,\sigma) i= 1,\dots,n, i \neq j
    (3)

Это дополнительное предположение. Его важно проверить, если мы хотим использовать статистический критерий, предполагающий нормальность данных. Для проверки этой гипотезы можно использовать Критерий нормальности.

  •   \varepsilon_i  i= 1,\dots,n
    (4)
    - независимы.

Независимость остатков может быть проверена при помощи статистики Дарбина-Уотсона.

  • (6)
 E \varepsilon_i \varepsilon_j = 0,i,j= 1,\dots,n, i \neq j;
E \varepsilon_i \hat{Y_i} = 0,i= 1,\dots,n;
E \varepsilon_i i = 0,i= 1,\dots,n;
E \varepsilon_i x_{ij} = 0,i= 1,\dots,n,j= 1,\dots,m, X_i = (x_{i1} , \dots, x_{im}).

Для проверки этих условий используется визуальный анализ. Зависимость \varepsilon_i (\cdot) не должна иметь закономерностей, где \cdot = \varepsilon_j,i,\hat{Y_i},x_{ij}.

  • Гипотеза случайности   \varepsilon_i
Один из вариантов проверки этой гипотезы критерий экстремумов.
(7)
  • Гипотеза отсутствия тренда
    (8)

Отсутствие тренда удобно проверять с помощью U-критерия. Также можно применить визуальный анализ.

  • Гипотеза стационарности   \varepsilon_i

Эта гипотеза - объединяет (2),(4). Если выполнено (1), то стационарность удобно проверять с помощью критерия серий.

Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с. (стр. 658-659)

См. также

Ссылки

Статья в настоящий момент дорабатывается.
Валентина Федорова 04:10, 23 января 2009 (MSK)
Личные инструменты