Расстояние Кука

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 12: Строка 12:
где,
где,
-
<tex>\hat Y_j</tex> - предсказание регрессионной модели, построенной по всей выборке, получаемое для <tex>j</tex>-ого наблюдения;
+
:<tex>\hat Y_j</tex> - предсказание регрессионной модели, построенной по всей выборке, получаемое для <tex>j</tex>-ого наблюдения;
-
<tex>\hat Y_{j(i)}</tex> - предсказание регрессионной модели, построенной по выборке без <tex>i</tex>-ого наблюдения, получаемое для <tex>j</tex>-ого наблюдения;
+
:<tex>\hat Y_{j(i)}</tex> - предсказание регрессионной модели, построенной по выборке без <tex>i</tex>-ого наблюдения, получаемое для <tex>j</tex>-ого наблюдения;
-
<tex>p</tex> - количество параметров модели
+
:<tex>p</tex> - количество параметров модели
-
<tex> \mathrm{MSE} </tex> - средне-квадратичная ошибка модели
+
:<tex> \mathrm{MSE} </tex> - средне-квадратичная ошибка модели
 +
 +
== Нахождение и удаление выбросов ==
 +
 +
Существуют различные подходы к определению выбросов с помощью расстояния Кука. Наиболее распространенной эвристикой считается <tex> D_i > 4/n </tex>
== Замечания ==
== Замечания ==
[[Категория:Прикладная статистика]]
[[Категория:Прикладная статистика]]

Версия 12:55, 6 декабря 2013

Расстояние Кука (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.

Метод назван в честь американского ученого Р. Денниса Кука , который ввел данное понятие в 1977 году.

Определение

Расстояние Кука оценивает эффект от удаления одного (рассматриваемого) наблюдения и вычисляется по следующей формуле:


 D_i =  \frac{ \sum_{j=1}^n (\hat Y_j\ - \hat Y_{j(i)})^2 }{p \ \mathrm{MSE}}

где,

\hat Y_j - предсказание регрессионной модели, построенной по всей выборке, получаемое для j-ого наблюдения;
\hat Y_{j(i)} - предсказание регрессионной модели, построенной по выборке без i-ого наблюдения, получаемое для j-ого наблюдения;
p - количество параметров модели
 \mathrm{MSE} - средне-квадратичная ошибка модели


Нахождение и удаление выбросов

Существуют различные подходы к определению выбросов с помощью расстояния Кука. Наиболее распространенной эвристикой считается  D_i > 4/n

Замечания

Личные инструменты