Расстояние Кука
Материал из MachineLearning.
Строка 12: | Строка 12: | ||
где, | где, | ||
- | <tex>\hat Y_j</tex> - предсказание регрессионной модели, построенной по всей выборке, получаемое для <tex>j</tex>-ого наблюдения; | + | :<tex>\hat Y_j</tex> - предсказание регрессионной модели, построенной по всей выборке, получаемое для <tex>j</tex>-ого наблюдения; |
- | <tex>\hat Y_{j(i)}</tex> - предсказание регрессионной модели, построенной по выборке без <tex>i</tex>-ого наблюдения, получаемое для <tex>j</tex>-ого наблюдения; | + | :<tex>\hat Y_{j(i)}</tex> - предсказание регрессионной модели, построенной по выборке без <tex>i</tex>-ого наблюдения, получаемое для <tex>j</tex>-ого наблюдения; |
- | <tex>p</tex> - количество параметров модели | + | :<tex>p</tex> - количество параметров модели |
- | <tex> \mathrm{MSE} </tex> - средне-квадратичная ошибка модели | + | :<tex> \mathrm{MSE} </tex> - средне-квадратичная ошибка модели |
+ | |||
+ | == Нахождение и удаление выбросов == | ||
+ | |||
+ | Существуют различные подходы к определению выбросов с помощью расстояния Кука. Наиболее распространенной эвристикой считается <tex> D_i > 4/n </tex> | ||
== Замечания == | == Замечания == | ||
[[Категория:Прикладная статистика]] | [[Категория:Прикладная статистика]] |
Версия 12:55, 6 декабря 2013
Расстояние Кука (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.
Метод назван в честь американского ученого Р. Денниса Кука , который ввел данное понятие в 1977 году.
Определение
Расстояние Кука оценивает эффект от удаления одного (рассматриваемого) наблюдения и вычисляется по следующей формуле:
где,
- - предсказание регрессионной модели, построенной по всей выборке, получаемое для -ого наблюдения;
- - предсказание регрессионной модели, построенной по выборке без -ого наблюдения, получаемое для -ого наблюдения;
- - количество параметров модели
- - средне-квадратичная ошибка модели
Нахождение и удаление выбросов
Существуют различные подходы к определению выбросов с помощью расстояния Кука. Наиболее распространенной эвристикой считается