Среднее, взвешенное по расстоянию
Материал из MachineLearning.
Среднее, взвешенное по расстоянию – мера центральной тенденции, как частный случай взвешенного среднего. Предложена[1] в качестве альтернативы устойчивым мерам, основанным на усечении данных.
Весовые коэффициенты среднего, взвешенного по расстоянию, рассчитываются как инвертированная сумма расстояний от значения, для которого рассчитывается "вес" до остальных значений распределения.
Важным свойством данной меры центральной тенденции является то, что расчет весовых коэффициентов не предполагает использование каких-либо параметров (среднее, медиана и пр.) оригинального распределения в качестве входящей информации.
Содержание |
Общая формула
В случае нестандартизированных весовых коэффициентов общую формулу среднего, взвешенного по расстоянию можно представить как:
где k – любое положительное число. Коэффициент k носит чисто технический характер и служит для того, чтобы избежать ошибки, которая может возникнуть при достаточно больших распределениях (очень большая сумма в знаменателе). В большинстве случаев k может быть принят как n (количество значений в распределении) или n-1 . В последнем случае нестандартизированные весовые коэффициенты будут представлять собой средние инвертированные расстояния от значения, для которого рассчитывается "вес" до остальных значений распределения.
Пример расчета
Пусть имеется: x1 = 5, x2 = 6, x3 = 8, x4 = 12. Весовые коэффициенты для xi рассчитываются следующим образом:
В соответствии с полученными коэффициентами имеем:
Код для программной среды R
dwm = function(x) { y = x[!is.na(x)]; n = length(y) if(all(y == y[1])) y[1] else { if(n==1) y else { w = 1:n for (i in 1:n) {w[i] = sum(abs(y-y[i]))} w = 1/w/sum(1/w); sum(w*y)}}}
Сравнение с другими мерами центральной тенденции
Среднее, взвешенное по расстоянию менее чувствительно к возможным "выбросам" (аутлайерам) распределения, чем многие другие меры центральной тенденции. Одним из основных преимуществ данной меры является то, что она не предполагает удаления (или замены) части данных распределения, что оказывается немаловажным в тех случаях, когда идентифицировать явные "выбросы" (аутлайеры) не представляется возможным.
См. также
Стандартное отклонение, взвешенное по расстоянию
Z-оценки, взвешенные по расстоянию