Среднее, взвешенное по расстоянию

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(категория)
 
Строка 1: Строка 1:
-
Среднее, взвешенное по расстоянию – мера центральной тенденции, как частный случай взвешенного среднего. Предложена в качестве альтернативы устойчивым мерам, основанным на усечении данных.
+
Среднее, взвешенное по расстоянию — мера центральной тенденции, как частный случай взвешенного среднего. Предложена в качестве альтернативы устойчивым мерам, основанным на усечении данных.
-
Весовые коэффициенты среднего, взвешенного по расстоянию, рассчитываются как инвертированная сумма расстояний от значения, для которого рассчитывается "вес" до остальных значений распределения.
+
Весовые коэффициенты среднего, взвешенного по расстоянию, рассчитываются как инвертированная сумма расстояний от значения, для которого рассчитывается «вес» до остальных значений распределения.
Важным свойством данной меры центральной тенденции является то, что расчет весовых коэффициентов не предполагает использование каких-либо параметров (среднее, медиана и пр.) оригинального распределения в качестве входящей информации.
Важным свойством данной меры центральной тенденции является то, что расчет весовых коэффициентов не предполагает использование каких-либо параметров (среднее, медиана и пр.) оригинального распределения в качестве входящей информации.
 +
== Общая формула ==
== Общая формула ==
В случае нестандартизированных весовых коэффициентов общую формулу среднего, взвешенного по расстоянию можно представить как:
В случае нестандартизированных весовых коэффициентов общую формулу среднего, взвешенного по расстоянию можно представить как:
-
::<tex>\bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i}\;\;\;\text{where}\;\;\;w_i = \frac{k}{\sum_{j=1}^n |x_i-x_j|}.</tex>
+
:: <tex>\bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i}\;\;\;\text{where}\;\;\;w_i = \frac{k}{\sum_{j=1}^n |x_i-x_j|}.</tex>
-
где k – любое положительное число. Коэффициент k носит чисто технический характер и служит для того, чтобы избежать ошибки, которая может возникнуть при достаточно больших распределениях (очень большая сумма в знаменателе). В большинстве случаев k может быть принят как n (количество значений в распределении) или n-1 . В последнем случае нестандартизированные весовые коэффициенты будут представлять собой средние инвертированные расстояния от значения, для которого рассчитывается "вес" до остальных значений распределения.
+
где k — любое положительное число. Коэффициент k носит чисто технический характер и служит для того, чтобы избежать ошибки, которая может возникнуть при достаточно больших распределениях (очень большая сумма в знаменателе). В большинстве случаев k может быть принят как n (количество значений в распределении) или n-1 . В последнем случае нестандартизированные весовые коэффициенты будут представлять собой средние инвертированные расстояния от значения, для которого рассчитывается «вес» до остальных значений распределения.
 +
 
=== Пример расчета ===
=== Пример расчета ===
-
Пусть имеется: ''x''<sub>1</sub> = 5, ''x''<sub>2</sub> = 6, ''x''<sub>3</sub> = 8, ''x''<sub>4</sub> = 12. Весовые коэффициенты для ''x''<sub>''i''</sub> рассчитываются следующим образом:
+
Пусть имеется: ''x''<sub>1</sub> = 5, ''x''<sub>2</sub> = 6, ''x''<sub>3</sub> = 8, ''x''<sub>4</sub> = 12. Весовые коэффициенты для ''x''<sub>''i''</sub> рассчитываются следующим образом:
-
:<tex>w_1 = \frac{1}{\left| {x_1-x_2} \right| + \left| {x_1-x_3} \right| + \left| {x_1-x_4} \right|} = \frac{1}{\left| {5-6} \right| + \left| {5-8} \right| + \left| {5-12} \right|} = \frac{1}{11},</tex>
+
: <tex>w_1 = \frac{1}{\left| {x_1-x_2} \right| + \left| {x_1-x_3} \right| + \left| {x_1-x_4} \right|} = \frac{1}{\left| {5-6} \right| + \left| {5-8} \right| + \left| {5-12} \right|} = \frac{1}{11},</tex>
-
:<tex>w_2 = \frac{1}{\left| {x_2-x_1} \right| + \left| {x_2-x_3} \right| + \left| {x_2-x_4} \right|} = \frac{1}{\left| {6-5} \right| + \left| {6-8} \right| + \left| {6-12} \right|} = \frac{1}{9},</tex>
+
: <tex>w_2 = \frac{1}{\left| {x_2-x_1} \right| + \left| {x_2-x_3} \right| + \left| {x_2-x_4} \right|} = \frac{1}{\left| {6-5} \right| + \left| {6-8} \right| + \left| {6-12} \right|} = \frac{1}{9},</tex>
-
:<tex>w_3 = \frac{1}{\left| {x_3-x_1} \right| + \left| {x_3-x_2} \right| + \left| {x_3-x_4} \right|} = \frac{1}{\left| {8-5} \right| + \left| {8-6} \right| + \left| {8-12} \right|} = \frac{1}{9},</tex>
+
: <tex>w_3 = \frac{1}{\left| {x_3-x_1} \right| + \left| {x_3-x_2} \right| + \left| {x_3-x_4} \right|} = \frac{1}{\left| {8-5} \right| + \left| {8-6} \right| + \left| {8-12} \right|} = \frac{1}{9},</tex>
-
:<tex>w_4 = \frac{1}{\left| {x_4-x_1} \right| + \left| {x_4-x_2} \right| + \left| {x_4-x_3} \right|} = \frac{1}{\left| {12-5} \right| + \left| {12-6} \right| + \left| {12-8} \right|} = \frac{1}{17}.</tex>
+
: <tex>w_4 = \frac{1}{\left| {x_4-x_1} \right| + \left| {x_4-x_2} \right| + \left| {x_4-x_3} \right|} = \frac{1}{\left| {12-5} \right| + \left| {12-6} \right| + \left| {12-8} \right|} = \frac{1}{17}.</tex>
В соответствии с полученными коэффициентами имеем:
В соответствии с полученными коэффициентами имеем:
-
:<tex>\mathrm{DWM} = \frac{w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4}{w_1 + w_2 + w_3 + w_4} \approx 7,3.</tex>
+
: <tex>\mathrm{DWM} = \frac{w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4}{w_1 + w_2 + w_3 + w_4} \approx 7,3.</tex>
 +
 
== Код для программной среды [[R]] ==
== Код для программной среды [[R]] ==
<source lang=c>
<source lang=c>
Строка 26: Строка 29:
w = 1/w/sum(1/w); sum(w*y)}}}
w = 1/w/sum(1/w); sum(w*y)}}}
</source>
</source>
 +
== Сравнение с другими мерами центральной тенденции ==
== Сравнение с другими мерами центральной тенденции ==
-
Среднее, взвешенное по расстоянию менее чувствительно к возможным "выбросам" (аутлайерам) распределения, чем многие другие меры центральной тенденции. Одним из основных преимуществ данной меры является то, что она не предполагает удаления (или замены) части данных распределения, что оказывается немаловажным в тех случаях, когда идентифицировать явные "выбросы" (аутлайеры) не представляется возможным.
+
Среднее, взвешенное по расстоянию менее чувствительно к возможным «выбросам» (аутлайерам) распределения, чем многие другие меры центральной тенденции. Одним из основных преимуществ данной меры является то, что она не предполагает удаления (или замены) части данных распределения, что оказывается немаловажным в тех случаях, когда идентифицировать явные «выбросы» (аутлайеры) не представляется возможным.
 +
 
== См. также ==
== См. также ==
[[Стандартное отклонение, взвешенное по расстоянию]]
[[Стандартное отклонение, взвешенное по расстоянию]]
[[Z-оценки, взвешенные по расстоянию]]
[[Z-оценки, взвешенные по расстоянию]]
 +
== Ссылки ==
== Ссылки ==
* '' Додонов Ю. С., Додонова Ю. А.'' [http://psystudy.com/files/Dodonov_Dodonova_psystudy_ru_2011_5(19)ru.pdf Устойчивые меры центральной тенденции: взвешивание как возможная альтернатива усечению данных при анализе времен ответов]
* '' Додонов Ю. С., Додонова Ю. А.'' [http://psystudy.com/files/Dodonov_Dodonova_psystudy_ru_2011_5(19)ru.pdf Устойчивые меры центральной тенденции: взвешивание как возможная альтернатива усечению данных при анализе времен ответов]
 +
 +
[[Категория:Прикладная статистика]]

Текущая версия

Среднее, взвешенное по расстоянию — мера центральной тенденции, как частный случай взвешенного среднего. Предложена в качестве альтернативы устойчивым мерам, основанным на усечении данных.

Весовые коэффициенты среднего, взвешенного по расстоянию, рассчитываются как инвертированная сумма расстояний от значения, для которого рассчитывается «вес» до остальных значений распределения.

Важным свойством данной меры центральной тенденции является то, что расчет весовых коэффициентов не предполагает использование каких-либо параметров (среднее, медиана и пр.) оригинального распределения в качестве входящей информации.

Содержание

Общая формула

В случае нестандартизированных весовых коэффициентов общую формулу среднего, взвешенного по расстоянию можно представить как:

\bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i}\;\;\;\text{where}\;\;\;w_i = \frac{k}{\sum_{j=1}^n |x_i-x_j|}.

где k — любое положительное число. Коэффициент k носит чисто технический характер и служит для того, чтобы избежать ошибки, которая может возникнуть при достаточно больших распределениях (очень большая сумма в знаменателе). В большинстве случаев k может быть принят как n (количество значений в распределении) или n-1 . В последнем случае нестандартизированные весовые коэффициенты будут представлять собой средние инвертированные расстояния от значения, для которого рассчитывается «вес» до остальных значений распределения.

Пример расчета

Пусть имеется: x1 = 5, x2 = 6, x3 = 8, x4 = 12. Весовые коэффициенты для xi рассчитываются следующим образом:

w_1 = \frac{1}{\left| {x_1-x_2} \right| + \left| {x_1-x_3} \right| + \left| {x_1-x_4} \right|} = \frac{1}{\left| {5-6} \right| + \left| {5-8} \right| + \left| {5-12} \right|} = \frac{1}{11},
w_2 = \frac{1}{\left| {x_2-x_1} \right| + \left| {x_2-x_3} \right| + \left| {x_2-x_4} \right|} = \frac{1}{\left| {6-5} \right| + \left| {6-8} \right| + \left| {6-12} \right|} = \frac{1}{9},
w_3 = \frac{1}{\left| {x_3-x_1} \right| + \left| {x_3-x_2} \right| + \left| {x_3-x_4} \right|} = \frac{1}{\left| {8-5} \right| + \left| {8-6} \right| + \left| {8-12} \right|} = \frac{1}{9},
w_4 = \frac{1}{\left| {x_4-x_1} \right| + \left| {x_4-x_2} \right| + \left| {x_4-x_3} \right|} = \frac{1}{\left| {12-5} \right| + \left| {12-6} \right| + \left| {12-8} \right|} = \frac{1}{17}.

В соответствии с полученными коэффициентами имеем:

\mathrm{DWM} = \frac{w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4}{w_1 + w_2 + w_3 + w_4} \approx 7,3.

Код для программной среды R

dwm = function(x) { 
y = x[!is.na(x)]; n = length(y) 
if(all(y == y[1])) y[1] else { 
if(n==1) y else { 
w = 1:n 
for (i in 1:n) {w[i] = sum(abs(y-y[i]))} 
w = 1/w/sum(1/w); sum(w*y)}}}

Сравнение с другими мерами центральной тенденции

Среднее, взвешенное по расстоянию менее чувствительно к возможным «выбросам» (аутлайерам) распределения, чем многие другие меры центральной тенденции. Одним из основных преимуществ данной меры является то, что она не предполагает удаления (или замены) части данных распределения, что оказывается немаловажным в тех случаях, когда идентифицировать явные «выбросы» (аутлайеры) не представляется возможным.

См. также

Стандартное отклонение, взвешенное по расстоянию

Z-оценки, взвешенные по расстоянию

Ссылки

Личные инструменты