Участник:Riabenko/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м
Строка 25: Строка 25:
Изображение:LSD_mu2.png|Точность оценки параметра <tex>\mu</tex> и ширина доверительного интервала для неё.
Изображение:LSD_mu2.png|Точность оценки параметра <tex>\mu</tex> и ширина доверительного интервала для неё.
</gallery>
</gallery>
-
Можно считать, что метод детектирует значимую на уровне <tex>\alpha=0.05</tex> разность между средними значениями выборок, если соответствующий 95% доверительный интервал для неё не содержит нуля. Рассмотрим для каждой пары значений параметров <tex>\mu, \sigma</tex> долю выборок, на которых была детектирована разница в <tex>\mu</tex> между средними пар выборок <tex>X_1, X_2</tex> и <tex>X_2, X_3</tex> и разница в <tex>2\mu</tex> между средними выборок <tex>X_1, X_3</tex>:
+
Можно считать, что метод детектирует значимую на уровне <tex>\alpha=0.05</tex> разность между средними значениями выборок, если соответствующий 95% доверительный интервал для неё не содержит нуля. Рассмотрим для каждой пары значений параметров <tex>\mu, \sigma</tex> доли выборок, на которых разница в <tex>\mu</tex> между средними пар выборок <tex>X_1, X_2</tex> и <tex>X_2, X_3</tex> и разница в <tex>2\mu</tex> между средними выборок <tex>X_1, X_3</tex> была детектирована.

Версия 20:21, 26 октября 2012

Задание 2. Исследование свойств многомерного статистического метода на модельных данных

Пример

Исследуем чувствительность однофакторного дисперсионного анализа к расстояниям между выборками и дисперсиям выборок.
x_i^{n_i}, \;\; x_i \sim N(\mu_i, \sigma_i), \;\; i=1,\ldots,3,
\mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,
\sigma_1=\sigma_2=\sigma_3 = 0.01\,:\,0.01\,:\,1,
n_1=n_2=n_3=20.
Посмотрим, как от расстояний между выборками и дисперсий зависят средний достигаемый уровень значимости и мощность используемого по умолчанию критерия Фишера:

Для каждой пары значений параметров \mu, \sigma мощность оценивается как доля выборок, на которых нулевая гипотеза о равенстве всех средних была отвергнута.

Зависимость выглядит естественно: мощность растёт при увеличении расстояний между выборками и уменьшении их дисперсий. Для данного размера выборок средний достигаемый уровень значимости не превосходит 0.05 для всех значений \mu\geq \sigma/2, мощность при этом не опускается ниже 0.7.

Для сгенерированных выборок проведём сравнение средних при помощи метода LSD. Для каждой пары средних X_1,X_2, \; X_2,X_3, \; X_1,X_3 метод даёт точечную оценку разности между ними и 95% доверительный интервал для этой разности. Так как X_2-X_1=X_3-X_2=\mu, для оценки параметра \mu можно использовать среднее между оценками X_2-X_1 и X_3-X_2.

Рассмотрим усреднённые оценки и границы доверительных интервалов:

Заметим, что усреднённая точечная оценка расстояния между выборками \mu является точной и не зависит от дисперсии выборок, а ширина доверительного интервала для \mu, напротив, зависит только от \sigma:

Можно считать, что метод детектирует значимую на уровне \alpha=0.05 разность между средними значениями выборок, если соответствующий 95% доверительный интервал для неё не содержит нуля. Рассмотрим для каждой пары значений параметров \mu, \sigma доли выборок, на которых разница в \mu между средними пар выборок X_1, X_2 и X_2, X_3 и разница в 2\mu между средними выборок X_1, X_3 была детектирована.

Личные инструменты