Участник:Riabenko/Песочница

Материал из MachineLearning.

< Участник:Riabenko(Различия между версиями)

Текущая версия

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Riabenko/%D0%9F%D0%B5%D1%81%D0%BE%D1%87%D0%BD%D0%B8%D1%86%D0%B0»

@@ Строка 1: / Строка 1: @@
-= Задание 2. Исследование свойств многомерного статистического метода на модельных данных  =
-== Пример ==
-Исследуем чувствительность однофакторного дисперсионного анализа к расстояниям между выборками и дисперсиям выборок. <br>
-<tex>x_i^{n_i}, \;\; x_i \sim N(\mu_i, \sigma_i), \;\; i=1,\ldots,3,</tex> <br>
-<tex>\mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,</tex> <br>
-<tex>\sigma_1=\sigma_2=\sigma_3 = 0.01\,:\,0.01\,:\,1,</tex> <br>
-<tex>n_1=n_2=n_3=20.</tex> <br>
-Посмотрим, как от расстояний между выборками и дисперсий зависят средний достигаемый уровень значимости и мощность используемого по умолчанию критерия Фишера:
-<gallery widths="250px" heights="250px">
-Изображение:Anova_p_3000.png|Значения достигаемого уровня значимости, усрёднённого по 3000 экспериментам.
-Изображение:Anova_power_3000.png|Значения эмпирических оценок мощности критерия при проведении 3000 экспериментов <tex>(\alpha=0.05).</tex>
-</gallery>
-Для каждой пары значений параметров <tex>\mu, \sigma</tex> мощность оценивается как доля выборок, на которых нулевая гипотеза о равенстве всех средних была отвергнута.
-Зависимость выглядит естественно: мощность растёт при увеличении расстояний между выборками и уменьшении их дисперсий. Для данного размера выборок средний достигаемый уровень значимости не превосходит 0.05 для всех значений <tex>\mu\geq \sigma/2</tex>, мощность при этом не опускается ниже 0.7.
-Для сгенерированных выборок проведём сравнение средних при помощи метода LSD. Для каждой пары средних <tex>X_1,X_2, \; X_2,X_3, \; X_1,X_3</tex> метод даёт точечную оценку разности между ними и 95% доверительный интервал для этой разности. Так как <tex>X_2-X_1=X_3-X_2=\mu</tex>, для оценки параметра <tex>\mu</tex> можно использовать среднее между оценками <tex>X_2-X_1</tex> и <tex>X_3-X_2</tex>.
-Рассмотрим усреднённые оценки и границы доверительных интервалов:
-<gallery widths="750px" heights="250px">
-Изображение:LSD_mu.png|Полученные при помощи метода LSD точечные и интервальные оценки параметра <tex>\mu</tex>.
-</gallery>
-Заметим, что усреднённая точечная оценка расстояния между выборками <tex>\mu</tex> является точной и не зависит от дисперсии выборок, а ширина доверительного интервала для <tex>\mu</tex>, напротив, зависит только от <tex>\sigma</tex>:
-<gallery widths="500px" heights="250px">
-Изображение:LSD_mu2.png|Точность оценки параметра <tex>\mu</tex> и ширина доверительного интервала для неё.
-</gallery>
-Можно считать, что метод детектирует значимую на уровне <tex>\alpha=0.05</tex> разность между средними значениями выборок, если соответствующий 95% доверительный интервал для неё не содержит нуля. Рассмотрим для каждой пары значений параметров <tex>\mu, \sigma</tex> долю выборок, на которых была детектирована разница в <tex>\mu</tex> между средними пар выборок <tex>X_1, X_2</tex> и <tex>X_2, X_3</tex> и разница в <tex>2\mu</tex> между средними выборок <tex>X_1, X_3</tex>:

Участник:Riabenko/Песочница

Материал из MachineLearning.

Текущая версия

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты