Статистический анализ данных (курс лекций, К.В.Воронцов)/2011, ФУПМ

Материал из MachineLearning.

Версия от 10:32, 9 марта 2011; Riabenko (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Задание 1. Исследование свойств одномерных статистических критериев на модельных данных
- 1.1 Пример задания
- 1.2 Задания
2 Литература
3 Ссылки

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного из классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить следующие графики:

график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
график зависимости достигаемого уровня значимости от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 100, 500, 1000 повторений — чем больше, тем лучше);
график с эмпирическими оценками мощности критерия для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся $k$ раз для каждого набора значений параметра, и в $m$ из $k$ случаев гипотеза была отвергнута на некотором фиксированном уровне значимости $\alpha$ (примем $\alpha=0.05$ ), оценкой мощности будет отношение $m/k$ .

Необходимо сдать: отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.), а также файл с текстом программы на использованном языке (Matlab, R, и т.д.), при выполнении которой проводятся указанные в задаче вычисления и на экран выводятся графики, соответствующие имеющимся в отчёте.

Задание принимается до девятого апреля.

Пример задания

Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при разных значениях параметров.

$x^n = (x_1,\ldots,x_n)\sim N(\mu_1,\sigma),\;\; y^n = (y_1,\ldots,y_n)\sim N(\mu_2,\sigma);$

$H_0\,:\; \mu_1=\mu_2,$

$H_1\,:\; \mu_1\neq\mu_2.$

$\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0.05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.$

При каждом значении $\mu_2$ выборки для разных значений $n$ генерируются независимо.

Графики 1 и 2 иллюстрируют зависимость достигаемого уровня значимости от размера выборки и среднего $\mu_2$ . На графике 3 показана зависимость мощности критерия от параметров задачи; мощность в каждой точке оценивается как доля экспериментов, в которых гипотеза была отвергнута на уровне значимости $\alpha=0.05$ .

График 1: значения достигаемого уровня значимости при однократной генерации выборок.

График 2: значения достигаемого уровня значимости, усрёднённые по 100 экспериментам.

График 3: значения эмпирических оценок мощности критерия при проведении 100 экспериментов ( $\alpha=0.05$ ).

Видно, что при $\mu_2=0$ среднее значение достигаемого уровня значимости при многократном повторении эксперимента равно 0.5 для любого размера выборки. Это логично, так как при $\mu_2=0$ нулевая гипотеза справедлива, и достигаемый уровень значимости имеет равномерное распределение на $[0,1].$
При $n>20$ и $\mu_2>1$ критерий имеет достаточную мощность, и нулевая гипотеза чаще всего отвергается.
При размере выборки до 50 элементов и среднем второй выборки $\mu_2<0.5$ критерий практически не способен отклонить гипотезу однородности, мощность в этой области изменения параметров низка.
При большой разнице между средними выборок $(\mu_2>2)$ критерий достаточно уверенно отвергает гипотезу однородности даже на выборках небольшого размера (5-6 элементов).

Задания

Устойчивость критериев к нарушению предположений

Исследовать поведение параметрических критериев, предполагающих нормальность данных, при зашумлении выборок наблюдениями, взятыми из равномерного распределения. Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению.

Двухвыборочный критерий Стьюдента для независимых выборок.

$x^n \sim p_1\cdot N(\mu_1,1)+ \left(1-p_1\right)\cdot U\left[-a+\mu_1,a+\mu_1\right]$ — выборка длины $n$ из смеси нормального $N(\mu_1,1)$ и равномерного $U\left[-a+\mu_1,a+\mu_1\right]$ распределений с весами $p_1$ и $1-p_1$ соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит $p_1$ , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
$y^n \sim p_2\cdot N(\mu_2,1)+ \left(1-p_2\right)\cdot U\left[-a+\mu_2,a+\mu_2\right]$ — аналогичная выборка.
$H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;$
$\mu_1=0; \;\; \mu_2=-2\,:\,0.01\,:\,2.$

Кононенко Даниил: $p_1=0.8, \;\; p_2=1, \;\; a=1, \;\; n=15\,:\,5\,:\,200.$

Голкин Александр: $p_1=0.9, \;\; p_2=1, \;\; a=5, \;\; n=15\,:\,5\,:\,200.$

Завадский Глеб: $p_1=p_2=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.$

Чугунов Кирилл: $p_1=p_2=0.9, \;\; a=5, \;\; n=15\,:\,5\,:\,200.$

Корниенко Алексей: $p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.$

Кузнецов Михаил: $p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=5, \;\; n=100.$

Критерий Фишера для проверки равенства дисперсий.

$x^n \sim p_1\cdot N(0,\sigma_1)+ \left(1-p_1\right)\cdot U\left[-a,a\right]$ — выборка длины $n$ из смеси нормального $N(0,\sigma_1)$ и равномерного $U[-a,a]$ распределений с весами $p_1$ и $1-p_1$ соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит $p_1$ , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
$y^n \sim p_2\cdot N(0,\sigma_2)+ \left(1-p_2\right)\cdot U\left[-a,a\right]$ — аналогичная выборка.
$H_0\,:\; \sigma_1=\sigma_2, \;\; H_1\,:\; \sigma_1\neq\sigma_2.$
$\sigma_1=1, \;\; \sigma_2=0.1\,:\,0.05\,:\,4.$

Иванов Николай: $p_1=0.8, \;\; p_2=1, \;\; a=1, \;\; n=15\,:\,5\,:\,200.$

Рубцов Александр: $p_1=0.9, \;\; p_2=1, \;\; a=5, \;\; n=15\,:\,5\,:\,200.$

Рукина Дарья: $p_1=p_2=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.$

Савгиров Арш: $p_1=p_2=0.9, \;\; a=5, \;\; n=15\,:\,5\,:\,200.$

Спиридонов Роман: $p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.$

Стукалюк Владимир: $p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=5, \;\; n=100.$

Влияние связок на поведение статистических критериев

Многие статистические критерии неявно предполагают, что выборка извлечена из абсолютно непрерывного распределения, что значит, что вероятность наличия в ней одинаковых элементов равна нулю. Необходимо исследовать поведение такого критерия в случае наличия в выборке совпадающих значений. Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к наличию связок.

Для генерации выборки со связками может использоваться округление элементов выборки, либо следующая процедура:

генерируется выборка $x^n$ размера $n$ из указанного в задаче распределения;
в вариационном ряду выборки $x^n_{\left(i\right)}$ выбираются $k$ непересекающихся пар элементов $\left(x_{\left(i\right)}, x_{\left(i+1\right)}\right)$ , лежащих ближе всего друг к другу;
для всех $k$ выбранных пар элементы выборки $x_{\left(i\right)}$ и $x_{\left(i+1\right)$ заменяются их средним.

Статистические критерии, проверяющие гипотезу нормальности.

$x^n\sim p\cdot N\left(0,1\right)+\left(1-p\right)\cdot U\left[a,b\right]$ — выборка длины $n$ из смеси нормального $N\left(0,1\right)$ и равномерного $U\left[a,b\right]$ распределений с весами $p$ и $1-p$ соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит $p$ , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного);
$H_0\,:\; x^n$ распределена нормально; $H_1\,:\; x^n$ распределена по какому-то другому закону.
$n=20\,:\,5\,:\,200.$

Сунгуров Дмитрий: критерий Андерсона-Дарлинга, указанная процедура порождения связок, $k=\frac{n}{3}, \;\;p=0\,:\,0.01\,:\,1, \;\; -a=b=3.$

Животовский Никита: критерий Шапиро-Уилка, указанная процедура порождения связок, $k=\frac{n}{2}, \;\;p=0\,:\,0.01\,:\,1, \;\; -a=b=3.$

Мафусалов Александр: критерий Андерсона-Дарлинга, округление элементов выборки до десятых, $p=0\,:\,0.01\,:\,1, \;\; a=-1, \;\; b=1.5.$

Сечин Павел: критерий Шапиро-Уилка, округление элементов выборки до десятых, $p=0\,:\,0.01\,:\,1, \;\; a=-2, \;\; b=3.$

Критерий Уилкоксона-Манна-Уитни.

$x^n \sim N(0,1),\;\;y^n \sim N(\mu,1);$
$H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu\neq 0;$
$\mu=0\,:\,0.01\,:\,2.$

Джамтырова Раиса: элементы выборок округляются до десятых, $n=10\,:\,5\,:\,200.$

Ивкин Никита: элементы выборок округляются до 0.5, $n=10\,:\,5\,:\,200.$

Пронин Яков: указанная процедура порождения связок, $n=10\,:\,5\,:\,200, \;\; k=\frac{n}{3}.$

Фирстенко Александр: указанная процедура порождения связок, $n=50, \;\; k=0\,:\,1\,:\,30.$

Анализ чувствительности критериев к редактированию выборки

Известно, что исключение из выборки определённых наблюдений зачастую может достаточно сильно повлиять на результат анализа. Необходимо исследовать чувствительность указанного критерия к редактированию выборки, построить графики вида 1, 2, 3, сделать выводы.

Одновыборочный критерий Стьюдента.

$x^n \sim N(\mu,\sigma);$
$H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu>0.$
При каждом значении параметра $\mu$ генерируется выборка размера $n$ , проводится проверка гипотезы $H_0$ , затем по некоторому правилу из выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и т.д. Обозначим за $k$ максимальное число исключённых в таком процессе элементов.

Фадеев Илья: $n=100,\;\;k=50,\;\;\sigma=1,\;\;\mu=-1\,:\,0.01\,:\,1,\;\;$ на каждом шаге исключается максимальный элемент.

Берновский Михаил: $n=200,\;\;k=100,\;\;\sigma=5,\;\;\mu=-2\,:\,0.02\,:\,2,\;\;$ на каждом шаге исключается максимальный элемент.

Бессарабов Никита: $n=100,\;\;k=50,\;\;\sigma=2,\;\;\mu=-2\,:\,0.02\,:\,2,\;\;$ на каждом шаге исключается минимальный элемент.

Гнедков Игорь: $n=200,\;\;k=100,\;\;\sigma=5,\;\;\mu=-3\,:\,0.03\,:\,3,\;\;$ на каждом шаге исключается минимальный элемент.

Двухвыборочный критерий Стьюдента.

$x^n \sim N\left(\mu_1,1\right), \;\; y^m \sim N\left(\mu_2,\sigma\right);$
$H_0\,:\; \mu_1=\mu_2, \;\;\; H_1\,:\; \mu_1\neq\mu_2.$
$\mu_1=0, \;\; \mu_2=-2\,:\,0.01\,:\,2.$
На каждом шаге генерируются выборки исходной длины, проводится проверка гипотезы $H_0$ , затем по некоторому правилу из указанной выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и т.д. Обозначим за $k$ максимальное число исключённых в таком процессе элементов.