Статистический анализ данных (курс лекций, К.В.Воронцов)/2011, ФУПМ
Материал из MachineLearning.
|
Задание 1. Исследование свойств одномерных статистических методов на модельных данных
Необходимо провести исследование одной или нескольких классических статистических техник. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, применить исследуемые статистические методы, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики и сделать выводы.
Пример задания
Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при разных значениях параметров.
При каждом значении выборки для разных значений генерируются независимо.
Графики 1 и 2 иллюстрируют зависимость достигаемого уровня значимости от размера выборки и среднего . На графике 3 показана зависимость мощности критерия от параметров задачи; мощность в каждой точке оценивается как доля экспериментов, в которых гипотеза была отвергнута на уровне значимости .
- Видно, что при среднее значение достигаемого уровня значимости при многократном повторении эксперимента равно 0.5 для любого размера выборки. Это логично, так как при нулевая гипотеза справедлива, и достигаемый уровень значимости имеет равномерное распределение на
- При и критерий имеет достаточную мощность, и нулевая гипотеза чаще всего отвергается.
- При размере выборки до 50 элементов и среднем второй выборки критерий практически не способен отклонить гипотезу однородности, мощность в этой области изменения параметров низка.
- При большой разнице между средними выборок критерий достаточно уверенно отвергает гипотезу однородности даже на выборках небольшого размера (5-6 элементов).
Задания
Устойчивость критериев к нарушению предположений
- Исследовать устойчивость двухвыборочного критерия Стьюдента для независимых выборок к нарушению предположения о нормальности данных.
— выборка длины из смеси нормального и равномерного распределений с весами и соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
— аналогичная выборка.
Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению выборок.
- Кононенко Даниил:
- Голкин Александр:
- Завадский Глеб:
- Чугунов Кирилл:
- Корниенко Алексей:
- Кузнецов Михаил:
- Исследовать устойчивость критерия Фишера для проверки равенства дисперсий к нарушению предположения о нормальности выборок.
— выборка длины из смеси распределений и с весами и соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
— аналогичная выборка.
Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению.
- Иванов Николай:
- Рубцов Александр:
- Рукина Дарья:
- Савгиров Арш:
- Спиридонов Роман:
- Стукалюк Владимир:
Влияние связок на поведение статистических критериев
Для генерации выборки со связками может использоваться округление элементов выборки, либо следующая процедура:
- генерируется выборка размера из указанного в задаче распределения;
- в вариационном ряду выборки выбираются непересекающихся пар элементов , лежащих ближе всего друг к другу;
- для всех выбранных пар элементы выборки и заменяются их средним.
Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к наличию связок.
- Исследовать влияние наличия в выборке совпадающих элементов на статистические критерии, проверяющие гипотезу нормальности.
— выборка длины из смеси нормального и равномерного распределений с весами и соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного);
распределена нормально; распределена по какому-то другому закону.
- Сунгуров Дмитрий: критерий Андерсона-Дарлинга, указанная процедура порождения связок,
- Животовский Никита: критерий Шапиро-Уилка, указанная процедура порождения связок,
- Мафусалов Александр: критерий Андерсона-Дарлинга, округление элементов выборки до десятых,
- Сечин Павел: критерий Шапиро-Уилка, округление элементов выборки до десятых,
- Исследовать влияние наличия в выборках совпадающих элементов на критерий Уилкоксона-Манна-Уитни.
- Джамтырова Раиса: элементы выборок округляются до десятых,
- Ивкин Никита: элементы выборок округляются до 0.5,
- Пронин Яков: указанная процедура порождения связок,
- Фирстенко Александр: указанная процедура порождения связок,
Анализ чувствительности критериев к редактированию выборки
- Известно, что исключение из выборки определённых наблюдений зачастую может достаточно сильно повлиять на результат анализа. Необходимо исследовать чувствительность указанного критерия к редактированию выборки, построить графики вида 1, 2, 3, сделать выводы.
- Одновыборочный критерий Стьюдента.
При каждом значении параметра генерируется выборка размера , проводится проверка гипотезы , затем по некоторому правилу из выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и т.д. Обозначим за максимальное число исключённых в таком процессе элементов.
- Фадеев Илья: на каждом шаге исключается максимальный элемент.
- Берновский Михаил: на каждом шаге исключается максимальный элемент.
- Бессарабов Никита: на каждом шаге исключается минимальный элемент.
- Гнедков Игорь: на каждом шаге исключается минимальный элемент.
- Двухвыборочный критерий Стьюдента.
- Фирстенко Александр:
- Татарников Дмитрий:
- Зайцев Евгений:
- Морозов Алексей:
Литература
Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.