Статистический анализ данных (курс лекций, К.В.Воронцов)/2013, ФУПМ

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Оценки

Студент #1 (3 балла) #2 (3 балла) Рецензирование #2 (2 балла) #3 (3 балла) Участие в семинаре Сумма
Адуенко Александр 3 2
Бочкарева Валерия 2.9
Варфоломеева Анна 2.9
Глебов Антон 3
Ефимов Кирилл 3
Иванова Алина 2.8
Кузьмин Арсентий 3
Лобастов Степан 3
Медведникова Мария 3
Стенин Сергей 3
Смоляков Дмитрий 1.4
Целых Влада 3
Цыганова Светлана 3
Шпакова Татьяна 3
Шульга Александр
  • Штраф за просрочку сдачи заданий начисляется из расчета 0.1 балла за сутки.
  • Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:

  1. график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
  2. график зависимости достигаемого уровня значимости одного или двух критериев от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 1000 повторений);
  3. график с эмпирическими оценками мощности одного или двух критериев для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметров, и в m из k случаев гипотеза была отвергнута на некотором фиксированном уровне значимости \alpha (примем \alpha=0.05), оценкой мощности будет отношение m/k.

Необходимо сдать: выполненный в Tex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.), а также код на R, Матлабе или Питоне, при запуске которого на экран выводятся графики, соответствующие имеющимся в отчёте.

Задание принимается до 23:59 31.03.

Пример задания

Исследуем чувствительность классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при зашумлении выборок наблюдениями, взятыми из равномерного распределения.

X_1^n, \;\; X_{1i} \sim 0.9\cdot N(\mu_1,1)+ 0.1\cdot U\left[-5+\mu_1,5+\mu_1\right] — выборка длины n из смеси стандартного нормального N(\mu_1,1) и равномерного U\left[-5+\mu_1,5+\mu_1\right] распределений с весами 0.9 и 0.1 соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит 0.9, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).

X_2^n, \;\; X_{2i} \sim 0.9\cdot N(\mu_2,1)+ 0.1\cdot U\left[-5+\mu_2,5+\mu_2\right] — аналогичная выборка.

H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2.

\mu_1=0, \;\; \mu_2=-2\,:\,0.01\,:\,2, \;\; n=15\,:\,5\,:\,200.

При каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Заметим, что однократная генерация выборок даёт достаточно нестабильные результаты, не позволяя точно оценить границы области, где нулевая гипотеза отклоняется, поэтому и необходимо усреднение по большому числу экспериментов.

Видно, что при достаточно большой разнице между средними и большом размере выборок наличие шума не мешает уверенно отклонять гипотезу однородности. Когда, наоборот, разница между средними невелика (меньше 0.2-0.5 в зависимости от размера выборок), мощность близка к нулю, а среднее значение достигаемого уровня значимости колеблется около 0.5, что логично, так как его распределение при справедливости нулевой гипотезы равномерно на [0,1].

Чтобы оценить вклад зашумления выборок, оценим при всех значениях параметра мощность критерия и средний достигаемый уровень значимости на аналогичных выборках без шума и сравним результаты.

Видно, что наличие шума всё меньше влияет на работу критерия с ростом объёма выборок и разницы между их средними. Тем не менее, в некоторых областях изменения параметров потеря мощности из-за 10% зашумления может составлять до 20%, а средний достигаемый уровень значимости может быть выше на 0.1.

Отметим, что приведённые количественные выводы справедливы только для шума рассматриваемой структуры.

Задания

Анализ поведения схожих критериев

Требуется исследовать поведение указанной пары статистических критериев, подходящих для решения одной и той же задачи, сравнить мощность и достигаемые уровни значимости и сделать выводы о границах применимости критериев. Необходимо для каждого из критериев построить графики зависимости достигаемых уровней значимости и оценок мощностей от параметров, и показать, в каких областях изменения параметров предпочтительнее использовать тот или иной критерий. Для получения более гладких графиков рекомендуется применять оба критерия к одним и тем же выборкам, а не генерировать их отдельно для каждого критерия.

  • X_1^n, \;\; X_{1i} \sim Ber(p_1),\;\;X_2^n, \;\; X_{2i} \sim Ber(p_2), \;\; corr(X_{1i}, X_{2i})=\rho;
    H_0\,: выборки независимы, \;H_1\,:\,H_0 неверна.
    Чтобы сгенерировать коррелированные Бернуллиевские случайные величины, используется следующий метод[1]. Пусть t\left(\lambda\right) — случайная величина, имеющая распределение Пуассона с параметром \lambda. Обозначим \lambda_1 = -\log p_1, \;\; \lambda_2 = -\log p_2, \;\; \lambda_{12} = \log\left(1+\rho\sqrt{\frac{1-p_1}{p_1} \frac{1-p_2}{p_2} }\right).
    Искомую пару случайных величин X_{1i},X_{2i} можно получить следующим образом:
    X_{1i} = \left[t_1\left(\lambda_1-\lambda_{12}\right) + t_3\left(\lambda_{12}\right)\right], <br> X_{2i} = \left[t_2\left(\lambda_2-\lambda_{12}\right) + t_3\left(\lambda_{12}\right)\right],
    где квадратные скобки обозначают индикаторную функцию.
    Метод работает при \rho\geq0; для случаев \rho<0 генерируются выборки с корреляцией \left|\rho\right|, после чего одна из выборок инвертируется (нули и заменяются на единицы и наоборот).
Адуенко: p_1=\frac{1}{2}, \;\; p_2 = 0.01\,:\,0.01\,:\,0.99, \;\; \rho = -1\,:\,0.01\,:\,1, \;\; n = 30. Сравнить критерий хи-квадрат и точный критерий Фишера.
Бочкарева: p_1=\frac{1}{2}, \;\; p_2 = \frac{1}{2}, \;\; \rho = -1\,:\,0.01\,:\,1, \;\; n = 10\,:\,1\,:\,50. Сравнить G-критерий и точный критерий Фишера.
Варфоломеева: p_1=0.01\,:\,0.01\,:\,0.99, \;\; p_2 = 0.01\,:\,0.01\,:\,0.99, \;\; \rho = 0.75, \;\; n = 30. Сравнить G-критерий и критерий хи-квадрат.
  • X^n, \;\; X_i\sim Ber(p);
    H_0\,:\, p=\frac{1}{2}, \;\; H_1\,:\, p\neq\frac{1}{2};
    p=0.01\,:\,0.01\,:\,0.99, \;\; n=5\,:\,1\,:\,50.
Ефимов: сравнить критерии, основанные на доверительных интервалах Вальда и Уилсона (нулевая гипотеза отвергается на уровне значимости 5%, если 95% доверительный интервал для параметра не содержит \frac{1}{2}).
  • X^n, \;\; X_i\sim N(\mu,\sigma);
    H_0\,: среднее значение X равно нулю, H_1\,: среднее значение X не равно нулю;
    \mu=-2\,:\,0.01\,:\,2, \;\; \sigma=1, \;\; n=5\,:\,1\,:\,50.
Глебов: сравнить одновыборочные T- и Z-критерии.
Иванова: сравнить одновыборочный T-критерий и критерий знаковых рангов Уилкоксона.
Клочков: сравнить одновыборочный перестановочный критерий и критерий знаковых рангов Уилкоксона.
Шульга: сравнить Z-критерий и одновыборочный перестановочный критерий для известной дисперсии.
  • X_1^n, \;\; X_{1i} \sim N(\mu_1, \sigma_1^2),\;\;X_2^m, \;\; X_{2i} \sim N(\mu_2, \sigma_2^2);
    H_0\,: дисперсии выборок равны, H_1\,: дисперсии выборок не равны;
    \mu_1=0, \;\; \sigma_1=1.
Кузьмин: \mu_2=0, \;\; \sigma_2 = 0.5\,:\,0.01\,:\,2, \;\; n=m=5\,:\,1\,:\,50. Сравнить критерий Фишера и WM-критерий.
Лобастов: \mu_2=-5\,:\,0.05\,:\,5, \;\; \sigma_2 = 0.5\,:\,0.01\,:\,2, \;\; n=m=50. Сравнить WM-критерий и критерий Зигеля-Тьюки.
Медведникова: \mu_2=1, \;\; \sigma_2 = 0.5\,:\,0.01\,:\,2, \;\; n=30, \;\; m=5\,:\,1\,:\,50. Сравнить критерий Фишера и критерий Зигеля-Тьюки.
Стенин: \mu_2=0, \;\; \sigma_2 = 0.5\,:\,0.01\,:\,2, \;\; n=m=5\,:\,1\,:\,50. Сравнить WM-критерий и перестановочный критерий.
  • X^n, \;\; X \sim p\cdot N(0,1)+ \left(1-p\right)\cdot U\left[-a,a\right] — выборка длины n из смеси стандартного нормального N(0,1) и равномерного U\left[-a,a\right] распределений с весами p и 1-p соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
     H_0\,:распределение X нормально, H_1\,:\; H_0 неверна;
     n=10\,:\,5\,:\,100.
Смоляков: a=1, \;\; p=0\,:\,0.02\,:\,1. Сравнить критерии Шапиро-Уилка и хи-квадрат.
Целых: a=2, \;\; p=0\,:\,0.02\,:\,1. Сравнить критерии Жарка-Бера и Шапиро-Уилка.
  • X_1^{n_1}, \;\; X_{1i} \sim N(\mu_1, \sigma_1^2),\;\;X_2^{n_2}, \;\; X_{2i} \sim N(\mu_2, \sigma_2^2);
    H_0\,: средние выборок равны, H_1\,: средние выборок не равны;
    \mu_1=0, \;\; \sigma_1=1.
Цыганова: \mu_2=-2\,:\,0.02,\:\,2, \;\; \sigma_2 = 0.5\,:\,0.01\,:\,2, \;\; n=m=30. Сравнить критерий Стьюдента для неизвестных равных дисперсий и двухвыборочный перестановочный критерий.
Шпакова: \mu_2=-2\,:\,0.02,\:\,2, \;\; \sigma_2 = 1, \;\; n=m=5\,:\,1\,:\,50. Сравнить критерий Аспина-Уэлша и двухвыборочный перестановочный критерий.

Задание 2. Анализ реальных данных

Ниже приведены описания анализируемых данных и постановки задач. При проведении анализа можно пользоваться любыми доступными программными средствами. Необходимо предоставить подробный письменный отчёт по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, промежуточные результаты вычислений, графики. Особое внимание необходимо обращать на полноту применения методов. Помимо выводов, касающихся математических особенностей решения, необходимо включить в отчёт заключения, сформулированные в терминах предметной области, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает баллы, если рецензируемая им работа была принята с первого раза, при условии, что его собственная работа также сдана.

Предварительные версии отчётов принимаются до 23:59 5.05, финальные, по результатам работы с рецензентом — до 23:59 15.05.

Задания

Массовая доля жира в организме

Массовая доля жира, важная характеристика здоровья, рассчитывается через плотность тела, измеряемую при помощи взвешивания в воде. Для 252 мужчин проведены такие расчёты. Имеются также данные антропометрии (возраст, рост, вес, обхват грудной клетки и т.д.)

Глебов: построить функцию, оценивающую массовую долю жира по легко измеряемым антропометрическим признакам.
Ефимов: построить функцию, оценивающую индекс ожирения без использования данных взвешивания.

Надёжность шарикоподшипников

Мерой надёжности шарикоподшипников служит величина L_{10} — максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина L_{10}.

Стенин: построить функцию, оценивающую L_{10} по имеющимся признакам, рассчитать точность оценки.

Линейные размеры тысячефранковых банкнот

Банкнота в 1000 швейцарских франков серии, действовавшей в период с 1911 по 1958. Красным обозначены измеренные величины.
Банкнота в 1000 швейцарских франков серии, действовавшей в период с 1911 по 1958. Красным обозначены измеренные величины.

Имеются данные измерений двухсот швейцарских тысячефранковых банкнот, бывших в обращении в первой половине XX века. Сто из банкнот были настоящими, и сто — поддельными. Измерены следующие величины: X_1 — длина банкноты, X_2 — ширина банкноты с левой стороны, X_3 — ширина банкноты с правой стороны, X_4 — расстояние от нижнего края до рамки рисунка, X_5 — расстояние от нижнего края до рамки рисунка, X_6 — длина диагонали рисунка.

Целых: построить функцию, оценивающую вероятность того, что имеющаяся банкнота фальшивая, и доверительный интервал для неё. Какие группы признаков необходимы для этого? Каков наименьший набор признаков, позволяющий достаточно надёжно выявить фальшивую купюру?

Летальность пациентов с сепсисом

По 454 пациентам с сепсисом (лихорадка, тахикардия, тахипноэ и острая недостаточность по крайней мере одной системы органов) имеются следующие данные: оценка начального состояния по шкале APACHE острых и хронических функциональных изменений, факт наступления смерти в течение 30 дней после начала исследования (для каждого значения APACHE score приведены общее число пациентов в таком состоянии и соответствующее число пациентов, умерших в течение 30 дней).

Цыганова: оценить вероятность наступления в 30-дневный срок летального исхода в зависимости от исходного состояния. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.

Продолжительность жизни и активность размножения самцов дрозофилы

Для изучения влияния активности размножения самцов дрозофилы на продолжительность их жизни был организован следующий эксперимент. По 25 самцов в пяти группах содержались в одинаковых условиях, за исключением одного отличия: в первой группе к каждому самцу ежедневно подсаживалась готовая к размножению самка, во второй – восемь готовых к размножению самок, в третьей и четвёртой - соответственно, одна и восемь беременных самок, не готовых к размножению, наконец, к самцам четвёртой группы не подсаживали никого. Для каждого самца измерена продолжительность жизни, длина грудной клетки и доля времени, проводимого во сне.

Лобастов: построить функцию, предсказывающую продолжительность жизни самца дрозофилы в зависимости от условий его содержания, дать интерпретацию вклада признаков.

Электрическая прочность диэлектрика

Была измерена электрическая прочность изоляции проводов на разных сроках их эксплуатации и при различной температуре. Известно, что зависимость электрической прочности диэлектрика от времени и температуры имеет вид \log(y)=\beta_1-\beta_2\cdot time \cdot e^{-\beta_3\cdot temperature}.

Шпакова: найти значения констант \beta_1, \beta_2, \beta_3, построить для них доверительные области, оценить качество построенной модели.

Данные антропометрии

Некоторые из измеренных характеристик скелета.
Некоторые из измеренных характеристик скелета.

Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей – легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.

Иванова: построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
Кузьмин: построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый — женщина, и доверительный интервал для этой вероятности.

Пожертвования на благотворительность

Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.

Бочкарева: построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.
Адуенко: построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.

Влияние глифосата на рост плевел

Сравниваются два вида плевел, дикая разновидность и мутантная, выработавшая устойчивость к глифосату. Оба вида в равных пропорциях засеиваются в теплицу, проводится обработка глифосатом, по окончании эксперимента измеряются плотности зарастания (количество растений на единицу площади) дикой x и мутантной z разновидностей. Целевой признак y – средняя биомасса дикой разновидности (в граммах на одно растение). Для него предложена следующая модель:
y=\frac{a}{1+b\left(x+cz\right)},
где коэффициент a имеет смысл гипотетической средней биомассы при нулевой плотности зарастания, b – коэффициент внутривидовой конкуренции для дикой разновидности, c – коэффициент взаимозаменяемости видов (если он равен единице, то виды взаимозаменяемы).

Медведникова: найти значения коэффициентов a, b, c, построить для них доверительные области, оценить качество построенной модели. Можно ли сказать, что виды взаимозаменяемы?

Пассажиры Титаника

Приведены данные о 1309 пассажирах Титаника. Для каждого пассажира указано имя, пол, возраст, класс и цена билета, число родственников на борту, и, кроме того, удалось ли ему выжить.

Варфоломеева: построить функцию, предсказывающую вероятность выживания пассажира по имеющимся данным, оценить точность предсказания.

Внешний вид и привлекательность самок мечехвостов

Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.

Смоляков: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки.

Задание 3. Прогнозирование временных рядов

Ниже приведены описания анализируемых данных и постановки задач. При проведении анализа можно пользоваться любыми доступными программными средствами. Необходимо предоставить подробный письменный отчёт по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, промежуточные результаты вычислений, графики. Особое внимание необходимо обращать на полноту применения методов. Помимо выводов, касающихся математических особенностей решения, необходимо включить в отчёт заключения, сформулированные в терминах предметной области, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Задание принимается до 23:59 20.05.

Задания

Солнечная активность

В центре исследования солнечной активности Цюрихской обсерватории собраны данные о среднем числе солнечных пятен за каждый месяц с января 1749 года.

Кузьмин: предсказать среднее число солнечных пятен на каждый месяц до конца 2020 года.

Посещаемость сервисов Яндекса

Яндекс измеряет месячную аудиторию сервисов, по наиболее старым из них есть статистика за последние 5-6 лет.

Иванова: предсказать месячную аудиторию сервиса "Яндекс.Словари" на все месяцы 2013 года.
Смоляков: предсказать месячную аудиторию сервиса "Мой круг" на все месяцы 2013 года.

Объём стока реки Бойсе

Имеются данные по среднемесячному объёму стока реки Бойсе в районе города Твин Спрингс за каждый месяц с января 1960 по декабрь 2008 года.

Адуенко: предсказать среднемесячный объём стока реки на каждый месяц 2013 года.

Индекс реальных инвестиций в основной капитал

Сотрудниками ГУ-ВШЭ по данным Федеральной службы государственной статистики рассчитан индекс реальных инвестиций в основной капитал, приведённый относительно января 1994 года. Имеются данные на каждый месяц с января 1994 по сентябрь 2012 года.

Бочкарева: построить прогноз для значения индекса на каждый месяц 2013 года.

Число убийств и самоубийств в Австралии

Измерено среднегодовое число убийств и самоубийств на 100000 населения при помощи огнестрельного оружия и с использованием всех остальных средств в Австралии с 1905 по 2004 годы (имеются пропуски).

Глебов: смоделировать среднегодовое число убийств, оценить уровни для 2005-2012 годов.
Медведникова: смоделировать долю среднегодового числа самоубийств, совершаемых при помощи огнестрельного оружия, среди всех самоубийств. В 1996-1997 годах в Австралии было изменено законодательство в отношении разрешения на хранение и использование огнестрельного оружия, в ходе программы по разоружению было изъято 600000 единиц оружия (при численности населения в 20000000 человек). Какой эффект это оказало на исследуемый признак?

Средняя номинальная заработная плата в России

На каждый месяц с января 1993 года рассчитан уровень средней номинальной заработной платы в рублях. Среднемесячная номинальная заработная плата исчисляется исходя из фонда заработной платы работников, деленного на среднесписочную численность работников. В фонд заработной платы включаются начисленные суммы в денежной и натуральной формах за отработанное время и выполненную работу, неотработанное, но оплаченное время (например, ежегодные отпуска), стимулирующие доплаты и надбавки, премии и единовременные поощрения, компенсационные выплаты, связанные с режимом работы и условиями труда.

Цыганова: построить прогноз для уровня средней номинальной заработной платы на каждый месяц до конца 2013 года.

Число автомобилей, производимых в Великобритании

С первого квартала 1977 по первый квартал 2005 года имеются данные о количестве автомобилей, произведённых в Великобритании, в тысячах штук.

Лобастов: построить прогноз на каждый квартал 2013-2014 года, оценить точность прогноза.

Продажи сувениров

Известны ежемесячные объёмы продаж сувениров в магазине на пляжном курорте в Квинсленде, Австралия. Данные приведены за семь лет, первый месяц — январь, пропусков нет.

Варфоломеева: построить предсказание объёмов продаж на следующие двенадцать месяцев.

Смертность от сердечно-сосудистых заболеваний

Имеются данные по средней дневной смертности от сердечно-сосудистых заболеваний в округе Лос-Анджелес в 1970-1979 годах. Собраны данные по пятисот восьми (идущим подряд) неделям, за каждую из этих недель известна также средняя температура воздуха и мера его загрязнённости.

Ефимов: считая для последних 50 недель показатель смертности неизвестным, построить его оценку с учётом температуры и загрязнённости воздуха.
Шпакова: построить прогноз средней дневной смертности на следующие 100 недель.

Свободные цены на товарном рынке

Конференция ООН по торговле и развитию (ЮНКТАД) собирает ежемесячные данные по свободным ценам на товарном рынке основных продуктов. Имеются данные с января 1960 года по настоящий момент.

Стенин: спрогнозировать стоимость алюминия на Лондонской бирже металлов на каждый месяц до конца 2013 года.
Целых: спрогнозировать стоимость бананов при импорте из Центральной Америки в США на каждый месяц до конца 2013 года.

Литература

Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки