Статистический анализ данных (курс лекций, К.В.Воронцов)/2013

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Оценки

Студент #1 (1 балл) #2 (2 балла) Рецензирование #2 (1 балл) #3 (2 балла) Рецензирование #3 (1 балл) Сумма
Березин Алексей 1
Борисов Михаил
Гавриков Михаил 1
Зак Евгений 0.8
Исмагилов Тимур
Кондрашкин Дмитрий 0.9
Куракин Александр 1
Лобачева Екатерина 1
Любимцева Мария 1
Малышева Екатерина 1
Меркулова Татьяна 1
Морозова Дарья
Нижибицкий Евгений 1
Новиков Максим 1
Огнева Дарья 1
Остапец Андрей 1
Потапенко Анна 1
Ромов Петр 0.9
Фонарев Александр 1
Шаймарданов Ильдар 1
  • Штраф за просрочку сдачи заданий начисляется из расчета 0.1 балла за сутки.
  • Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.
  • Для допуска к экзамену необходимо сдать как минимум два задания, обязательно включая первое.

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:

  1. график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
  2. график зависимости достигаемого уровня значимости одного или двух критериев от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 1000 повторений);
  3. график с эмпирическими оценками мощности одного или двух критериев для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметров, и в m из k случаев гипотеза была отвергнута на некотором фиксированном уровне значимости \alpha (примем \alpha=0.05), оценкой мощности будет отношение m/k.

Необходимо сдать: выполненный в Tex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.), а также код на R, Матлабе или Питоне, при запуске которого на экран выводятся графики, соответствующие имеющимся в отчёте.

Задание принимается до 23:59 19.10.

Пример задания

Исследуем чувствительность классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при зашумлении выборок наблюдениями, взятыми из равномерного распределения.

X_1^n, \;\; X_{1i} \sim 0.9\cdot N(\mu_1,1)+ 0.1\cdot U\left[-5+\mu_1,5+\mu_1\right] — выборка длины n из смеси стандартного нормального N(\mu_1,1) и равномерного U\left[-5+\mu_1,5+\mu_1\right] распределений с весами 0.9 и 0.1 соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит 0.9, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).

X_2^n, \;\; X_{2i} \sim 0.9\cdot N(\mu_2,1)+ 0.1\cdot U\left[-5+\mu_2,5+\mu_2\right] — аналогичная выборка.

H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2.

\mu_1=0, \;\; \mu_2=-2\,:\,0.01\,:\,2, \;\; n=15\,:\,5\,:\,200.

При каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Заметим, что однократная генерация выборок даёт достаточно нестабильные результаты, не позволяя точно оценить границы области, где нулевая гипотеза отклоняется, поэтому и необходимо усреднение по большому числу экспериментов.

Видно, что при достаточно большой разнице между средними и большом размере выборок наличие шума не мешает уверенно отклонять гипотезу однородности. Когда, наоборот, разница между средними невелика (меньше 0.2-0.5 в зависимости от размера выборок), мощность близка к нулю, а среднее значение достигаемого уровня значимости колеблется около 0.5, что логично, так как его распределение при справедливости нулевой гипотезы равномерно на [0,1].

Чтобы оценить вклад зашумления выборок, оценим при всех значениях параметра мощность критерия и средний достигаемый уровень значимости на аналогичных выборках без шума и сравним результаты.

Видно, что наличие шума всё меньше влияет на работу критерия с ростом объёма выборок и разницы между их средними. Тем не менее, в некоторых областях изменения параметров потеря мощности из-за 10% зашумления может составлять до 20%, а средний достигаемый уровень значимости может быть выше на 0.1.

Отметим, что приведённые количественные выводы справедливы только для шума рассматриваемой структуры.

Задания

Анализ поведения схожих критериев

Требуется исследовать поведение указанной пары статистических критериев, подходящих для решения одной и той же задачи, сравнить мощность и достигаемые уровни значимости и сделать выводы о границах применимости критериев. Необходимо для каждого из критериев построить графики зависимости достигаемых уровней значимости и оценок мощностей от параметров, и показать, в каких областях изменения параметров предпочтительнее использовать тот или иной критерий. Для получения более гладких графиков рекомендуется применять оба критерия к одним и тем же выборкам, а не генерировать их отдельно для каждого критерия.

  • X^n, \;\; X_i\sim Ber(p);
    H_0\,:\, p=\frac{1}{2}, \;\; H_1\,:\, p\neq\frac{1}{2};
    p=0.01\,:\,0.01\,:\,0.99, \;\; n=5\,:\,1\,:\,50.
Гавриков: сравнить Z-критерий и точный критерий для доли.
Потапенко: сравнить критерии, основанные на доверительных интервалах Вальда и Уилсона (нулевая гипотеза отвергается на уровне значимости 5%, если 95% доверительный интервал для параметра не содержит \frac{1}{2}).
  • X^n, \;\; X_i\sim N(\mu,\sigma);
    H_0\,: среднее значение X равно нулю, H_1\,: среднее значение X не равно нулю;
    \mu=-2\,:\,0.01\,:\,2, \;\; \sigma=1, \;\; n=5\,:\,1\,:\,50.
Нижибицкий: сравнить одновыборочные T- и Z-критерии.
Зак: сравнить критерий знаковых рангов Уилкоксона и одновыборочный перестановочный критерий с суммой элементов в качестве статистики.
  • X_1^{n}, \;\; X_{1i} \sim N(\mu_1, \sigma_1^2),\;\;X_2^{n}, \;\; X_{2i} \sim N(\mu_2, \sigma_2^2);
    H_0\,: средние выборок равны, \;H_1\,: средние выборок не равны;
    \mu_1=0, \;\; \sigma_1=1.
Остапец: \mu_2=-2\,:\,0.02\,:\,2, \;\; \sigma_2 = 0.5\,:\,0.01\,:\,2, \;\; n=30. Сравнить критерий Стьюдента для неизвестных равных дисперсий и двухвыборочный перестановочный критерий, основанный на статистике критерия Стьюдента для неизвестных равных дисперсий.
Морозова: \mu_2=-2\,:\,0.02\,:\,2, \;\; \sigma_2 = 1, \;\; n=5\,:\,1\,:\,50. Сравнить критерий Аспина-Уэлша и двухвыборочный перестановочный критерий с разностью средних в качестве статистики.
Шаймарданов: \mu_2=-2\,:\,0.02\,:\,2, \;\; \sigma_2 = 1, \;\; n=5\,:\,1\,:\,50. Сравнить критерий Уилкоксона-Манна-Уитни и критерий знаков.
  • X_1^n, \;\; X_{1i} \sim 0.5\cdot N(0,1)+ 0.5\cdot U\left[-a,a\right], \;\; X_2^n, \;\; X_{2i} \sim 0.5\cdot N(0,\sigma^2)+ 0.5\cdot U\left[-a,a\right] — выборки длины n из смеси нормального и равномерного U\left[-a,a\right] распределений с равными весами (при генерации выборки используется случайный датчик — если его значение не превосходит 0.5, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
    H_0\,: дисперсии двух выборок равны, \;H_1\,: дисперсии двух выборок не равны;
    \sigma=0.1\,:\,0.05\,:\,4.
Кондрашкин: a=3, \;\; n=10\,:\,5\,:\,100. Сравнить критерий Зигеля-Тьюки и критерий Брауна-Форсайта.
Борисов: a=0.5\,:\,0.1\,:\,5, \;\; n=50. Сравнить критерий Брауна-Форсайта и критерий Фишера.
Огнева: a=5, \;\; n=5\,:\,1\,:\,50. Сравнить WM-критерий и перестановочный критерий, основанный на статистике Али.
  • X^n, \;\; X_i \sim p\cdot N(0,1)+ \left(1-p\right)\cdot U\left[-a,a\right] — выборка длины n из смеси стандартного нормального N(0,1) и равномерного U\left[-a,a\right] распределений с весами p и 1-p соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
     H_0\,:\; X_i \sim N, \;\;\; H_1\,:\; H_0 неверна;
    n=10\,:\,5\,:\,100.
Фонарев: a=1, \;\; p=0\,:\,0.02\,:\,1. Сравнить критерий Шапиро-Уилка и критерий Колмогорова-Смирнова.
Лобачева: a=2, \;\; p=0\,:\,0.02\,:\,1. Сравнить критерий омега-квадрат и критерий Жарка-Бера.
Исмагилов: a=0.5\,:\,0.1\,:\,5, \;\; p=0.25. Сравнить критерий Колмогорова-Смирнова и критерий хи-квадрат.

Анализ устойчивости критериев к нарушению предположений

Требуется исследовать поведение указанного критерия в условиях нарушения лежащих в его основе предположений. Оценить мощность и достигаемый уровень значимости критерия при различных значениях параметров, сделать выводы об устойчивости

X^n, \;\; X_i \sim p\cdot N(\mu,1)+ \left(1-p\right)\cdot U\left[-a+\mu,a+\mu\right] — выборка длины n из смеси нормального N(\mu,1) и равномерного U\left[-a+\mu,a+\mu\right] распределений с весами p и 1-p соответственно (при генерации каждой выборки используется случайный датчик — если его значение не превосходит p, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
H_0\,:\; \mu=0, \;\; H_1\,:\; \mu\neq0.

Березин: \mu=-2\,:\,0.01\,:\,2, \;\; p=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.
Малышева: \mu=1, \;\; p=0\,:\,0.01\,:\,1, \;\; a=2, \;\; n=15\,:\,5\,:\,200.
Ромов: \mu=-2\,:\,0.01\,:\,2, \;\; p=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.
Новиков: \mu=0.5, \;\; p=0\,:\,0.01\,:\,1, \;\; a=0.1\,:\,0.1\,:\,5, \;\; n=100.
  • Критерий Фишера для проверки равенства дисперсий, нарушение предположения о нормальности.

X_1^n, \;\; X_{1i} \sim p_1\cdot N(0,\sigma_1^2)+ \left(1-p_1\right)\cdot U\left[-a,a\right] — выборка длины n из смеси нормального N(0,\sigma_1^2) и равномерного U[-a,a] распределений с весами p_1 и 1-p_1 соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p_1, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного),
X_2^n,\;\; X_{2i} \sim p_2\cdot N(0,\sigma_2^2)+ \left(1-p_2\right)\cdot U\left[-a,a\right] — аналогичная выборка,
H_0\,: дисперсии двух выборок равны, \;H_1\,: дисперсии двух выборок не равны;
\sigma_1=2, \;\; \sigma_2=0.1\,:\,0.05\,:\,4.

Куракин: p_1=p_2=0.8, \;\; a=2, \;\; n=15\,:\,5\,:\,200.
Любимцева: p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=3, \;\; n=100.

Задание 2. Анализ реальных данных

Ниже приведены описания анализируемых данных и постановки задач. При проведении анализа можно пользоваться любыми доступными программными средствами. Необходимо предоставить подробный письменный отчёт по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, промежуточные результаты вычислений, графики. Особое внимание необходимо обращать на полноту применения методов. Помимо выводов, касающихся математических особенностей решения, необходимо включить в отчёт заключения, сформулированные в терминах предметной области, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает баллы, если рецензируемая им работа была принята с первого раза, при условии, что его собственная работа также сдана.

Предварительные версии отчётов принимаются до 23:59 23.11, финальные, по результатам работы с рецензентом — до 23:59 30.11.

Задания

Интеллект и размер головного мозга

Исследование проводилось среди студентов психологического факультета крупного университета. Все испытуемые должны были быть правшами, а также не иметь повреждений мозга, эпилепсии, алкоголизма и сердечных заболеваний. Участники предварительного этапа эксперимента прошли несколько IQ-тестов, после чего для дальнейшего участия было отобрано 20 мужчин и 20 женщин, имевших коэффициент интеллекта либо ниже 103, либо выше 130 баллов. Для каждого из отобранных при помощи магнитно-резонансной томографии были получены 18 снимков срезов головного мозга, и общее количество пикселей на всех 18 снимках было принято в качестве меры объёма мозга. Помимо этого, были собраны данные о росте и массе тела испытуемых.

Студент 5: проанализировать, какие из факторов значимо влияют на объём головного мозга. Проверить, по какой из двух групп факторов можно предсказывать объём головного мозга с большей уверенностью – по результатам тестов интеллекта, или по полу, росту и весу.

Стоимость подержанных автомобилей

Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений.

Студент 14: построить модель стоимости автомобиля по данному набору признаков.

Электрическая прочность диэлектрика

Была измерена электрическая прочность изоляции проводов на разных сроках их эксплуатации и при различной температуре. Известно, что зависимость электрической прочности диэлектрика от времени и температуры имеет вид \log(y)=\beta_1-\beta_2\cdot time \cdot e^{-\beta_3\cdot temperature}.

Студент 15: найти значения констант \beta_1, \beta_2, \beta_3, построить для них доверительные области, оценить качество построенной модели.

Клетки опухолей груди

Гистохимия пунктата злокачественной опухоли.
Гистохимия пунктата злокачественной опухоли.

357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.

Студент 1: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала. Подобрать порог на вероятность для классификации.

Пожертвования на благотворительность

Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.

Студент 2: построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.

Концентрация озона

Имеются данные измерений состояния атмосферы, произведённых в Нью-Йорке в течение 111 подряд идущих дней. Измерены температура воздуха, скорость ветра, уровень солнечной радиации и концентрация озона.

Студент 10: построить функцию, по имеющимся признакам оценивающую наиболее вероятное значение концентрации озона и доверительный интервал для него.
Студент 11: построить функцию, по имеющимся признакам оценивающую наиболее вероятное значение уровня солнечной радиации и доверительный интервал для него.

Эффективность тромболитической терапии

Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т. д.)

Студент 8: построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
Студент 9: построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.

Генетически модифицированные мыши с синдромом Дауна

Эмбрионы мышей с внедрённой копией участка 21-й хромосомы человека (слева) и без (справа).
Эмбрионы мышей с внедрённой копией участка 21-й хромосомы человека (слева) и без (справа).

Синдром Дауна — геномная патология, характеризующаяся наличием дополнительной копии генетического материала по 21-й хромосоме. В целях исследования болезни Дауна была создана популяция мышей с внедрённой копией одного из участков 21-й хромосомы человека. Первому поколению мышей внедрялся один из четырёх участков, затем они скрещивались с немодифицированными мышами, и внедрённый участок мог передаваться потомкам. Все они оказались слепыми, поэтому невозможно было провести прямую проверку уровня их интеллекта. Для 500 особей известны: наименование внедрённого участка хромосомы (A=141G6; B=152F7; C=230E8; D=285E6), номер линии мышей (мыши, произошедшие от одной и той же трансгенной особи, относятся к одной линии), пол особи, вес, возраст, в котором он был измерен, номер клетки, в которой жила особь, а также индикатор содержания в её ДНК человеческого материала.

Студент 3: люди, страдающие болезнью Дауна, более склонны к ожирению; справедливо ли это для генетически модифицированных мышей? Исследовать различия с учётом всех остальных факторов.

Продолжительность жизни и активность размножения самцов дрозофилы

Для изучения влияния активности размножения самцов дрозофилы на продолжительность их жизни был организован следующий эксперимент. По 25 самцов в пяти группах содержались в одинаковых условиях, за исключением одного отличия: в первой группе к каждому самцу ежедневно подсаживалась готовая к размножению самка, во второй — восемь готовых к размножению самок, в третьей и четвёртой — соответственно, одна и восемь беременных самок, не готовых к размножению, наконец, к самцам четвёртой группы не подсаживали никого. Для каждого самца измерена продолжительность жизни, длина грудной клетки и доля времени, проводимого во сне.

Студент 4: построить функцию, предсказывающую продолжительность жизни самца дрозофилы в зависимости от условий его содержания, дать интерпретацию вклада признаков.

Счета за электроэнергию

Имеются помесячные данные о тратах на электроэнергию одного фиксированного домохозяйства на среднем западе США. За каждый месяц 1991-2000 годов приведены затраты на электроэнергию в долларах. Для объяснения колебаний размера счёта приведены следующие переменные: среднемесячная температура по данным последних тридцати лет, погодные индексы CDD и HDD (CDD — Cooling Degree Day — количество градусов, на которые средняя дневная температура больше 65°F, взятое суммой за все дни месяца; HDD — Heating Degree Day — аналогично, суммарное количество градусов, на которое средняя дневная температура меньше 65°F), число проживающих в доме членов семьи, индикатор установки нового счётчика, индикаторы установки двух новых тепловых насосов, объём потребления электроэнергии в киловатт-часах.

Студент 6: построить функцию, предсказывающую затраты на электроэнергию по температуре, погодным индексам и числу проживающих в доме.

Состав бетона

Для 103 образцов раствора бетона известно содержание в кубическом метре семи основных компонент, для каждого образца измерены также осадка, растекание и прочность на сжатие.

Студент 17: построить функцию, оценивающую растекание бетона по его составу.
Студент 18: построить функцию, оценивающую прочность бетона на сжатие по всем имеющимся характеристикам, оценить вклад растекания и осадки.

Внешний вид и привлекательность самок мечехвостов

Мечехвосты (Limulus polyphemus).
Мечехвосты (Limulus polyphemus).

Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.

Студент 7: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник; интерпретировать вклад каждого фактора.

Массовая доля жира в организме

Массовая доля жира, важная характеристика здоровья, рассчитывается через плотность тела, измеряемую при помощи взвешивания в воде. Для 252 мужчин проведены такие расчёты. Имеются также данные антропометрии (возраст, рост, вес, обхват грудной клетки и т. д.)

Студент 12: построить функцию, оценивающую массовую долю жира по легко измеряемым антропометрическим признакам.
Студент 13: построить функцию, оценивающую индекс ожирения без использования данных взвешивания.

Вкус португальского вина

Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.

Студент 16: построить модель экспертной оценки красного вина по биохимическим характеристикам, оценить влияние содержания алкоголя на экспертную оценку.
Студент 19: построить функцию, оценивающую вероятность того, что вино, для которого известны биохимические характеристики и экспертная оценка, является красным, и доверительный интервал для неё. Оценить влияние экспертной оценки на эту вероятность.

Преступность и демографические характеристики

Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам имеется статистика преступлений и 125 демографических показателей.

Студент 20: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию модели.

Ссылки

Личные инструменты