Участник:Riabenko/tmp

Материал из MachineLearning.

< Участник:Riabenko(Различия между версиями)
Перейти к: навигация, поиск
м
Текущая версия (19:11, 25 сентября 2018) (править) (отменить)
м
 
(81 промежуточная версия не показана)
Строка 1: Строка 1:
-
= Задание 2. Проверка гипотез на реальных данных =
+
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2009|Практические задания для студентов каф. ММП ВМК (2009 год)]]
-
Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику.
+
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2010|Практические задания для студентов каф. ММП ВМК (2010 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2011, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2011 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2011|Практические задания для студентов каф. ММП ВМК (2011 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2012, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2012 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2012|Практические задания для студентов каф. ММП ВМК (2012 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2013, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2013 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2013|Практические задания для студентов каф. ММП ВМК (2013 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2014 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014|Практические задания для студентов каф. ММП ВМК (2014 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015|Практические задания для студентов каф. ММП ВМК (2015 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2015 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2016, ММП|Практические задания для студентов каф. ММП ВМК (2016 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2016, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2016 год)]]
-
Необходимо сдать: подробный отчёт по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, промежуточные результаты вычислений, графики.
+
<tex>
-
 
+
\frac{1}{\sum_i { N_{X_i}}} \left(\sum_i { N_{X_i} \mu_{X_i}}\right) +1.96 \sqrt{\frac{1}{\sum_i {N_{X_i} - 1}} \left( \sum_i { \left[(N_{X_i} - 1) \sigma_{X_i}^2 + N_{X_i} \mu_{X_i}^2\right] } - \left[\sum_i {N_{X_i}}\right]\mu_X^2 \right) }
-
Задание принимается до '''23:59 2.04'''.
+
</tex>
-
 
+
-
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ/2|Подстраница с индивидуальными постановками задач]].
+
-
 
+
-
=== Допустимость наказаний ===
+
-
Известно мнение двенадцати родителей о допустимости наказания их детей по результатам оценки в психогенном эксперименте; допустимость выражается в баллах, чем ниже балл, тем менее допустимым участник исследования считает наказание. Имеются результаты о наказании самим родителем, бабушкой и учителем ребёнка. <!--- punishment.txt http://matstats.ru/page.html --->
+
-
::Студент 6: как зависит оценка допустимости наказания от наказывающего?
+
-
 
+
-
===Цифры числа пи ===
+
-
Даны первые десять тысяч цифр числи пи. <!--- pi10000.txt --->
+
-
::Студент 1: Можно ли сказать, что все цифры встречаются с одинаковой частотой? Есть ли корреляция между подряд идущими цифрами?
+
-
 
+
-
===Maryland's Pick-3 Lottery===
+
-
Даны результаты розыгрыша лотереи Maryland's Pick-3 Lottery за 218 подряд идущих дней. Результатом является трёхзначное число. <!--- lottery.txt --->
+
-
::Студент 2: можно ли считать розыгрыш случайным?
+
-
 
+
-
=== Эффективность тромболитической терапии ===
+
-
Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)
+
-
::Студент 3: оценить влияние курения на вероятности выздоровления и возникновения осложнений, а также на результаты 14 анализов.
+
-
 
+
-
=== Внешний вид и привлекательность самок мечехвостов ===
+
-
Изучалось влияние внешних характеристик самок морских ракообразных [http://upload.wikimedia.org/wikipedia/commons/f/f7/Limulus.jpg мечехвостов] на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
+
-
::Студент 4: сравнить по всем имеющимся признакам самок, имеющих хотя бы одного спутника, с самками, не имеющими ни одного.
+
-
 
+
-
=== Вакцина против вируса папилломы человека ===
+
-
Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс&nbsp;— три укола в течение года&nbsp;— был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно. <!---gardasil.xls http://www.amstat.org/publications/jse/v19n1/barat.pdf --->
+
-
::Студент 7: оценить влияние клиники и её расположения на число сделанных пациенткам уколов.
+
-
::Студент 8: связаны ли возраст и раса с готовностью прохождения полного курса вакцинации в течение года?
+
-
::Студент 9: связаны ли с готовностью прохождения полного курса вакцинации в течение года тип медицинской страховки и специализация порекомендовавшего вакцинацию врача?
+
-
 
+
-
===Размеры черепа древних египтян===
+
-
Измерено 150 черепов, найденных при раскопках в Египте. Находки относятся к пяти различным временным периодам. Для каждого черепа известны: максимальная ширина, базибрегматическая высота, базиальвеолярная длина, высота носа, примерная дата формирования. <!---skulls.txt--->
+
-
::Студент 10: проверить, есть ли различия между размерами черепов различных временных периодов, если есть, то какие периоды отличаются друг от друга.
+
-
 
+
-
=== Условия размножения штаммов золотистого стафилококка===
+
-
При подозрении на инфекционное заболевание для правильной постановки диагноза часто бывает важно из взятых у пациентов образцов вырастить как можно более многочисленную колонию бактерий, чтобы её было удобнее исследовать. Считается, что оптимальные параметры для размножения штаммов стафилококка в лабораторных условиях следующие: температура 35 градусов, концентрация триптона в питательном растворе 1.0%, время выдержки 24 часа. Для проверки оптимальности этих условий было проведено 30 экспериментов над пятью различными штаммами стафилококка. Для каждого из экспериментов известны время выдержки, температура, концентрация триптона, а также измеренное по окончании выдержки число колониеобразующих единиц (КОЕ) бактерий каждого штамма. <!--- Staphylococcus aureus.txt --->
+
-
::Студент 11: одинакова ли зависимость итогового числа КОЕ разных штаммов стафилококка от внешних условий?
+
-
 
+
-
===Засеивание облаков и уровень осадков===
+
-
Исследовалось воздействие засеивания облаков на обилие дождей. Измерения проводились в течение 108 периодов на пяти участках земли в Тасмании&nbsp;— участки обозначены в файле как западный, восточный, южный, северный и северо-восточный. В выборке содержатся данные об уровне осадков (в миллиметрах) на каждом из пяти участков, о времени года, к которому относится период, и о том, проводилось ли засеивание. <!---cloudseeding.txt--->
+
-
::Студент 12: проверить, как засеивание облаков повлияло на уровень осадков отдельно по каждому из пяти экспериментальных участков. Одинаково ли проявляется эффект засеивания на каждом из них, или, возможно, он как-то зависит от исходного уровня осадков на участке?
+
-
 
+
-
===Продолжительность жизни раковых больных===
+
-
Выборка состоит из 64 пациентов, у которых был диагностирован неизлечимый рак какого-либо органа. Всем им в качестве поддерживающей терапии был назначен к приёму витамин C (считалось, что он может способствовать выздоровлению раковых больных). Приведены данные об остаточной продолжительности жизни пациентов в днях. <!--- cancer.txt --->
+
-
::Студент 13: исследовать связь между остаточной продолжительностью жизни и типом рака.
+
-
 
+
-
===Краш-тест с манекенами===
+
-
Имеются результаты 352 краш-тестов, при которых происходило лобовое столкновение автомобилей с бетонной стеной на скорости около 60 км/ч. Измерены показатели повреждения манекенов: критерий тяжести повреждений головы, замедление грудной клетки, нагрузка на левое и правое бедро. <!--- crush.xls --->
+
-
::Студент 14: исследовать зависимость показателей повреждения от типа кузова, вида средств защиты, места манекена.
+
-
 
+
-
===Продолжительность жизни и активность размножения самцов дрозофилы===
+
-
Для изучения влияния активности размножения самцов дрозофилы на продолжительность их жизни был организован следующий эксперимент. По 25 самцов в пяти группах содержались в одинаковых условиях, за исключением одного отличия: в первой группе к каждому самцу ежедневно подсаживалась готовая к размножению самка, во второй&nbsp;— восемь готовых к размножению самок, в третьей и четвёртой&nbsp;— соответственно, одна и восемь беременных самок, не готовых к размножению, наконец, к самцам четвёртой группы не подсаживали никого. Для каждого самца измерена продолжительность жизни, длина грудной клетки и доля времени, проводимого во сне. <!--- fly.txt --->
+
-
::Студент 15: исследовать связь между продолжительностью жизни самцов дрозофилы и наличием самок разного типа и количества.
+
-
 
+
-
===Линька metacarcinus magister===
+
-
У 472 самок metacarcinus magister измерена ширина панциря до и после линьки. Часть особей проживала в лаборатории, часть&nbsp;— в естественной среде обитания; для последних известен также год вылова.
+
-
::Студент 16: исследовать различия между изменениями размеров панциря особей, линька которых проходила в лабораторных условиях и в естественных; для последних оценить влияние года вылова.
+
-
 
+
-
=== Пассажиры Титаника ===
+
-
Приведены данные о 1309 пассажирах Титаника. Для каждого пассажира указано имя, пол, возраст, класс и цена билета, число родственников на борту, и, кроме того, удалось ли ему выжить. <!--- titanic.xls --->
+
-
::Студент 17: по каким признакам отличаются выжившие пассажиры от погибших?
+
-
 
+
-
===Эффективность раскройки джинсов===
+
-
Для пяти поставщиков фабрики Levi's в Альбукерке имеются данные по доле материала, попадающего в обрезки; из всех величин вычтена средняя доля обрезков, получающаяся при оптимизации раскройки с помощью компьютера. <!--- jeans.txt http://lib.stat.cmu.edu/DASL/Datafiles/wasterunupdat.html --->
+
-
::Студент 18: есть ли различия между поставщиками?
+
-
 
+
-
=== Прочность промышленных вентиляторов ===
+
-
Измерен разрушающий крутящий момент 64 промышленных вентиляторов; для каждого известны тип отверстия, форма барабана и метод соединения. <!--- fans.txt http://www.amstat.org/publications/jse/v10n1/datasets.franklin.html --->
+
-
::Студент 19: связан ли разрушающий крутящий момент с характеристиками вентилятора?
+
-
 
+
-
=== Размер яиц кукушки ===
+
-
Известно, что кукушки откладывают яйца в гнёзда других птиц. Даны длины 115 яиц кукушки, найденных в гнёздах птиц 6 видов. <!---cuckoo.txt http://lib.stat.cmu.edu/DASL/Datafiles/cuckoodat.html--->
+
-
::Студент 20: как размер яйца зависит от вида птицы, в чьём гнезде оно было найдено?
+
-
 
+
-
=== Рак лёгких в Китае===
+
-
Для участников исследования, проживающих в одном из восьми городов Китая, известно, курят ли они и больны ли раком лёгких. <!--- china_smoking.xls --->
+
-
::Студент 5: как связаны риск заболевания раком лёгких, курение и город проживания участников исследования?
+
-
 
+
-
=== Урожайность ячменя ===
+
-
Известна средняя за два года урожайность ячменя пяти разновидностей на каждом из пяти полей. <!--- barley.txt Bretz data("immer", package = "MASS") --->
+
-
::Студент 21: как отличается урожайность разновидностей ячменя?
+
-
 
+
-
=== Одеяла с электрообогревом ===
+
-
Одеяла с электрообогревом применяются в хирургии для восстановления температуры тела пациента после операции. Имеются четыре вида одеяла: стандартный, b0, и три экспериментальных&nbsp;— b1, b2, b3. Для 41 пациента известно время, за которое нормальная температура тела восстанавливается при использовании одеяла одного из видов. <!--- blanket.txt Bretz data("recovery", package = "multcomp") --->
+
-
::Студент 22: отличаются ли экспериментальные одеяла от стандартного?
+
-
 
+
-
=== Дома престарелых Нью-Мексико===
+
-
Для 52 лицензированных домов престарелых Нью-Мексико известны: число коек, суммарное годовое число дней в стационаре и койко-дней (в сотнях), суммарные годовые расходы на уход за пациентами, зарплату медсестёр и инфраструктуру (в сотнях долларов). <!--- nursing_homes.txt http://lib.stat.cmu.edu/DASL/Datafiles/nursinghomedat.html --->
+
-
::Студент 23: есть ли различия между сельскими и городскими домами престарелых? по каким признакам?
+
-
 
+
-
=== Выведение нейролептиков ===
+
-
44 пациента центра умственного здоровья при университете Айовы принимают участие в четырёхнедельной программе выведения из организма антишизофренических нейролептиков. До начала терапии и после каждой недели у каждого измеряется тяжесть экстрапирамидных побочных эффектов. <!--- antipsychotic_medication_washout.txt Davis. Statistical Methods for the Analysis of Repeated Measurements (2002) таблица 2.4--->
+
-
::Студент 24: как меняется тяжесть побочных эффектов в результате терапии?
+
-
 
+
-
=== Нарушения ПДД===
+
-
В исследовании влияния обучения подростков вождению на число инцидентов с нарушениями ПДД контрольная группа состоит из 2409 человек. По каждому из них данные собираются на протяжении четырёх лет. <!--- traffic_violation.txt Davis. Statistical Methods for the Analysis of Repeated Measurements (2002) 7.22--->
+
-
::Студент 25: меняется ли в контрольной группе число инцидентов с годами? Если да, то как?
+
-
 
+
-
=== Словарный запас школьников ===
+
-
Словарный запас 64 учеников школы при Чикагском университете измерялся в 8, 9, 10 и 11 классах. Известен также пол участников эксперимента. <!--- vocabulary_test.txt Davis. Statistical Methods for the Analysis of Repeated Measurements (2002) 4.7. --->
+
-
::Студент 26: отличаются ли результаты тестирования словарного запаса девочек и мальчиков? Если да, то в какие моменты?
+
-
::Студент 27: меняется ли словарный запас со временем? Проанализировать суммарно для всех испытуемых и отдельно для мальчиков и девочек.
+
-
 
+
-
=== Курение и болезнь Альцгеймера ===
+
-
Ретроспективное исследование влияния курения на болезнь Альцгеймера включает пациентов с болезнью Альцгеймера, другими формами деменции и другими диагнозами; известны статус курения и пол. <!--- alzheimer.txt Bretz data("alzheimer", package = "coin")--->
+
-
::Студент 28: как курение и пол связаны с различными формами снижения умственной деятельности?
+
-
 
+
-
=== Обучение родителей воспитанию детей ===
+
-
975 родителей участвовало в программе обучения воспитанию. Было проведено три опроса, в ходе которых родители отвечали на вопрос: "За последние несколько недель обращались ли дети к вам с проблемой или вопросом, который их беспокоил?" Первый опрос был проведён до начала обучения, второй&nbsp;— сразу после, и третий&nbsp;— по прошествии 6-8 недель после окончания обучения. Известен также уровень образования родителя. <!--- education.txt Davis 7.23--->
+
-
::Студент 29: стали ли родители больше общаться с детьми в результате обучения? Проанализировать с учётом уровня образования родителей.
+

Текущая версия


\frac{1}{\sum_i { N_{X_i}}} \left(\sum_i { N_{X_i} \mu_{X_i}}\right) +1.96  \sqrt{\frac{1}{\sum_i {N_{X_i} - 1}} \left( \sum_i { \left[(N_{X_i} - 1) \sigma_{X_i}^2 + N_{X_i} \mu_{X_i}^2\right] } - \left[\sum_i {N_{X_i}}\right]\mu_X^2 \right) }