Участник:Riabenko/tmp

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Задание 3. Регрессионные задачи)
м
Строка 1: Строка 1:
-
= Задание 3. Регрессионные задачи =
 
-
Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику.
 
-
 
-
Необходимо сдать: подробный отчёт по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики.
 
-
 
-
Отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает балл, если:
 
-
* его собственная работа засчитана;
 
-
* либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось.
 
-
Предварительные версии отчётов принимаются до '''23:59 20.04''', финальные, по результатам работы с рецензентом — до '''23:59 28.04'''.
 
-
 
-
 
-
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ/3|Подстраница с индивидуальными постановками задач]].
 
-
 
===Надёжность шарикоподшипников===<!---bearing.xlsx--->
===Надёжность шарикоподшипников===<!---bearing.xlsx--->
Мерой надёжности шарикоподшипников служит величина <tex>L_{10}</tex>&nbsp;— максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина <tex>L_{10}</tex>.
Мерой надёжности шарикоподшипников служит величина <tex>L_{10}</tex>&nbsp;— максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина <tex>L_{10}</tex>.
-
::Студент 14: построить функцию, оценивающую <tex>L_{10}</tex> по имеющимся признакам, рассчитать точность оценки.
+
::Яшков: построить функцию, оценивающую <tex>L_{10}</tex> по имеющимся признакам, рассчитать точность оценки.
-
===Эффективность тромболитической терапии===<!---kardio.xls--->
+
===Эффективность тромболитической терапии===<!---cardio.xls--->
Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)
Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)
-
::Студент 20: построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
+
::Воронов: построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
-
::Студент 21: построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.
+
::Мангатаев: построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.
===Лесные пожары в парке Монтезинью===<!---forest_fires.csv--->
===Лесные пожары в парке Монтезинью===<!---forest_fires.csv--->
[[Изображение:Park.png‎|200px|thumb|Парк Монтезинью, разбиение на зоны.]]
[[Изображение:Park.png‎|200px|thumb|Парк Монтезинью, разбиение на зоны.]]
Данные собраны в 2001-2003 годах в португальском природном парке Монтезинью. Известны: месяц и день недели, температура воздуха, относительная влажность, скорость ветра, число выпавших осадков, значения четырёх метеорологических индексов, координаты зоны, в которой были произведены эти измерения (см. рис.), а также площадь леса, уничтоженного произошедшим в этот день пожаром (если он был).
Данные собраны в 2001-2003 годах в португальском природном парке Монтезинью. Известны: месяц и день недели, температура воздуха, относительная влажность, скорость ветра, число выпавших осадков, значения четырёх метеорологических индексов, координаты зоны, в которой были произведены эти измерения (см. рис.), а также площадь леса, уничтоженного произошедшим в этот день пожаром (если он был).
-
::Студент 30: построить модель, позволяющую оценить по рассматриваемым признакам вероятность пожара и доверительный интервал для неё.
+
::Катруца: построить модель, позволяющую оценить по рассматриваемым признакам вероятность пожара и доверительный интервал для неё.
===Солнечная активность===<!---solar flares.xls--->
===Солнечная активность===<!---solar flares.xls--->
Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.
Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.
-
::Студент 27: построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа и доверительный интервал для неё.
+
::Гончаров: построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа и доверительный интервал для неё.
-
::Студент 28: построить модель, по свойствам участка предсказывающую суммарное число вспышек любого типа в последующие 24 часа, дать интерпретацию коэффициентов.
+
::Пушняков: построить модель, по свойствам участка предсказывающую суммарное число вспышек любого типа в последующие 24 часа, дать интерпретацию коэффициентов.
===Преступность и демографические характеристики===<!---crimes.xlsx--->
===Преступность и демографические характеристики===<!---crimes.xlsx--->
Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.
Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.
-
::Студент 8: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
+
::Трофимов: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
-
::Студент 9: построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.
+
::Хрипко: построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.
-
::Студент 19: построить функцию, оценивающую число ненасильственных преступлений на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
+
::Каледин: построить функцию, оценивающую число ненасильственных преступлений на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
===Линька крабов===<!---crabs.csv--->
===Линька крабов===<!---crabs.csv--->
У 472 самок metacarcinus magister измерена ширина панциря до и после линьки. Часть особей проживала в лаборатории, часть&nbsp;— в естественной среде обитания; для последних известен также год вылова.
У 472 самок metacarcinus magister измерена ширина панциря до и после линьки. Часть особей проживала в лаборатории, часть&nbsp;— в естественной среде обитания; для последних известен также год вылова.
-
::Студент 15: построить модель изменения размеров панциря с учётом всех факторов.
+
::Шепелев: построить модель изменения размеров панциря с учётом всех факторов.
===Влияние глифосата на рост плевел===<!---plevel.txt--->
===Влияние глифосата на рост плевел===<!---plevel.txt--->
[[Изображение:Illustration Lolium temulentum0.jpg|120px|thumb|Плевел (Lolium temulentum).]]
[[Изображение:Illustration Lolium temulentum0.jpg|120px|thumb|Плевел (Lolium temulentum).]]
Сравниваются два вида плевел, дикая разновидность и мутантная, выработавшая устойчивость к глифосату. Оба вида в равных пропорциях засеиваются в теплицу, проводится обработка глифосатом, по окончании эксперимента измеряются плотности зарастания (количество растений на единицу площади) дикой <tex>x</tex> и мутантной <tex>z</tex> разновидностей. Целевой признак <tex>y</tex> - средняя биомасса дикой разновидности (в граммах на одно растение). Для него предложена следующая модель:<br> <tex>y=\frac{a}{1+b\left(x+cz\right)}</tex>,<br> где коэффициент <tex>a</tex> имеет смысл гипотетической средней биомассы при нулевой плотности зарастания, <tex>b</tex> – коэффициент внутривидовой конкуренции для дикой разновидности, <tex>c</tex> – коэффициент взаимозаменяемости видов (если он равен единице, то виды взаимозаменяемы.
Сравниваются два вида плевел, дикая разновидность и мутантная, выработавшая устойчивость к глифосату. Оба вида в равных пропорциях засеиваются в теплицу, проводится обработка глифосатом, по окончании эксперимента измеряются плотности зарастания (количество растений на единицу площади) дикой <tex>x</tex> и мутантной <tex>z</tex> разновидностей. Целевой признак <tex>y</tex> - средняя биомасса дикой разновидности (в граммах на одно растение). Для него предложена следующая модель:<br> <tex>y=\frac{a}{1+b\left(x+cz\right)}</tex>,<br> где коэффициент <tex>a</tex> имеет смысл гипотетической средней биомассы при нулевой плотности зарастания, <tex>b</tex> – коэффициент внутривидовой конкуренции для дикой разновидности, <tex>c</tex> – коэффициент взаимозаменяемости видов (если он равен единице, то виды взаимозаменяемы.
-
::Студент 1: найти значения коэффициентов <tex>a, b, c,</tex> построить для них доверительные области, оценить качество построенной модели. Можно ли сказать, что виды взаимозаменяемы?
+
::Гринчук: найти значения коэффициентов <tex>a, b, c,</tex> построить для них доверительные области, оценить качество построенной модели. Можно ли сказать, что виды взаимозаменяемы?
===Пожертвования на благотворительность===<!---charity.xlsx--->
===Пожертвования на благотворительность===<!---charity.xlsx--->
Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.
Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.
-
::Студент 2: построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.
+
::Соколова: построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.
-
::Студент 3: построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.
+
::Капаев: построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.
===Вкус португальского вина===<!---wine.xlsx--->
===Вкус португальского вина===<!---wine.xlsx--->
Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.
Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.
-
::Студент 4: построить модель экспертной оценки по биохимическим характеристикам, оценить влияние содержания алкоголя на экспертную оценку.
+
::Харченко: построить модель экспертной оценки по биохимическим характеристикам, оценить влияние содержания алкоголя на экспертную оценку.
-
::Студент 5: построить функцию, оценивающую вероятность того, что вино, для которого известны биохимические характеристики и экспертная оценка, является красным, и доверительный интервал для неё. Оценить влияние экспертной оценки на эту вероятность.
+
::Довгаль: построить функцию, оценивающую вероятность того, что вино, для которого известны биохимические характеристики и экспертная оценка, является красным, и доверительный интервал для неё. Оценить влияние экспертной оценки на эту вероятность.
===Состав бетона===<!---concrete.xlsx--->
===Состав бетона===<!---concrete.xlsx--->
Для 103 образцов раствора бетона известно содержание в кубическом метре семи основных компонент, для каждого образца измерены также осадка, растекание и прочность на сжатие.
Для 103 образцов раствора бетона известно содержание в кубическом метре семи основных компонент, для каждого образца измерены также осадка, растекание и прочность на сжатие.
-
::Студент 6: построить функцию, оценивающую растекание бетона по его составу.
+
::Коновалов: построить функцию, оценивающую растекание бетона по его составу.
-
::Студент 7: построить функцию, оценивающую прочность бетона на сжатие по всем имеющимся характеристикам, оценить вклад растекания и осадки.
+
::Папанов: построить функцию, оценивающую прочность бетона на сжатие по всем имеющимся характеристикам, оценить вклад растекания и осадки.
===Внешний вид и привлекательность самок мечехвостов===<!---horseshoe crab.txt--->
===Внешний вид и привлекательность самок мечехвостов===<!---horseshoe crab.txt--->
Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
-
::Студент 10: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.
+
::Вялый: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.
-
::Студент 22: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.
+
::Костин: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.
===Данные антропометрии===<!---body.xlsx--->
===Данные антропометрии===<!---body.xlsx--->
[[Изображение:Antropometry.jpg|120px|thumb|Некоторые из измеренных характеристик скелета.]]
[[Изображение:Antropometry.jpg|120px|thumb|Некоторые из измеренных характеристик скелета.]]
Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей&nbsp;– легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.
Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей&nbsp;– легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.
-
::Студент 11: построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
+
::Петров: построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
-
::Студент 12: построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
+
::Вдовина: построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
-
::Студент 13: построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый&nbsp;— женщина, и доверительный интервал для этой вероятности.
+
::Поляков: построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый&nbsp;— женщина, и доверительный интервал для этой вероятности.
===Электрическая прочность диэлектрика===<!---dielectric.txt--->
===Электрическая прочность диэлектрика===<!---dielectric.txt--->
Была измерена электрическая прочность изоляции проводов на разных сроках их эксплуатации и при различной температуре. Известно, что зависимость электрической прочности диэлектрика от времени и температуры имеет вид <tex>\log(y)=\beta_1-\beta_2\cdot time \cdot e^{-\beta_3\cdot temperature}+\epsilon</tex>.
Была измерена электрическая прочность изоляции проводов на разных сроках их эксплуатации и при различной температуре. Известно, что зависимость электрической прочности диэлектрика от времени и температуры имеет вид <tex>\log(y)=\beta_1-\beta_2\cdot time \cdot e^{-\beta_3\cdot temperature}+\epsilon</tex>.
-
::Студент 16: найти значения констант <tex>\beta_1, \beta_2, \beta_3,</tex> построить для них доверительные области, оценить качество построенной модели.
+
::Перекрестенко: найти значения констант <tex>\beta_1, \beta_2, \beta_3,</tex> построить для них доверительные области, оценить качество построенной модели.
===Диагностика заболеваний позвоночника===<!---spine.csv--->
===Диагностика заболеваний позвоночника===<!---spine.csv--->
Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.
Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.
-
::Студент 17: построить функцию, предсказывающую вероятность наличия заболевания позвоночника, и доверительный интервал для неё.
+
::Рыскина: построить функцию, предсказывающую вероятность наличия заболевания позвоночника, и доверительный интервал для неё.
-
::Студент 18: построить функцию, предсказывающую вероятность наличия каждого из рассматриваемых заболеваний позвоночника, и доверительные интервалы для них.
+
::Кузнецов: построить функцию, предсказывающую вероятность наличия каждого из рассматриваемых заболеваний позвоночника, и доверительные интервалы для них.
===Ценообразование бриллиантов=== <!---diamonds.txt--->
===Ценообразование бриллиантов=== <!---diamonds.txt--->
Имеются данные о цене и потребительских качествах 308 бриллиантов, продававшихся в Сингапуре в 2000 году. Известны: вес бриллианта в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет&nbsp;— буквой D, менее чистые&nbsp;— буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect"), название организации, выдавшей сертификат по группе чистоты (GIA&nbsp;— Gemmological Institute of America, IGI&nbsp;— International Gemmological Institute, HRD&nbsp;— Hoge Raad Voor Diamant), стоимость бриллианта в сингапурских долларах.
Имеются данные о цене и потребительских качествах 308 бриллиантов, продававшихся в Сингапуре в 2000 году. Известны: вес бриллианта в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет&nbsp;— буквой D, менее чистые&nbsp;— буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect"), название организации, выдавшей сертификат по группе чистоты (GIA&nbsp;— Gemmological Institute of America, IGI&nbsp;— International Gemmological Institute, HRD&nbsp;— Hoge Raad Voor Diamant), стоимость бриллианта в сингапурских долларах.
-
::Студент 23:построить модель ценообразования бриллиантов, учитывая все особенности имеющихся данных
+
::Кащеева: построить модель ценообразования бриллиантов, учитывая все особенности имеющихся данных
-
::Студент 24:существует общепринятая система классификации бриллиантов на мелкие&nbsp;— до 0.29 карата, средние&nbsp;— от 0.30 до 0.99 карата и крупные&nbsp;— свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?
+
::Бескровный: существует общепринятая система классификации бриллиантов на мелкие&nbsp;— до 0.29 карата, средние&nbsp;— от 0.30 до 0.99 карата и крупные&nbsp;— свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?
===Клетки опухолей груди===<!---breast cancer.xls--->
===Клетки опухолей груди===<!---breast cancer.xls--->
[[Изображение:92_6682.gif‎|200px|thumb|Результат иммуногистохимического исследования пунктата злокачественной опухоли.]]
[[Изображение:92_6682.gif‎|200px|thumb|Результат иммуногистохимического исследования пунктата злокачественной опухоли.]]
357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.
357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.
-
::Студент 25: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.
+
::Балицкий: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.
===Стоимость подержанных автомобилей=== <!---cars.xls--->
===Стоимость подержанных автомобилей=== <!---cars.xls--->
Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений.
Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений.
-
::Студент 26: построить модель стоимости автомобиля по данному набору признаков.
+
::Старожилец: построить модель стоимости автомобиля по данному набору признаков.
===Вакцина против вируса папилломы человека===<!---gardasil.xls--->
===Вакцина против вируса папилломы человека===<!---gardasil.xls--->
Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс&nbsp;— три укола в течение года&nbsp;— был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно.
Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс&nbsp;— три укола в течение года&nbsp;— был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно.
-
::Студент 29: построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.
+
::Неклюдов: построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.

Версия 07:27, 12 апреля 2014

Содержание

Надёжность шарикоподшипников

Мерой надёжности шарикоподшипников служит величина L_{10} — максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина L_{10}.

Яшков: построить функцию, оценивающую L_{10} по имеющимся признакам, рассчитать точность оценки.

Эффективность тромболитической терапии

Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)

Воронов: построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
Мангатаев: построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.

Лесные пожары в парке Монтезинью

Парк Монтезинью, разбиение на зоны.
Парк Монтезинью, разбиение на зоны.

Данные собраны в 2001-2003 годах в португальском природном парке Монтезинью. Известны: месяц и день недели, температура воздуха, относительная влажность, скорость ветра, число выпавших осадков, значения четырёх метеорологических индексов, координаты зоны, в которой были произведены эти измерения (см. рис.), а также площадь леса, уничтоженного произошедшим в этот день пожаром (если он был).

Катруца: построить модель, позволяющую оценить по рассматриваемым признакам вероятность пожара и доверительный интервал для неё.

Солнечная активность

Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.

Гончаров: построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа и доверительный интервал для неё.
Пушняков: построить модель, по свойствам участка предсказывающую суммарное число вспышек любого типа в последующие 24 часа, дать интерпретацию коэффициентов.

Преступность и демографические характеристики

Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.

Трофимов: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
Хрипко: построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.
Каледин: построить функцию, оценивающую число ненасильственных преступлений на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.

Линька крабов

У 472 самок metacarcinus magister измерена ширина панциря до и после линьки. Часть особей проживала в лаборатории, часть — в естественной среде обитания; для последних известен также год вылова.

Шепелев: построить модель изменения размеров панциря с учётом всех факторов.

Влияние глифосата на рост плевел

Плевел (Lolium temulentum).
Плевел (Lolium temulentum).

Сравниваются два вида плевел, дикая разновидность и мутантная, выработавшая устойчивость к глифосату. Оба вида в равных пропорциях засеиваются в теплицу, проводится обработка глифосатом, по окончании эксперимента измеряются плотности зарастания (количество растений на единицу площади) дикой x и мутантной z разновидностей. Целевой признак y - средняя биомасса дикой разновидности (в граммах на одно растение). Для него предложена следующая модель:
y=\frac{a}{1+b\left(x+cz\right)},
где коэффициент a имеет смысл гипотетической средней биомассы при нулевой плотности зарастания, b – коэффициент внутривидовой конкуренции для дикой разновидности, c – коэффициент взаимозаменяемости видов (если он равен единице, то виды взаимозаменяемы.

Гринчук: найти значения коэффициентов a, b, c, построить для них доверительные области, оценить качество построенной модели. Можно ли сказать, что виды взаимозаменяемы?

Пожертвования на благотворительность

Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.

Соколова: построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.
Капаев: построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.

Вкус португальского вина

Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.

Харченко: построить модель экспертной оценки по биохимическим характеристикам, оценить влияние содержания алкоголя на экспертную оценку.
Довгаль: построить функцию, оценивающую вероятность того, что вино, для которого известны биохимические характеристики и экспертная оценка, является красным, и доверительный интервал для неё. Оценить влияние экспертной оценки на эту вероятность.

Состав бетона

Для 103 образцов раствора бетона известно содержание в кубическом метре семи основных компонент, для каждого образца измерены также осадка, растекание и прочность на сжатие.

Коновалов: построить функцию, оценивающую растекание бетона по его составу.
Папанов: построить функцию, оценивающую прочность бетона на сжатие по всем имеющимся характеристикам, оценить вклад растекания и осадки.

Внешний вид и привлекательность самок мечехвостов

Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.

Вялый: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.
Костин: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.

Данные антропометрии

Некоторые из измеренных характеристик скелета.
Некоторые из измеренных характеристик скелета.

Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей – легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.

Петров: построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
Вдовина: построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
Поляков: построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый — женщина, и доверительный интервал для этой вероятности.

Электрическая прочность диэлектрика

Была измерена электрическая прочность изоляции проводов на разных сроках их эксплуатации и при различной температуре. Известно, что зависимость электрической прочности диэлектрика от времени и температуры имеет вид \log(y)=\beta_1-\beta_2\cdot time \cdot e^{-\beta_3\cdot temperature}+\epsilon.

Перекрестенко: найти значения констант \beta_1, \beta_2, \beta_3, построить для них доверительные области, оценить качество построенной модели.

Диагностика заболеваний позвоночника

Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.

Рыскина: построить функцию, предсказывающую вероятность наличия заболевания позвоночника, и доверительный интервал для неё.
Кузнецов: построить функцию, предсказывающую вероятность наличия каждого из рассматриваемых заболеваний позвоночника, и доверительные интервалы для них.

Ценообразование бриллиантов

Имеются данные о цене и потребительских качествах 308 бриллиантов, продававшихся в Сингапуре в 2000 году. Известны: вес бриллианта в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет — буквой D, менее чистые — буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect"), название организации, выдавшей сертификат по группе чистоты (GIA — Gemmological Institute of America, IGI — International Gemmological Institute, HRD — Hoge Raad Voor Diamant), стоимость бриллианта в сингапурских долларах.

Кащеева: построить модель ценообразования бриллиантов, учитывая все особенности имеющихся данных
Бескровный: существует общепринятая система классификации бриллиантов на мелкие — до 0.29 карата, средние — от 0.30 до 0.99 карата и крупные — свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?

Клетки опухолей груди

Результат иммуногистохимического исследования пунктата злокачественной опухоли.
Результат иммуногистохимического исследования пунктата злокачественной опухоли.

357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.

Балицкий: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.

Стоимость подержанных автомобилей

Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений.

Старожилец: построить модель стоимости автомобиля по данному набору признаков.

Вакцина против вируса папилломы человека

Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс — три укола в течение года — был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно.

Неклюдов: построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.