Статистический анализ данных (курс лекций, К.В.Воронцов)/2015, ФУПМ/3

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Токсичность рыб

Полихлорированные дифенилы — органические соединения, активно использовавшиеся в промышленности до 1970 годов, когда была показана их токсичность. Накопление ПХБ в организме приводит к подавлению иммунитета, провоцирует развитие рака, поражений печени, почек, нервной системы, кожи, способствуют развитию детской патологии. Из-за накопления ПХБ в озёрах США некоторые виды рыб в некоторых областях запрещены к употреблению в пищу. Для своевременного обновления таких запретов необходимо периодически проводить мониторинг ПХБ. К сожалению, существует 209 различных разновидностей ПХБ, концентрация каждой из которых измеряется отдельным тестом. Для 69 видов рыбы известны концентрации семи соединений ПХБ (в миллионных долях), а также суммарная концентрация всех разновидностей ПХБ, их токсическая эквивалентность (TEQ) и суммарная токсическая эквивалентность образца, определяемая также вкладом диоксинов и фуранов.

Омельченко: насколько точно токсичность рыбы можно предсказывать по концентрации только нескольких ПХБ? Концентрации какого минимального количества соединений ПХБ нужно измерить, чтобы достаточно точно предсказать суммарную токсичность, или хотя бы токсичность только совокупности ПХБ?

Биоразлагаемость молекул

1055 химических молекул описаны с помощью 41 признака (число атомов кислорода, нитратных групп, донорных связей с водородом, потенциал ионизации и т.д.); 355 из них биоразложимы.

Плавин: какие свойства молекул влияют на их биоразлогаемость?

Открытие депозита

Имеются результаты обзвона 4119 клиентов португальского банка, которым предлагалось завести депозит. Известны социально-демографические характеристики клиентов, история предыдущих коммуникаций, социально-экономические показатели на момент совершения звонка.

Кучин: какие признаки определяют готовность клиента открыть депозит по результатам обзвона?

Использование велопроката в Вашингтоне

Имеются данные использования городского велопроката Вашингтона за каждый день 2011-2012 годов; известны также данные о погоде и ряд календарных признаков.

Ефимова: построить модель использования велопроката в зависимости от имеющихся признаков. Достаточно ли использовать дату с точностью до сезона, или месяц позволяет предсказывать значение признака значимо лучше? Есть ли смысл в использовании полной информации о днях недели, или достаточно разделять выходные и рабочие дни?

Преступность и демографические характеристики

Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.

Лийко: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию модели.

Вакцина против вируса папилломы человека

Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс — три укола в течение года — был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно.

Лукманов: построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.

Вкус португальского вина

Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.

Дербышев: построить модель экспертной оценки по характеристикам вина, оценить влияние содержания алкоголя на экспертную оценку.
Веринов: построить функцию, оценивающую вероятность того, что вино, для которого известны биохимические характеристики и экспертная оценка, является красным. Оценить влияние экспертной оценки на эту вероятность.

Массовая доля жира в организме

Массовая доля жира, важная характеристика здоровья, рассчитывается через плотность тела, измеряемую при помощи взвешивания в воде. Для 252 мужчин проведены такие расчёты. Имеются также данные антропометрии (возраст, рост, вес, обхват грудной клетки и т.д.)

Жуков: построить функцию, оценивающую массовую долю жира без использования данных взвешивания в воде.

Ссылки

Личные инструменты