Участник:Riabenko/tmp

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м
Строка 1: Строка 1:
-
= Задание 4. Прогнозирование =
 
-
Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику.
 
-
Необходимо сдать: подробный отчёт по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики.
+
===Уровень безработицы===<!---http://datamarket.com/data/set/1a6x/unemployment-by-sex-and-age-groups-monthly-average-1-000-persons#!ds=1a6x!qx7=3:qx8=1:qx9=1:qxa=9.10&display=line--->
-
 
+
-
Отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает балл, если:
+
-
* его собственная работа засчитана;
+
-
* либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось.
+
-
Предварительные версии отчётов принимаются до '''23:59 ''', финальные, по результатам работы с рецензентом — до '''23:59 '''.
+
-
 
+
-
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ/4|Подстраница с индивидуальными постановками задач]].
+
-
 
+
-
 
+
-
 
+
-
===Уровень безработицы===<!---unemployment-by-sex-and-age-grou.xlsx--->
+
Статистическая служба Европейского союза собирает данные по среднемесячному уровню безработицы в тысячах людей с 1983 года.
Статистическая служба Европейского союза собирает данные по среднемесячному уровню безработицы в тысячах людей с 1983 года.
::Студент 1: построить прогноз числа безработных во Франции на каждый месяц до конца 2015 года.
::Студент 1: построить прогноз числа безработных во Франции на каждый месяц до конца 2015 года.
Строка 26: Строка 13:
::Студент 4: спрогнозировать стоимость необработанного табака при импорте в США на каждый месяц до конца 2015 года.
::Студент 4: спрогнозировать стоимость необработанного табака при импорте в США на каждый месяц до конца 2015 года.
::Студент 5: спрогнозировать стоимость бананов при импорте из Центральной Америки в США на каждый месяц до конца 2015 года.
::Студент 5: спрогнозировать стоимость бананов при импорте из Центральной Америки в США на каждый месяц до конца 2015 года.
 +
::Студент 25: спрогнозировать стоимость алюминия на Лондонской бирже металлов на каждый месяц до конца 2015 года.
===Длина суток===<!---daytime.xlsx--->
===Длина суток===<!---daytime.xlsx--->
Строка 71: Строка 59:
::Студент 19: предсказать объём потребления и затраты на электроэнергию в каждом месяце 2001 года.
::Студент 19: предсказать объём потребления и затраты на электроэнергию в каждом месяце 2001 года.
::Студент 20: считая неизвестными затраты на электроэнергию в 2000 году, оценить объём потребления электроэнергии, используя исторические данные по потреблению, а также значения температуры, погодных индексов и индикаторов за 2000 год.
::Студент 20: считая неизвестными затраты на электроэнергию в 2000 году, оценить объём потребления электроэнергии, используя исторические данные по потреблению, а также значения температуры, погодных индексов и индикаторов за 2000 год.
 +
 +
===Продажи сувениров===<!---sales.dat--->
 +
Известны ежемесячные объёмы продаж сувениров в магазине на пляжном курорте в Квинсленде, Австралия. Данные приведены за семь лет, первый месяц&nbsp;— январь, пропусков нет.
 +
::Студент 21: построить предсказание объёмов продаж на следующие двенадцать месяцев
 +
 +
===Индекс реальных инвестиций в основной капитал===<!---http://sophist.hse.ru/exes/tables/IM_M.htm--->
 +
Сотрудниками ГУ-ВШЭ по данным Федеральной службы государственной статистики рассчитан индекс реальных инвестиций в основной капитал, приведённый относительно января 1994 года. Имеются данные на каждый месяц с января 1994 по февраль 2014 года.
 +
::Студент 22: построить прогноз для значения индекса на каждый месяц 2014 года и доверительный интервал для него.
 +
 +
===Производство алюминия=== <!---http://datamarket.com/en/data/set/1ho7/#!ds=1ho7!1ht5=3&display=line&title=Reported+total+alumina+production+(quarterly)--->
 +
International Aluminium Institute собирает поквартальную информацию об объёме произведённого алюминия в разных частях мира с 1974 года.
 +
::Студент 23: построить прогноз объёма производства алюминия в Южной Америке на каждый квартал 2014-2016 годов.
 +
 +
===Улов трески в Исландии===<!---http://datamarket.com/en/data/set/1hdp/#!ds=1hdp!1gl1=1:1gl2=3&display=line&title=Cod+Landings+in+Icelandic+Ports+1905-2010--->
 +
Имеются данные о годовом объёме улова трески в Исландии с 1905 по 2010 год.
 +
::Студент 24: оценить объём улова на 2011-2015 годы.
 +
 +
===Скорость интернет-соединения===<!---http://datamarket.com/en/data/set/1gyb/#!ds=1gyb!1c89=3m.4k:1c8a=2&display=line&title=Global+broadband+performance--->
 +
Компания Ookla измеряет среднюю скорость интернет-соединения в разных странах по данным проверок на speedtest.net и pingtest.net. Имеются ежемесячные данные с января 2008 по март 2014.
 +
::Студент 26: предсказать среднюю скорость скачивания в России на каждый месяц до конца 2014 года.
 +
::Студент 27: предсказать среднюю скорость скачивания в Уругвае на каждый месяц до конца 2014 года.
 +
 +
===Потребление энергии в США===
 +
US Energy Information Administration собирает данные о потреблении энергии в США из разных источников за каждый месяц с 1973 года.
 +
::Студент 28: построить прогноз суммарного объёма потребления энергии промышленностью США на каждый месяц 2014 года. <!---http://www.eia.gov/totalenergy/data/browser/xls.cfm?tbl=T02.04&freq=m--->
 +
::Студент 29: построить прогноз суммарного объёма потребления энергии из ископаемого топлива транспортной системой США на каждый месяц 2014 года. <!---http://www.eia.gov/totalenergy/data/browser/xls.cfm?tbl=T02.05&freq=m--->

Версия 05:38, 29 апреля 2014

Содержание

Уровень безработицы

Статистическая служба Европейского союза собирает данные по среднемесячному уровню безработицы в тысячах людей с 1983 года.

Студент 1: построить прогноз числа безработных во Франции на каждый месяц до конца 2015 года.
Студент 2: построить прогноз числа безработных в Швеции на каждый месяц до конца 2015 года.

Смертность в ДТП

Известно число смертей и тяжких телесных повреждений, полученных в результате ДТП в Великобритании за каждый месяц с января 1969 по декабрь 1984.

Студент 3: в феврале 1982 был принят закон об обязательном использовании ремней безопасности. Как можно оценить его эффект?

Свободные цены на товарном рынке

Конференция ООН по торговле и развитию (ЮНКТАД) собирает ежемесячные данные по свободным ценам на товарном рынке основных продуктов. Имеются данные с января 1960 года по настоящий момент.

Студент 4: спрогнозировать стоимость необработанного табака при импорте в США на каждый месяц до конца 2015 года.
Студент 5: спрогнозировать стоимость бананов при импорте из Центральной Америки в США на каждый месяц до конца 2015 года.
Студент 25: спрогнозировать стоимость алюминия на Лондонской бирже металлов на каждый месяц до конца 2015 года.

Длина суток

IERS Earth Orientation Centre располагает данными о среднегодовой длительности суток (она варьируется из-за крупных геологических событий). Для каждого года 1623 по 2005 дано отклонение от идеальной продолжительности суток в миллисекундах.

Студент 6: оценить величину для каждого года с 2006 по 2020.

Расходы на азартные игры

На каждый месяц с июля 1999 по ноябрь 2006 года имеются данные о средних дневных расходах на азартные игры суммарно по всем игорным заведениям австралийского штата Виктория, единица измерения – миллион долларов.

Студент 7:построить прогноз на каждый из следующих двенадцати месяцев.

Объём стока реки Бойсе

Имеются данные по среднемесячному объёму стока реки Бойсе в районе города Твин Спрингс за каждый месяц с января 1960 по декабрь 2008 года.

Студент 8: предсказать среднемесячный объём стока реки на каждый месяц 2014 года.

Число убийств и самоубийств в Австралии

Измерено среднегодовое число убийств и самоубийств на 100000 населения при помощи огнестрельного оружия и с использованием всех остальных средств в Австралии с 1905 по 2004 годы (имеются пропуски).

Студент 9: смоделировать среднегодовое число убийств, оценить уровни для 2005-2012 годов, построить предсказательный интервал для прогноза.
Студент 10: смоделировать долю среднегодового числа самоубийств, совершаемых при помощи огнестрельного оружия, вреди всех самоубийств. В 1996-1997 годах в Австралии было изменено законодательство в отношении разрешения на хранение и использование огнестрельного оружия, в ходе которой было изъято 600000 единиц оружия (при численности населения в 20000000 человек). Какой эффект это оказало на исследуемый признак?

Число автомобилей, производимых в Великобритании

С первого квартала 1977 по первый квартал 2005 года имеются данные о количестве автомобилей, произведённых в Великобритании, в тысячах штук.

Студент 11: построить прогноз на каждый квартал 2013-2014 года, оценить точность прогноза.

Средняя номинальная заработная плата в России

На каждый месяц с января 1993 года рассчитан уровень средней номинальной заработной платы в рублях. Среднемесячная номинальная заработная плата исчисляется исходя из фонда заработной платы работников, деленного на среднесписочную численность работников. В фонд заработной платы включаются начисленные суммы в денежной и натуральной формах за отработанное время и выполненную работу, неотработанное, но оплаченное время (например, ежегодные отпуска), стимулирующие доплаты и надбавки, премии и единовременные поощрения, компенсационные выплаты, связанные с режимом работы и условиями труда.

Студент 12: построить прогноз для уровня средней номинальной заработной платы на каждый месяц до конца 2015 года

Смертность от сердечно-сосудистых заболеваний

Имеются данные по средней дневной смертности от сердечно-сосудистых заболеваний в округе Лос-Анджелес в 1970-1979 годах. Собраны данные по пятисот восьми (идущим подряд) неделям, за каждую из этих недель известна также средняя температура воздуха и мера его загрязнённости.

Студент 13: предсказать смертность на следующие 100 недель.
Студент 14: считая для последних 50 недель показатель смертности неизвестным, построить его оценку с учётом температуры и загрязнённости воздуха.

Солнечная активность

В центре исследования солнечной активности Цюрихской обсерватории собраны данные о среднем числе солнечных пятен за каждый месяц с января 1749 года.

Студент 15: предсказать среднее число солнечных пятен на каждый месяц до конца 2020 года.

Посещаемость сервисов Яндекса

Яндекс измеряет месячную аудиторию сервисов, по наиболее старым из них есть статистика за последние 5-6 лет.

Студент 16: предсказать месячную аудиторию сервиса "Яндекс.Словари" на каждый месяц до конца 2015 года.
Студент 17: предсказать месячную аудиторию сервиса "Яндекс.Маркет" на каждый месяц до конца 2015 года.
Студент 18: предсказать месячную аудиторию сервиса "Яндекс.Открытки" на каждый месяц до конца 2015 года.

Счета за электроэнергию

Имеются помесячные данные о тратах на электроэнергию одного фиксированного домохозяйства на среднем западе США. За каждый месяц 1991-2000 годов приведены затраты на электроэнергию в долларах. Для объяснения колебаний размера счёта приведены следующие переменные: среднемесячная температура по данным последних тридцати лет, погодные индексы CDD и HDD (CDD - Cooling Degree Day - количество градусов, на которые средняя дневная температура больше 65°F, взятое суммой за все дни месяца; HDD - Heating Degree Day - аналогично, суммарное количество градусов, на которое средняя дневная температура меньше 65°F), число проживающих в доме членов семьи, индикатор установки нового счётчика, индикаторы установки двух новых тепловых насосов, объём потребления электроэнергии в киловатт-часах.

Студент 19: предсказать объём потребления и затраты на электроэнергию в каждом месяце 2001 года.
Студент 20: считая неизвестными затраты на электроэнергию в 2000 году, оценить объём потребления электроэнергии, используя исторические данные по потреблению, а также значения температуры, погодных индексов и индикаторов за 2000 год.

Продажи сувениров

Известны ежемесячные объёмы продаж сувениров в магазине на пляжном курорте в Квинсленде, Австралия. Данные приведены за семь лет, первый месяц — январь, пропусков нет.

Студент 21: построить предсказание объёмов продаж на следующие двенадцать месяцев

Индекс реальных инвестиций в основной капитал

Сотрудниками ГУ-ВШЭ по данным Федеральной службы государственной статистики рассчитан индекс реальных инвестиций в основной капитал, приведённый относительно января 1994 года. Имеются данные на каждый месяц с января 1994 по февраль 2014 года.

Студент 22: построить прогноз для значения индекса на каждый месяц 2014 года и доверительный интервал для него.

Производство алюминия

International Aluminium Institute собирает поквартальную информацию об объёме произведённого алюминия в разных частях мира с 1974 года.

Студент 23: построить прогноз объёма производства алюминия в Южной Америке на каждый квартал 2014-2016 годов.

Улов трески в Исландии

Имеются данные о годовом объёме улова трески в Исландии с 1905 по 2010 год.

Студент 24: оценить объём улова на 2011-2015 годы.

Скорость интернет-соединения

Компания Ookla измеряет среднюю скорость интернет-соединения в разных странах по данным проверок на speedtest.net и pingtest.net. Имеются ежемесячные данные с января 2008 по март 2014.

Студент 26: предсказать среднюю скорость скачивания в России на каждый месяц до конца 2014 года.
Студент 27: предсказать среднюю скорость скачивания в Уругвае на каждый месяц до конца 2014 года.

Потребление энергии в США

US Energy Information Administration собирает данные о потреблении энергии в США из разных источников за каждый месяц с 1973 года.

Студент 28: построить прогноз суммарного объёма потребления энергии промышленностью США на каждый месяц 2014 года.
Студент 29: построить прогноз суммарного объёма потребления энергии из ископаемого топлива транспортной системой США на каждый месяц 2014 года.