Статистический анализ данных (курс лекций, К.В.Воронцов)/2015, ФУПМ

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м (Оценки)
 
(113 промежуточных версий не показаны.)
Строка 1: Строка 1:
= Оценки =
= Оценки =
{|class = "wide sortable"
{|class = "wide sortable"
-
! | Студент || Группа || №1 (1) || №2 (1.2) || №3 (2.8) || Рецензирование №3 (0.5) || №4 (2.8) || Рецензирование №4 (0.5) || Дополнительно (7) || Сумма за семестр (10) || Оценка
+
! | Студент || Группа || №1 (1) || №2 (1.2) || №3 (2.8) || Рецензирование №3 (0.5) || №4 (2.8) || Рецензирование №4 (0.5) || Дополнительно (9) || Сумма за семестр (10) || Оценка
|-
|-
-
| Аверьянов Ярослав || 178 || 0.9 || || || || || || || 0.9 ||
+
| Аверьянов Ярослав || 178 || 0.9 || 0.2 || || || || || || 1.1 ||
|-
|-
-
| Ахтямов Азат || 173 || || || || || || || || ||
+
| Бондарчук Ярослав || 175 || 1 || 1.1 || 1.2 || (Карасиков) || 1.2 || 0.5 (Дербышев) || 5 || 10 || 10
|-
|-
-
| Бондарчук Ярослав || 175 || 1 || || || || || || 2 || 3 ||
+
| Веринов Александр || 176 || 0.9 || 1.2 || 2.8 || 0.5 (Жуков) || 1.6 || 0 (Бондарчук) || 3 || 10 || 10
|-
|-
-
| Васильев Артём || 175 || || || || || || || || ||
+
| Виденеева Анастасия || 177 || 1 || 0.7 || 2.0 || || || || 5 || 8.7 || 9
|-
|-
-
| Веринов Александр || 176 || 0.9 || || || || || || 3 || 3.9 ||
+
| Газизуллина Римма || 174 || 1 || 1.2 || 2.8 || || || || 5 || 10 || 10
|-
|-
-
| Виденеева Анастасия || 177 || 1 || || || || || || 1 || 2 ||
+
| Гринчук Алексей || 174 || 1 || 1.1 || 1.9 || 0 (Игнатов) || 2.8 || || 3 || 9.8 || 10
|-
|-
-
| Газизуллина Римма || 174 || 1 || 1.2 || || || || || 1 || 3.2 ||
+
| Дербышев Дмитрий || 176 || 1 || 1.2 || 2.8 || 0 (Попова) || 2.8 || 0 (Черепанов) || 3 || 10.8 || 10
|-
|-
-
| Гринчук Алексей || 174 || 1 || || || || || || 2 || 3 ||
+
| Ефимова Ирина || 174 || 1 || 1.2 || 2.5 || || || || 5 || 9.7 || 10
|-
|-
-
| Дербышев Дмитрий || 176 || 1 || 1.2 || || || || || 1 || 3.2 ||
+
| Жуков Андрей || 174 || 0.9 || 1.2 || 2.8 || 0 (Липатова) || || || 3 || 7.9 || 8
|-
|-
-
| Ефимова Ирина || 174 || 1 || 1.2 || || || || || 2 || 4.2 ||
+
| Игнатов Андрей || 174 || 0.9 || 1.1 || 2.8 || 0.5 (Веринов) || || || 5 || 10.3 || 10
|-
|-
-
| Жуков Андрей || 174 || 0.9 || || || || || || 1 || 1.9 ||
+
| Иноземцев Игорь || 177 || 1 || 1.2 || || || 1.9 || 0 (Макарова) || 1 || 5.1 || 5
|-
|-
-
| Занегин Александр || 175 || || || || || || || || ||
+
| Карасиков Михаил || 174 || 1 || 1.2 || 2.5 || 0 (Плавин) || 2.8 || || 5 || 12.5 || 10
|-
|-
-
| Игнатов Андрей || 174 || 0.9 || 1.1 || || || || || || 2 ||
+
| Кулунчаков Андрей || 174 || 1 || 1.2 || 2.6 || 0.5 (Кучин) || || || 5 || 10.3 || 10
|-
|-
-
| Иноземцев Игорь || 177 || 1 || 1.2 || || || || || || 2.2 ||
+
| Кучин Александр || 177 || 1 || || 2.8 || 0 (Бондарчук) || || || 5 || 8.8 || 9
|-
|-
-
| Карасиков Михаил || 174 || 1 || 1.2 || || || || || || 2.2 ||
+
| Лийко Виктория || 176 || 1|| 1.2 || 1.9 || || || || 5 || 9.1|| 9
|-
|-
-
| Костюк Анна || 174 || || || || || || || || ||
+
| Липатова Анна || 174 || 1 || || 1.6 || 0 (Кулунчаков) || || || 6 || 8.6 || 9
|-
|-
-
| Кулунчаков Андрей || 174 || 1 || || || || || || || 1 ||
+
| Лукманов Вадим || 154 || 0.7 || 1.2 || || || || || || 1.9 ||
|-
|-
-
| Кучин Александр || 177 || 1 || || || || || || 3 || 4 ||
+
| Макарова Анастасия || 174 || 0.8 || 0.2 || 2.1 || 0 (Пономарёв) || 1.4 || 0 (Веринов) || 3 || 7.5 || 8
|-
|-
-
| Лийко Виктория || 176 || 1|| 1.2 || || || || || 1 || 3.2||
+
| Омельченко Сергей || 176 || 0.9 || 1.2 || 2.4 || 0 (Черепанов) || 2.8 || || 3 || 10.3 || 10
|-
|-
-
| Липатова Анна || 174 || 1 || || || || || ||4 || 5 ||
+
| Плавин Александр || 174 || 1 || 1.2 || 2.6 || 0 (Чжен) || || || 3 || 7.8 || 8
|-
|-
-
| Лукманов Вадим || 154 || 0.7 || 1.2 || || || || || || 1.9 ||
+
| Пономарёв Олег || 176 || 0.8 || 0.7 || || 0 (Макарова) || || || 2 || 3.5 ||
|-
|-
-
| Макарова Анастасия || 174 || 0.8 || || || || || || 1 || 1.8 ||
+
| Попова Мария || 174 || 1 || 1.1 || 2.6 || 0 (Гринчук) || || || 5 || 9.7 || 10
|-
|-
-
| Омельченко Сергей || 176 || 0.9 || || || || || || 3 || 3.9 ||
+
| Ракутин Юрий || 175 || ||0.4|| || || 1.3|| || 4 ||5.7|| 6
|-
|-
-
| Плавин Александр || 174 || 1 || 1.2 || || || || || || 2.2 ||
+
| Родина София || 176 || 1 || || || || || || || 1 ||
|-
|-
-
| Пономарёв Олег || 176 || 0.8 || || || || || || 2 || 2.8 ||
+
| Рубцовенко Сергей || 176 || 1 ||1.1 || 2.8 || || || || 5 || 9.9 || 10
|-
|-
-
| Попова Мария || 174 || 1 || || || || || || || 1 ||
+
| Усманова Ильнура || 173 || || 1.1 || 1.5 || || || || 6 || 8.6 || 9
|-
|-
-
| Ракутин Юрий || 175 || || || || || || || || ||
+
| Фатыхов Булат || 177 || 0.4 || 1.2 || 0 || || || || 1 || 2.6 || 3
|-
|-
-
| Родина София || 176 || 1 || || || || || || || 1 ||
+
| Циглер Александр || 177 || || 1.1 || || || 1.7 || || 4 || 6.8 || 7
|-
|-
-
| Рубцовенко Сергей || 176 || 1 || || || || || || 1 || 2 ||
+
| Черепанов Ярослав || 175 || 0.8 || || 2.3|| 0.5 (Дербышев) || 2.6 || 0 (Чжен) || 5 || 11.2 || 10
|-
|-
-
| Сущинская Светлана || 178 || || || || || || || || ||
+
| Чжен Евгений || 177 || 1 || 0.7 || 2 || 0.5 (Швец) || 2.7 || 0 (Иноземцев) || 3 || 9.9 || 10
|-
|-
-
| Усманова Ильнура || 173 || || || || || || || 4 || 4 ||
+
| Швец Михаил || 174 || 1|| 1.1|| 2.8 || 0 (Омельченко) || || || 5 || 9.9 || 10
|-
|-
-
| Фатыхов Булат || 177 || 0.4 || || || || || || || 0.4 ||
+
| Шинкевич Михаил || 174 || 0.9 || 1.2 || 2.8 || || || || 5 || 9.9 ||10
|-
|-
-
| Циглер Александр || 177 || || || || || || || 4 || 4 ||
+
| Яковлева Екатерина || 177 || 0.4 || 0.4 || 1.3 || || 2.7 || || 5 || 9.8 || 10
|-
|-
-
| Черепанов Ярослав || 175 || 0.8 || || || || || || || 0.8 ||
+
<!---
|-
|-
-
| Чжен Евгений || 177 || 1 || || || || || || || 1 ||
+
| Ахтямов Азат || 173 || || || || || || || || ||
|-
|-
-
| Швец Михаил || 174 || 1|| || || || || || 2 || 3 ||
+
| Васильев Артём || 175 || || || || || || || || ||
|-
|-
-
| Шинкевич Михаил || 174 || 0.9 || 1.2 || || || || || 1 || 3.1 ||
+
| Сущинская Светлана || 178 || || || || || || || || ||
|-
|-
-
| Яковлева Екатерина || 177 || 0.4 || || || || || || || 0.4 ||
+
| Костюк Анна || 174 || || || || || || || || ||
|-
|-
 +
| Занегин Александр || 175 || || || || || || || || ||
 +
--->
|}
|}
* Задание считается сданным на момент получения письма с отчётом при условии отсутствия необходимости внесения дополнений и исправлений.
* Задание считается сданным на момент получения письма с отчётом при условии отсутствия необходимости внесения дополнений и исправлений.
Строка 115: Строка 117:
Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с подробным отчётом по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики.
Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с подробным отчётом по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики.
-
<!---
+
 
По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает балл, если:
По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает балл, если:
* его собственная работа засчитана;
* его собственная работа засчитана;
* либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось.
* либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось.
-
--->
+
 
== Задание 2. Проверка гипотез==
== Задание 2. Проверка гипотез==
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015, ФУПМ/2|Постановки задач]].
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015, ФУПМ/2|Постановки задач]].
Задание принимается до '''23:59 4.04'''.
Задание принимается до '''23:59 4.04'''.
-
<!---
+
 
== Задание 3. Регрессия ==
== Задание 3. Регрессия ==
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015, ФУПМ/3|Постановки задач]].
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015, ФУПМ/3|Постановки задач]].
-
Предварительные версии отчётов принимаются до '''23:59 ''', финальные, по результатам работы с рецензентом — до '''23:59 '''.
+
Предварительные версии отчётов принимаются до '''23:59 16.04''', финальные, по результатам работы с рецензентом — до '''23:59 26.04'''.
== Задание 4. Прогнозирование ==
== Задание 4. Прогнозирование ==
Строка 134: Строка 136:
* Time Series Data Library на https://datamarket.com/data/list/?q=provider:tsdl;
* Time Series Data Library на https://datamarket.com/data/list/?q=provider:tsdl;
* http://www.comp-engine.org/timeseries/browse-data-by-category из категории real-world.
* http://www.comp-engine.org/timeseries/browse-data-by-category из категории real-world.
 +
* http://sophist.hse.ru/hse/nindex.shtml
Рекомендуется выбирать ряд от нескольких сотен до нескольких тысяч отсчётов с целым периодом сезонности не больше 20 отсчётов.
Рекомендуется выбирать ряд от нескольких сотен до нескольких тысяч отсчётов с целым периодом сезонности не больше 20 отсчётов.
-
Выбранный ряд нужно занести в таблицу
+
Выбранный ряд нужно занести в таблицу http://bit.ly/1I68WIJ
-
Предварительные версии отчётов принимаются до '''23:59 ''', финальные, по результатам работы с рецензентом до '''23:59 '''.
+
Прогноз нужно построить на 1/10 длины ряда с округлением до целого числа сезонных периодов.
-
--->
+
 
 +
Выбрать ряд и записаться в таблицу нужно до '''23:59 04.05''', отчёты по результатам работы с рецензентом принимаются до '''23:59 20.05'''.
= Ссылки =
= Ссылки =

Текущая версия

Содержание

Оценки

Студент Группа №1 (1) №2 (1.2) №3 (2.8) Рецензирование №3 (0.5) №4 (2.8) Рецензирование №4 (0.5) Дополнительно (9) Сумма за семестр (10) Оценка
Аверьянов Ярослав 178 0.9 0.2 1.1
Бондарчук Ярослав 175 1 1.1 1.2 (Карасиков) 1.2 0.5 (Дербышев) 5 10 10
Веринов Александр 176 0.9 1.2 2.8 0.5 (Жуков) 1.6 0 (Бондарчук) 3 10 10
Виденеева Анастасия 177 1 0.7 2.0 5 8.7 9
Газизуллина Римма 174 1 1.2 2.8 5 10 10
Гринчук Алексей 174 1 1.1 1.9 0 (Игнатов) 2.8 3 9.8 10
Дербышев Дмитрий 176 1 1.2 2.8 0 (Попова) 2.8 0 (Черепанов) 3 10.8 10
Ефимова Ирина 174 1 1.2 2.5 5 9.7 10
Жуков Андрей 174 0.9 1.2 2.8 0 (Липатова) 3 7.9 8
Игнатов Андрей 174 0.9 1.1 2.8 0.5 (Веринов) 5 10.3 10
Иноземцев Игорь 177 1 1.2 1.9 0 (Макарова) 1 5.1 5
Карасиков Михаил 174 1 1.2 2.5 0 (Плавин) 2.8 5 12.5 10
Кулунчаков Андрей 174 1 1.2 2.6 0.5 (Кучин) 5 10.3 10
Кучин Александр 177 1 2.8 0 (Бондарчук) 5 8.8 9
Лийко Виктория 176 1 1.2 1.9 5 9.1 9
Липатова Анна 174 1 1.6 0 (Кулунчаков) 6 8.6 9
Лукманов Вадим 154 0.7 1.2 1.9
Макарова Анастасия 174 0.8 0.2 2.1 0 (Пономарёв) 1.4 0 (Веринов) 3 7.5 8
Омельченко Сергей 176 0.9 1.2 2.4 0 (Черепанов) 2.8 3 10.3 10
Плавин Александр 174 1 1.2 2.6 0 (Чжен) 3 7.8 8
Пономарёв Олег 176 0.8 0.7 0 (Макарова) 2 3.5
Попова Мария 174 1 1.1 2.6 0 (Гринчук) 5 9.7 10
Ракутин Юрий 175 0.4 1.3 4 5.7 6
Родина София 176 1 1
Рубцовенко Сергей 176 1 1.1 2.8 5 9.9 10
Усманова Ильнура 173 1.1 1.5 6 8.6 9
Фатыхов Булат 177 0.4 1.2 0 1 2.6 3
Циглер Александр 177 1.1 1.7 4 6.8 7
Черепанов Ярослав 175 0.8 2.3 0.5 (Дербышев) 2.6 0 (Чжен) 5 11.2 10
Чжен Евгений 177 1 0.7 2 0.5 (Швец) 2.7 0 (Иноземцев) 3 9.9 10
Швец Михаил 174 1 1.1 2.8 0 (Омельченко) 5 9.9 10
Шинкевич Михаил 174 0.9 1.2 2.8 5 9.9 10
Яковлева Екатерина 177 0.4 0.4 1.3 2.7 5 9.8 10
  • Задание считается сданным на момент получения письма с отчётом при условии отсутствия необходимости внесения дополнений и исправлений.
  • Штраф за просрочку заданий начисляется из расчёта 0.1 балла за сутки.
  • Для получения зачёта необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух.
  • Каждое задание выдаётся только по заявке. Если задание выдано, но не решалось, начисляется штраф в размере его стоимости.
  • Балл за рецензирование можно получить только при условии сдачи соответствующего задания.
  • Источники дополнительных баллов:
  • Итоговая оценка по курсу —  сумма баллов за семестр, округлённая по стандартным правилам.

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:

  1. график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
  2. график зависимости достигаемого уровня значимости одного или двух критериев от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 1000 повторений);
  3. график с эмпирическими оценками мощности одного или двух критериев для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметров, и в m из k случаев гипотеза была отвергнута на некотором фиксированном уровне значимости \alpha (примем \alpha=0.05), оценкой мощности будет отношение m/k.

Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т. д.).

Постановки задач.

Пример решения.

Задание принимается до 23:59 12.03.

Задания 2-4. Работа с реальными данными

Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с подробным отчётом по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики.

По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает балл, если:

  • его собственная работа засчитана;
  • либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось.

Задание 2. Проверка гипотез

Постановки задач.

Задание принимается до 23:59 4.04.

Задание 3. Регрессия

Постановки задач.

Предварительные версии отчётов принимаются до 23:59 16.04, финальные, по результатам работы с рецензентом — до 23:59 26.04.

Задание 4. Прогнозирование

Для прогнозирования необходимо самостоятельно выбрать уникальный временной ряд из любого источника, например:

Рекомендуется выбирать ряд от нескольких сотен до нескольких тысяч отсчётов с целым периодом сезонности не больше 20 отсчётов. Выбранный ряд нужно занести в таблицу http://bit.ly/1I68WIJ

Прогноз нужно построить на 1/10 длины ряда с округлением до целого числа сезонных периодов.

Выбрать ряд и записаться в таблицу нужно до 23:59 04.05, отчёты по результатам работы с рецензентом принимаются до 23:59 20.05.

Ссылки

Личные инструменты