Прикладной статистический анализ данных (курс лекций, 2017)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Расписание занятий)
Строка 1: Строка 1:
-
Лекторы: К. Воронцов, М. Хальман, Ш. Ишкина, А. Романенко, П. Швечиков.
+
Лекторы: К. Воронцов, М. Хальман, Ш. Ишкина, А. Романенко, П. Швечиков.
 +
[[Прикладной статистический анализ данных (ФУПМ, курс лекций, 2017)|Аналогичный курс в МФТИ]]
 +
== Расписание занятий ==
-
 
+
Занятия начинаются в 10:30, если отдельно не указано иное.
-
==Расписание занятий==
+
-
 
+
-
Занятия начинаются в 10:30, если отдельно не указано иное.
+
{| class="wikitable"
{| class="wikitable"
|-
|-
-
! Дата
+
! Дата
! Тема
! Тема
! Аудитория (лекция/семинар)
! Аудитория (лекция/семинар)
Строка 19: Строка 18:
| 607
| 607
| [[Media:Psad_intro_2017.pdf‎‎|Слайды]]
| [[Media:Psad_intro_2017.pdf‎‎|Слайды]]
-
|
+
|
|-
|-
| 13.02.2017
| 13.02.2017
Строка 35: Строка 34:
| 20.02.2017
| 20.02.2017
| Множественная проверка гипотез
| Множественная проверка гипотез
-
| 523/526б
+
| 523/526б
| [[Media:Psad_mht_2017.pdf‎|Слайды]]
| [[Media:Psad_mht_2017.pdf‎|Слайды]]
| [https://www.dropbox.com/sh/k2dxai2l0outlf2/AADAsbzBpb8IohQSIyF0R65Ra?dl=0 Задания на семинар], [https://www.dropbox.com/sh/fvsa9zxu9miqa9a/AAC30lVMTnfd_60Dd2rW8Nmfa?dl=0 Решения]
| [https://www.dropbox.com/sh/k2dxai2l0outlf2/AADAsbzBpb8IohQSIyF0R65Ra?dl=0 Задания на семинар], [https://www.dropbox.com/sh/fvsa9zxu9miqa9a/AAC30lVMTnfd_60Dd2rW8Nmfa?dl=0 Решения]
-
|-
+
|-
| 27.02.2017
| 27.02.2017
| Анализ зависимостей
| Анализ зависимостей
Строка 59: Строка 58:
| 24.03.2017
| 24.03.2017
| Прогнозирование временных рядов, часть 1
| Прогнозирование временных рядов, часть 1
-
| ?
+
| ?
|
|
|
|
Строка 76: Строка 75:
|}
|}
-
==Система выставления оценок по курсу==
+
== Система выставления оценок по курсу ==
-
По курсу запланировано 4 практических задания и экзамен.
+
По курсу запланировано 4 практических задания и экзамен.
-
Оценки за выполнение практических заданий суммируются.
+
Оценки за выполнение практических заданий суммируются.
-
Итоговая оценка за курс является '''минимум''' между суммарной оценкой за практические задания и оценкой за экзамен.
+
Итоговая оценка за курс является '''минимум''' между суммарной оценкой за практические задания и оценкой за экзамен.
-
Округление итоговой оценки производится по правилу арифметического округления (4.5 => 5).
+
Округление итоговой оценки производится по правилу арифметического округления (4.5 => 5).
Разбалловку по заданиям смотри в разделе '''Практические задания''' .
Разбалловку по заданиям смотри в разделе '''Практические задания''' .
Строка 90: Строка 89:
 +
=== Основные ссылки ===
=== Основные ссылки ===
-
* Для работы на семинарах вам понадобятся ноутбуки с [https://www.r-project.org установленными на них R] и [https://www.rstudio.com/products/rstudio/download/ RStudio].
+
* Для работы на семинарах вам понадобятся ноутбуки с [https://www.r-project.org установленными на них R] и [https://www.rstudio.com/products/rstudio/download/ RStudio].
* [http://swirlstats.com/students.html Инструкция по установке и запуску swirl]
* [http://swirlstats.com/students.html Инструкция по установке и запуску swirl]
* [http://kbroman.org/knitr_knutshell/pages/Rmarkdown.html Некоторые основные опции Rmarkdown]
* [http://kbroman.org/knitr_knutshell/pages/Rmarkdown.html Некоторые основные опции Rmarkdown]
-
* [http://adv-r.had.co.nz Advanced R – для тех, кто хочет разобраться в том, как работает R изнутри]
+
* [http://adv-r.had.co.nz Advanced R — для тех, кто хочет разобраться в том, как работает R изнутри]
-
=== Минимальная практика ===
+
=== Минимальная практика ===
-
Для того, чтобы успешно выполнять практические задания и работать на семинаре, вам необходимо приобрести минимальные навыки работы в R.
+
Для того, чтобы успешно выполнять практические задания и работать на семинаре, вам необходимо приобрести минимальные навыки работы в R.
Для этого скачайте R, RStudio, и установите swirl [[#Основные ссылки| (ссылки приведены выше)]].
Для этого скачайте R, RStudio, и установите swirl [[#Основные ссылки| (ссылки приведены выше)]].
-
До семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R" пакета swirl [http://swirlstats.com/students.html (инструкция по установке и запуску swirl)] следующие уроки:
+
До семинара, убедитесь, пожалуйста, что вы прошли из блока «R Programming: The basics of programming in пакета swirl [http://swirlstats.com/students.html (инструкция по установке и запуску swirl)] следующие уроки:
-
* 1: Basic Building Blocks
+
* 1: Basic Building Blocks
-
* 4: Vectors
+
* 4: Vectors
-
* 7: Matrices and Data Frames
+
* 7: Matrices and Data Frames
-
* 10: lapply and sapply
+
* 10: lapply and sapply
-
* 13: Simulation
+
* 13: Simulation
-
* 15: Base Graphics
+
* 15: Base Graphics
-
В противном случае на семинаре вы не сможете полноценно влиться в работу и получите дополнительные сложности при выполнении практических заданий.
+
В противном случае на семинаре вы не сможете полноценно влиться в работу и получите дополнительные сложности при выполнении практических заданий.
Строка 122: Строка 122:
=== Практические задания ===
=== Практические задания ===
-
Дедлайн по заданию мягкий, за каждый день просрочки снимается 0.05 баллов.
+
Дедлайн по заданию мягкий, за каждый день просрочки снимается 0.05 баллов.
-
Просрочка считается исходя из чистого времени, которое студент выполняет задание (при подсчете просрочки не учитывается время, которое задание находилось на проверке).
+
Просрочка считается исходя из чистого времени, которое студент выполняет задание (при подсчете просрочки не учитывается время, которое задание находилось на проверке).
-
Проверяющий может вернуть работу (с разъяснящими комментариями) на доработку (без потери баллов) не более одного раза.
+
Проверяющий может вернуть работу (с разъяснящими комментариями) на доработку (без потери баллов) не более одного раза.
-
В случае доработки задания проверяющий выставляет оценку исходя из выполнения условий задачи и требованных доработок.
+
В случае доработки задания проверяющий выставляет оценку исходя из выполнения условий задачи и требованных доработок.
-
Обратите внимание на то, что время, которое задание ожидает своей проверки в anytask, не включается во время выполенения задания студентом, но отправлять задание можно не более двух раз. После второй отправки задание будет оценено окончательно.
+
Обратите внимание на то, что время, которое задание ожидает своей проверки в anytask, не включается во время выполенения задания студентом, но отправлять задание можно не более двух раз. После второй отправки задание будет оценено окончательно.
Строка 142: Строка 142:
|-
|-
| 1
| 1
-
| 17.02.2017
+
| 17.02.2017
-
| <b>03.03.2017 23:00</b>
+
| '''03.03.2017 23:00'''
| [https://yadi.sk/d/RhXbyisY3EDRs4 Исследование свойств стат. критериев на модельных данных]
| [https://yadi.sk/d/RhXbyisY3EDRs4 Исследование свойств стат. критериев на модельных данных]
| 1
| 1
Строка 157: Строка 157:
|
|
| Линейная и обобщенная линейная регрессия
| Линейная и обобщенная линейная регрессия
-
| 2
+
| 2
|-
|-
| 4
| 4
Строка 166: Строка 166:
|}
|}
-
== Литература ==
+
== Литература ==
-
===1. Основная литература===
+
 
-
# Вальд, А. Последовательный анализ. М.: Физматлит, 1960.
+
=== 1. Основная литература ===
-
# Кобзарь, А.И. Прикладная математическая статистика. М.: Физматлит, 2006.
+
# Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
-
# Лагутин, М.Б. Наглядная математическая статистика. М.: П-центр, 2003.
+
# Кобзарь, А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
-
# Agresti, A. Categorical Data Analysis. Hoboken: John Wiley & Sons, 2013.
+
# Лагутин, М. Б. Наглядная математическая статистика. — М.: П-центр, 2003.
-
# Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. Boca Raton: Chapman and Hall/CRC, 2013.
+
# Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
-
# Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. Hoboken: John Wiley & Sons, 2014.
+
# Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013.
-
# Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. Boca Raton: Chapman and Hall/CRC, 2010.
+
# Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
-
# Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
+
# Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
-
# Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. OpenIntro, 2015.
+
# Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
-
# Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. OTexts, 2016. https://www.otexts.org/book/fpp
+
# Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015.
-
# Kanji, G.K. 100 statistical tests. London: SAGE Publications, 2006.
+
# Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp
-
# Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. Boca Raton: Chapman and Hall/CRC, 2009.
+
# Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
-
# Olsson, U. Generalized Linear Models: An Applied Approach. Lund: Studentlitteratur, 2004.
+
# Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
-
# Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. Chichester: John Wiley & Sons, 2016.
+
# Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
-
# Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. Boston: Pearson Education, 2012.
+
# Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
-
# Wooldridge, J. Introductory Econometrics: A Modern Approach. Mason: South-Western Cengage Learning, 2013.
+
# Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
 +
# Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
 +
 
=== 2. Дополнительная литература ===
=== 2. Дополнительная литература ===
-
# Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. Cambridge: Cambridge University Press, 2013.
+
# Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
-
# Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. Heidelberg: Springer, 2014.
+
# Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
-
# Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. New York: Springer, 2005.
+
# Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
-
# Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. Hoboken: John Wiley & Sons, 2013.
+
# Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
-
# Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. Heidelberg: Springer, 2013.
+
# Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
-
# Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. New York: Springer, 2013.
+
# Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. — New York: Springer, 2013.

Версия 13:44, 26 февраля 2017

Лекторы: К. Воронцов, М. Хальман, Ш. Ишкина, А. Романенко, П. Швечиков.

Аналогичный курс в МФТИ

Содержание

Расписание занятий

Занятия начинаются в 10:30, если отдельно не указано иное.

Дата Тема Аудитория (лекция/семинар) Лекция Семинар
10.02.2017 Базовые распределения, статистики и их свойства; Оценка параметров 607 Слайды
13.02.2017 Проверка параметрических гипотез 526б Слайды Задания на семинар
17.02.2017 Проверка непараметрических гипотез 704 Слайды Задания на семинар, Статья про boostrap
20.02.2017 Множественная проверка гипотез 523/526б Слайды Задания на семинар, Решения
27.02.2017 Анализ зависимостей  ?
10.03.2017 Линейная регрессия  ?
17.03.2017 Дополнения и обобщения регрессии  ?
24.03.2017 Прогнозирование временных рядов, часть 1  ?
31.03.2017 Прогнозирование временных рядов, часть 2  ?
07.04.2017 Причинно-следственные связи  ?

Система выставления оценок по курсу

По курсу запланировано 4 практических задания и экзамен. Оценки за выполнение практических заданий суммируются.

Итоговая оценка за курс является минимум между суммарной оценкой за практические задания и оценкой за экзамен.

Округление итоговой оценки производится по правилу арифметического округления (4.5 => 5).

Разбалловку по заданиям смотри в разделе Практические задания .

Практическая работа

Основные ссылки



Минимальная практика

Для того, чтобы успешно выполнять практические задания и работать на семинаре, вам необходимо приобрести минимальные навыки работы в R. Для этого скачайте R, RStudio, и установите swirl (ссылки приведены выше).

До семинара, убедитесь, пожалуйста, что вы прошли из блока «R Programming: The basics of programming in R» пакета swirl (инструкция по установке и запуску swirl) следующие уроки:

  • 1: Basic Building Blocks
  • 4: Vectors
  • 7: Matrices and Data Frames
  • 10: lapply and sapply
  • 13: Simulation
  • 15: Base Graphics

В противном случае на семинаре вы не сможете полноценно влиться в работу и получите дополнительные сложности при выполнении практических заданий.




Практические задания

Дедлайн по заданию мягкий, за каждый день просрочки снимается 0.05 баллов.

Просрочка считается исходя из чистого времени, которое студент выполняет задание (при подсчете просрочки не учитывается время, которое задание находилось на проверке). Проверяющий может вернуть работу (с разъяснящими комментариями) на доработку (без потери баллов) не более одного раза.

В случае доработки задания проверяющий выставляет оценку исходя из выполнения условий задачи и требованных доработок.

Обратите внимание на то, что время, которое задание ожидает своей проверки в anytask, не включается во время выполенения задания студентом, но отправлять задание можно не более двух раз. После второй отправки задание будет оценено окончательно.


Номер задания Дата выдачи Дедлайн Название работы Максимальный балл
1 17.02.2017 03.03.2017 23:00 Исследование свойств стат. критериев на модельных данных 1
2 03.03.2017 Проверка стастгипотез 1.5
3 17.03.2017 Линейная и обобщенная линейная регрессия 2
4 31.03.2017 Прогнозирование временных рядов 1.5

Литература

1. Основная литература

  1. Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
  2. Кобзарь, А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  3. Лагутин, М. Б. Наглядная математическая статистика. — М.: П-центр, 2003.
  4. Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
  5. Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013.
  6. Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
  7. Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
  8. Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
  9. Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015.
  10. Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp
  11. Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
  12. Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
  13. Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
  14. Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
  15. Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
  16. Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.

2. Дополнительная литература

  1. Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
  2. Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
  3. Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
  4. Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
  5. Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
  6. Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. — New York: Springer, 2013.
Личные инструменты