Статистический анализ данных (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м
Строка 79: Строка 79:
=== Анализ зависимостей ===
=== Анализ зависимостей ===
-
[Лапач, 174, 204, 316, Лагутин, Т2:174].
+
[Agresti, Лагутин].
* [[Коэффициент корреляции Пирсона|Корреляция Пирсона]]. Значимость коэффициента корреляции: критерий Стьюдента, перестановочный критерий.
* [[Коэффициент корреляции Пирсона|Корреляция Пирсона]]. Значимость коэффициента корреляции: критерий Стьюдента, перестановочный критерий.
* [[Ранговая корреляция]]: [[коэффициент корреляции Спирмена]], [[коэффициент корреляции Кенделла]], их значимость. Связь коэффициентов корреляции.
* [[Ранговая корреляция]]: [[коэффициент корреляции Спирмена]], [[коэффициент корреляции Кенделла]], их значимость. Связь коэффициентов корреляции.
* [[Частная корреляция]], значимость коэффициента частной корреляции (критерий Стьюдента).
* [[Частная корреляция]], значимость коэффициента частной корреляции (критерий Стьюдента).
* [[Множественная корреляция]], значимость коэффициента множественной корреляции (критерий Фишера).
* [[Множественная корреляция]], значимость коэффициента множественной корреляции (критерий Фишера).
-
* [[Таблица сопряженности]] 2×2. Проверка гипотезы независимости бинарных величин: критерий хи-квадрат, [[Точный тест Фишера|точный критерий Фишера]], [[критерий Мак-Нимара]]. [[Корреляция Мэтьюса]].
+
* [[Таблица сопряженности]] <tex>K_1\times K_2</tex>. Проверка гипотезы независимости категориальных величин с помощью критерия хи-квадрат. Коэффициент V Крамера.
 +
* [[Таблица сопряженности]] <tex>2\times 2</tex>. Проверка гипотезы независимости бинарных величин с помощью [[Точный тест Фишера|точного критерия Фишера]]. [[Корреляция Мэтьюса]].
* [[Парадокс хи-квадрат]].
* [[Парадокс хи-квадрат]].
-
<!---* [[Конкордация Кенделла]].
+
<!---* [[Конкордация Кенделла]]. --->
-
* [[Таблица сопряженности]] K×L. Проверка гипотезы независимости категориальных величин: критерий хи-квадрат, G-критерий. Коэффициент V Крамера.--->
+
 
[[Media:S6.pdf‎‎|Материалы занятия]]
[[Media:S6.pdf‎‎|Материалы занятия]]
Строка 214: Строка 215:
# ''Кобзарь, А.И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
# ''Кобзарь, А.И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
# ''Магнус, Я.Р., Катышев, П.К., Пересецкий, А.А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
# ''Магнус, Я.Р., Катышев, П.К., Пересецкий, А.А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
 +
# ''Agresti, A.'' Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2002.
# ''Bretz, F., Hothorn, T., Westfall, P.'' Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
# ''Bretz, F., Hothorn, T., Westfall, P.'' Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
# ''Good, P.'' Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
# ''Good, P.'' Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.

Версия 11:45, 24 марта 2014

Содержание

Курс знакомит студентов с основными задачами и методами прикладной статистики.

Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.

Каждый метод описывается по единой схеме:

  • постановка задачи;
  • примеры прикладных задач из области экономики, социологии, производства, медицины;
  • базовые предположения и границы применимости;
  • описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
  • достоинства, недостатки, ограничения, «подводные камни»;
  • сравнение с другими методами.

Курс читается студентам 5 курса кафедры математических методов прогнозирования ВМиК МГУ с 2007 года и студентам 4 курса факультета управления и прикладной математики МФТИ с 2011 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики.

Программа курса

Введение

Обзор необходимых сведений из теории вероятностей и математической статистики.

Материалы занятия

Параметрическая проверка гипотез

[Kanji, Кобзарь]

Материалы занятия

Непараметрическая проверка гипотез

[Кобзарь, Good, Wilcox]

Материалы занятия

Множественная проверка гипотез

[Bretz]

  • Множественная проверка гипотез. Примеры задач. Меры числа ошибок первого рода.
  • FWER, поправка Бонферрони.
  • Нисходящие процедуры множественной проверки: общий вид, метод Холма.
  • Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, positive orthant dependence.
  • Оценка числа верных нулевых гипотез и её применение.
  • FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.

Материалы занятия

Дисперсионный анализ (ANOVA)

[Tabachnick, Лагутин, Кобзарь].

Материалы занятия

Анализ зависимостей

[Agresti, Лагутин].


Материалы занятия

Линейный регрессионный анализ

[Дрейпер, Wooldridge]

  • Многомерная линейная регрессия. Примеры прикладных задач. Метод наименьших квадратов.
  • Несимметричность решения задачи одномерной регрессии относительно признака и отклика, связь с коэффициентом корреляции. Остаточная сумма квадратов (RSS). Коэффициент детерминации
  • Предположения Гаусса-Маркова. Статистические свойства МНК-оценок в отсутствие предположения нормальности.
  • Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность.
  • Кодирование нечисловых признаков, фиктивные переменные. Dummy- и deviation-кодирование.
  • Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика.
  • Анализ структуры линейной регрессионной модели. Значимость коэффициентов линейной регрессии: проверка равенства коэффициентов нулю и константе, вложенные модели линейной регрессии, критерий Фишера, запись критерия Фишера через коэффициент детерминации. Связь между критериями Фишера и Стьюдента. Пошаговая регрессия. Эксперимент Фридмана.
  • Сравнение невложенных моделей: приведённый коэффициент детерминации, критерий Давидсона-Маккиннона.
  • Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерии Бройша-Пагана), нормальности.
  • Обработка пропусков и выбросов. Расстояние Кука.
  • Метод Бокса-Кокса для преобразования отклика. Доверительный интервал для параметра метода.
  • Проверка общей линейной гипотезы.
  • Нелинейная регрессия. Построение совместной доверительной области для параметров модели. Приближённая проверка адекватности модели по чистой ошибке.
  • Проблема мультиколлинеарности. Методы понижения размерности: ридж-регрессия, лассо Тибширани, эластичная сеть. Выбор параметра регуляризации.

Материалы занятий: часть 1, часть 2, часть 3, пример решения задачи.

Логистическая регрессия

[Hosmer]

  • Постановка задачи логистической регрессии, повторяемый эксперимент с фиксированными уровнями фактора, неповторяемый эксперимент со случайными уровнями фактора. Логит, его интерпретация. Интерпретация коэффициентов логистической регрессии (бинарный, количественный признак).
  • Оценка параметров модели методом максимального правдоподобия. Возможные причины отсутствия сходимости.
  • Анализ модели логистической регрессии: оценка значимости коэффициентов (критерий Вальда), построение доверительных интервалов, остатки Пирсона, проверка линейности логита по признаку, признаки мультиколлинеарности.
  • Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.

Материалы занятия

Анализ временных рядов

[Shumway, Hyndman, Лукашин, Kirchgassner]

Материалы занятий: часть 1, часть 3.

Последовательный анализ

[Вальд, Mukhopadhyay]

  • Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
  • Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.
  • Последовательные доверительные интервалы для среднего нормальной совокупности с неизвестной дисперсией (двухэтапная, последовательная процедуры). Процедуры для разности средних двух нормальных совокупностей, случаи равных и неравных дисперсий.
  • Непараметрические последовательные доверительные интервалы для среднего и медианы.

Материалы занятия

Анализ выживаемости

Анализ панельных данных

[Магнус]

Литература

  1. Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
  2. Дрейпер, Н.Р., Смит Г. Прикладной регрессионный анализ. — М.: Издательский дом "Вильямс", 2007.
  3. Лагутин, М.Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  4. Лукашин, Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
  5. Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  6. Магнус, Я.Р., Катышев, П.К., Пересецкий, А.А. Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
  7. Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2002.
  8. Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
  9. Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
  10. Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p.  (подробнее)
  11. Hosmer, D.W., Lemeshow S. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
  12. Hyndman, R.J., Koehler, A.B., Ord, J.K., Snyder, R.D. Forecasting with Exponential Smoothing: The State Space Approach. — Berlin: Springer, 2008.
  13. Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
  14. Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
  15. Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
  16. Shumway, R.H, Stoffer, D.S. Time Series Analysis and Its Applications with R Examples. — New York: Springer, 2011.
  17. Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
  18. Wilcox, R.R. Introduction to Robust Estimation and Hypothesis Testing. — Academic Press, 2012.
  19. Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.

Подстраницы