Статистический анализ данных (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
(переработаны 3 лекции по регрессионному анализу)
Строка 24: Строка 24:
* Статистические [[точечная оценка|точечные оценки]] и их свойства: [[несмещённость]], [[состоятельность]], [[эффективность]], [[достаточность]], [[робастность]].
* Статистические [[точечная оценка|точечные оценки]] и их свойства: [[несмещённость]], [[состоятельность]], [[эффективность]], [[достаточность]], [[робастность]].
* [[Интервальная оценка|Интервальные оценки]], понятия [[Доверительный интервал|доверительного интервала]] и [[Коэффициент доверия|коэффициента доверия]]. Доверительное оценивание по вариационному ряду. Доверительные интервалы для среднего и медианы [Лапач, 104].
* [[Интервальная оценка|Интервальные оценки]], понятия [[Доверительный интервал|доверительного интервала]] и [[Коэффициент доверия|коэффициента доверия]]. Доверительное оценивание по вариационному ряду. Доверительные интервалы для среднего и медианы [Лапач, 104].
 +
<strike>
* Метод доверительных интервалов Неймана.
* Метод доверительных интервалов Неймана.
* Понятия параметрических, непараметрических и робастных методов. Структура прикладной статистики.
* Понятия параметрических, непараметрических и робастных методов. Структура прикладной статистики.
 +
</strike>
=== Параметрическая проверка гипотез ===
=== Параметрическая проверка гипотез ===
Строка 66: Строка 68:
* [[Точный тест Фишера]].
* [[Точный тест Фишера]].
* Понятие [[закономерность|закономерности]] в алгоритмах классификации, статистические и логические закономерности. Примеры: посещаемость сайтов пользователями Интернет, анализ результатов голосования, маркетинговые исследования.
* Понятие [[закономерность|закономерности]] в алгоритмах классификации, статистические и логические закономерности. Примеры: посещаемость сайтов пользователями Интернет, анализ результатов голосования, маркетинговые исследования.
 +
 +
=== Линейный регрессионный анализ ===
 +
* [[Многомерная линейная регрессия]]. Примеры прикладных задач. [[Метод наименьших квадратов]].
 +
* МНК-решение и его запись через [[сингулярное разложение]].
 +
* Основные предположения [[многомерная линейная регрессия|многомерной линейной регрессии]]. Статистические свойства МНК-оценок (без предположения нормальности).
 +
* Статистические свойства МНК-оценок при предположении нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозного значения отклика.
 +
 +
=== Оценивание регрессионных моделей ===
 +
* [[Проверка значимости]] (не равенства нулю) коэффициентов линейной регрессионной модели, [[вложенные модели]], критерий Фишера. [[Шаговая регрессия]].
 +
* Проверка адекватности модели. [[Выборочный коэффициент детерминации]]. [[Дисперсия остатков]].
 +
* [[Анализ регрессионных остатков]]: [[критерий знаков]], визуальный анализ, непараметрические тесты: [[критерий Уилкоксона-Манна-Уитни]], [[критерий Зигеля-Тьюки]], [[критерий Вальда-Вольфовица|критерий серий]].
 +
* Проверка нормальности остатков: [[Критерий Шапиро-Уилка]], [[критерий Колмогорова-Смирнова]], [[критерий омега-квадрат]] фон Мизеса, [[критерий хи-квадрат]] Пирсона, критерии асимметрии и эксцесса.
 +
 +
=== Непараметрическая, нелинейная, устойчивая регрессия ===
 +
* [[Непараметрическая регрессия]]: [[ядерное сглаживание]], формула Надарая-Ватсона. Выбор ядра и ширины окна.
 +
* Совмещение многомерной линейной регрессии и одномерного сглаживания: [[backfitting|метод настройки с возвращениями]] (backfitting).
 +
* [[Нелинейная регрессия]]. Методы Ньютона-Раффсона и Ньютона-Гаусса.
 +
* Проблема [[Мультиколлинеарность|мультиколлинеарности]]. Методы понижения размерности. [[Ридж-регрессия]]. [[Лассо Тибширани]]. Методы [[отбор признаков|отбора признаков]]: [[шаговая регрессия]], [[метод группового учёта аргументов]]. Внешние и внутренние критерии.
 +
* Проблема выбросов и [[робастная регрессия]]. [[M-оценки]], [[метод наименьших модулей]]. [[L-оценки]], [[винзоризация выборки]] [Вучков].
 +
 +
<!---
 +
* [[Факторный анализ]] [Айвазян, том 1, 526, 551]: [[метод главных компонент]], геометрическая интерпретация, выбор числа значимых факторов [Кулаичев, 315].
 +
* Пример прикладной задачи: анализ деятельности паевых инвестиционных фондов. Введение нелинейности в модель регрессии. Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.
 +
* Гипотеза нормальности и ее нарушение. [[Гетероскедастичность]]. Обобщённый метод наименьших квадратов [Вучков, Айвазян, том 2].
 +
--->
 +
 +
=== Анализ временных рядов ===
 +
* [[Временной ряд]]. [[Стационарность]] и [[эргодичность]].
 +
* Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]], [[шум]]ы, [[циклические колебания]], календарные эффекты. Структурные модели временного ряда [Айвазян, том 2, Лукашин].
 +
* Прогнозирование временных рядов. Простейшие методы прогнозирования. [[Экспоненциальное сглаживание]], [[модель Брауна]], [[модель Хольта-Уинтерса]], [[модель Тейла-Вейджа]].
 +
* [[ARIMA|Процесс авторегрессии и проинтегрированного скользящего среднего]] (ARIMA) [Лукашин].
=== Анализ рисков. Пробит- и логит-анализ ===
=== Анализ рисков. Пробит- и логит-анализ ===
Строка 78: Строка 111:
* [[Пропорциональный выбор]] и преимущества [[стратификация|стратификации]]. Оценки достаточной длины выборки [Лапач, 361]. Другие методы выбора: квотированный, кластерный, многоступенчатый кластерный.
* [[Пропорциональный выбор]] и преимущества [[стратификация|стратификации]]. Оценки достаточной длины выборки [Лапач, 361]. Другие методы выбора: квотированный, кластерный, многоступенчатый кластерный.
* [[Выборочный контроль качества]] [Лапач, 351]. Одноступенчатый и двухступенчатый [[план контроля]]. Оперативная характеристика плана контроля. Парадоксы выборочного контроля.
* [[Выборочный контроль качества]] [Лапач, 351]. Одноступенчатый и двухступенчатый [[план контроля]]. Оперативная характеристика плана контроля. Парадоксы выборочного контроля.
-
 
-
=== Регрессионный анализ ===
 
-
* [[Многомерная линейная регрессия]]. [[Метод наименьших квадратов]]. Гипотеза нормальности и ее нарушение. [[Гетероскедастичность]]. Обобщённый метод наименьших квадратов [Вучков, Айвазян, том 2].
 
-
* [[Факторный анализ]] [Айвазян, том 1, 526, 551]: [[метод главных компонент]], геометрическая интерпретация, выбор числа значимых факторов [Кулаичев, 315].
 
-
* Устойчивость регрессионных моделей. [[Мультиколлинеарность]]. [[Ридж-регрессия]]. [[Лассо Тибширани]]. [[Отбор признаков]] и [[шаговая регрессия]] [Friedman]. Проблема выбросов и [[робастная регрессия]]. [[M-оценки]], [[метод наименьших модулей]]. [[L-оценки]], [[винзоризация выборки]] [Вучков].
 
-
 
-
=== Оценивание регрессионных моделей ===
 
-
* Проверка адекватности модели. [[Выборочный коэффициент детерминации]]. [[Дисперсия остатков]]. [[Вложенные модели]].
 
-
* [[Анализ остатков]]. [[U-критерий]] Уилкоксона-Манна-Уитни, [[критерий Зигеля-Тьюки]], [[критерий Вальда-Вольфовица]]. Пример прикладной задачи: анализ деятельности паевых инвестиционных фондов. Введение нелинейности в модель регрессии. Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.
 
-
* [[Непараметрическая регрессия]]: [[ядерное сглаживание]], формула Надарая-Ватсона. Выбор ядра и ширины окна.
 
-
* Совмещение многомерной линейной регрессии и одномерного сглаживания: [[backfitting|метод настройки с возвращениями]] (backfitting).
 
-
* Проверка гипотезы о значимости (не равенства нулю) коэффициентов линейной регрессии.
 
-
* Доверительные интервалы для коэффициентов и отклика.
 
-
 
-
=== Анализ временных рядов ===
 
-
* [[Временной ряд]]. [[Стационарность]] и [[эргодичность]].
 
-
* Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]], [[шум]]ы, [[циклические колебания]], календарные эффекты. Структурные модели временного ряда [Айвазян, том 2, Лукашин].
 
-
* Прогнозирование временных рядов. Простейшие методы прогнозирования. [[Экспоненциальное сглаживание]], [[модель Брауна]], [[модель Хольта-Уинтерса]], [[модель Тейла-Вейджа]].
 
-
* [[ARIMA|Процесс авторегрессии и проинтегрированного скользящего среднего]] (ARIMA) [Лукашин].
 
=== Построение интегральных индикаторов ===
=== Построение интегральных индикаторов ===

Версия 10:58, 29 октября 2008

Содержание

Курс знакомит студентов с основными задачами и методами прикладной статистики.

Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.

Каждый метод описывается по единой схеме:

  • постановка задачи;
  • примеры прикладных задач из области экономики, социологии, производства, медицины;
  • базовые предположения и границы применимости;
  • описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
  • достоинства, недостатки, ограничения, «подводные камни»;
  • сравнение с другими методами.

Курс читается студентам 5 курса кафедры Математические методы прогнозирования ВМиК МГУ, начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу «Математические методы распознавания образов»), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).

Программа курса

Введение

Обзор необходимых сведений из теории вероятностей и математической статистики.

  • Метод доверительных интервалов Неймана.
  • Понятия параметрических, непараметрических и робастных методов. Структура прикладной статистики.

Параметрическая проверка гипотез

Непараметрическая проверка гипотез

Дисперсионный анализ (ANOVA)

[Лапач, 193, Кулаичев, 170].

Корреляционный анализ

[Лапач, 174].

Анализ таблиц сопряженности (кросстабуляции)

[Лапач, 204, 316, Лагутин, Т2:174, Кулаичев, 162].

Линейный регрессионный анализ

Оценивание регрессионных моделей

Непараметрическая, нелинейная, устойчивая регрессия


Анализ временных рядов

Анализ рисков. Пробит- и логит-анализ

[Лапач, 387].

Выборочный анализ

Построение интегральных индикаторов

Панельные исследования

Литература

  1. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
  2. Орлов А. И. Эконометрика. — М.: Экзамен, 2003.
  3. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  4. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  5. Айвазян С. А., Мхитарян В. С. Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
  6. Айвазян С. А. Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
  7. Кулаичев А. П. Методы и средства комплексного анализа данных. — М.: Форум–Инфра-М, 2006.
  8. Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере. — М.: Инфра-М, 2003.
  9. Вучков И., Бояджиева А., Солаков Е. Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
  10. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
  11. Friedman R., Hastie T., Tibshirani J. The elements of statistical learning. – Springer, 2001.
  12. Strijov, V., Shakin, V. Index construction: the expert-statistical method. // Environmental research, engineering and management 2003. No.4 (26), P.51-55.
  13. Стрижов В. В., Казакова Т. В. Устойчивые интегральные индикаторы с выбором опорного множества описаний. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76.
  14. Литвак Б. Г. Экспертная информация: Методы получения и анализа. – М.: Радио и связь, 1982. – 184 с.
  15. Стрижов В. В. Уточнение экспертных оценок с помощью измеряемых данных. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64.
  16. Вуколов Э. А. Основы статистического анализа. Практикум по статистическим методам и исследованиею операций STATISTA и EXCEL / 2-е изд., испр. и доп.: Учеб. пособие. — М.:ФОРУМ, 2008. — 463 с. — ISBN 978-5-91134-231-9.

Ссылки