Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Лекции: слайды)
Строка 7: Строка 7:
== Введение ==
== Введение ==
-
* Задача регрессионного анализа, терминология
+
* [[Регрессионный анализ]]
-
* Что такое регрессионная модель
+
* [[Регрессионная модель]]
-
* Примеры постановки задач регрессионного анализа
+
* [[Линейная регрессия (пример)|Подстановки в линейных моделях]]
-
* Подстановки в линейных моделях
+
* [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Leonteva2011ElectricityConsumption/doc/Leonteva2011ElectricityConsumption.pdf Авторегрессионные модели]
-
* Авторегрессионные модели
+
* [[Media:strijov08ln.pdf|Примеры постановки задач регрессионного анализа]] (с. 47-53)
* Моделирование геометрических измерений
* Моделирование геометрических измерений
* Моделирование в финансовой математике
* Моделирование в финансовой математике
Строка 17: Строка 17:
== Линейные и существенно-нелинейные модели ==
== Линейные и существенно-нелинейные модели ==
-
* Линейная регрессия
+
* [[Линейная регрессия]]
-
* Метод наименьших квадратов
+
* [[Метод наименьших квадратов]]
-
* Нелинейная регрессия
+
* [[Нелинейная регрессия]]
-
* Основные модели нелинейной регрессии
+
* [[Часто используемые регрессионные модели]]
-
* Матрица Якоби и Гессе
+
* [[Вычисление матриц Якоби и Гессе|Матрица Якоби и Гессе]]
-
* Метод Ньютона
+
* [http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%9D%D1%8C%D1%8E%D1%82%D0%BE%D0%BD%D0%B0#.D0.9C.D0.B5.D1.82.D0.BE.D0.B4_.D0.93.D0.B0.D1.83.D1.81.D1.81.D0.B0_.E2.80.94_.D0.9D.D1.8C.D1.8E.D1.82.D0.BE.D0.BD.D0.B0 Метод Ньютона]
-
* Алгоритм Левенберга-Марквардта
+
* [[Алгоритм Левенберга-Марквардта]]
-
* Ранговая регрессия
+
* [[Media:Kuznetsov2011trudi.pdf|Ранговая регрессия]]
== Линейные методы ==
== Линейные методы ==
-
* Метод главных компонент
+
* [[Метод главных компонент]]
* Максимальное правдоподобие МГК
* Максимальное правдоподобие МГК
* Байесовский МГК
* Байесовский МГК
* МГК для нелинейных моделей
* МГК для нелинейных моделей
-
* Сингулярное разложение
+
* [[Сингулярное разложение]]
-
* Простой итерационный алгоритм сингулярного разложения
+
* [[Простой итерационный алгоритм сингулярного разложения]]
* Пространства, порождаемые сингулярными векторами
* Пространства, порождаемые сингулярными векторами
* Матричные нормы и обусловленность
* Матричные нормы и обусловленность
Строка 38: Строка 38:
== Обобщенно-линейные модели ==
== Обобщенно-линейные модели ==
-
* Гипотеза порождения данных
+
* Гипотеза порождения данных []
-
* Логистическая регрессия
+
* [[Логистическая регрессия]]
-
* Метод Ньютона-Рафсона
+
* [[Логистическая регрессия (пример)|Метод Ньютона-Рафсона]]
* Первый уровень Байесовского вывода
* Первый уровень Байесовского вывода
* Регуляризация
* Регуляризация
Строка 66: Строка 66:
== Требования к моделям ==
== Требования к моделям ==
-
* Анализ регрессионных остатков
+
* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)|пример]]
-
* Фактор инфляции дисперсии
+
* [[Фактор инфляции дисперсии]]
* Сложность моделей
* Сложность моделей
* Устойчивость моделей
* Устойчивость моделей
-
* Метод Белсли для линейных моделей
+
* [[Метод Белсли]]
 +
* [[Анализ мультиколлинеарности|Анализ мультиколлинеарности (пример)]]
* Метод Белсли и анализ ковариационных матриц для нелинейных моделей
* Метод Белсли и анализ ковариационных матриц для нелинейных моделей
 +
* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)| пример]] и [[Статистический отчет при создании моделей|отчет]]
 +
== Порождение моделей ==
== Порождение моделей ==
Строка 94: Строка 97:
* Фактор Оккама
* Фактор Оккама
* Принцип минимальной длины описания
* Принцип минимальной длины описания
-
* Аппроксимация Лапласа
+
* [[Аппроксимация Лапласа]]
-
* Оценка гиперпараметров
+
* [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tokmakova2011HyperPar/doc/Tokmakova2011HyperPar.pdf Оценка гиперпараметров]
-
* Выбор базиса аппроксимации Лапласа
+
* [[Аппроксимация функции ошибки|Эмпирическая функция правдоподобия и аппроксимация Лапласа]]
== Сравнение моделей ==
== Сравнение моделей ==

Версия 16:08, 2 декабря 2011

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.

Лекции: слайды

Содержание

Введение

Линейные и существенно-нелинейные модели

Линейные методы

Обобщенно-линейные модели

Методы сэмплирования

  • Интегрирование Монте-Карло
  • Методы преобразования равномерного распределения
  • Сэмплирование с отклонением
  • Сэмплирование по значимости
  • Гиббсовское сэмплирование
  • Сэмплирование Метрополиса-Хастингса
  • Использование результатов

Критерии качества моделей

  • Отсутствие гипотезы порождения данных
  • Искусственные критерии качества моделей
  • МГУА
  • Скоринг и логистическая регрессия
  • Многокритериальный выбор моделей
  • Постановка задач многокритериальной оптимизации
  • Сведение многокритериальной оптимизации к однокритериальной (Weber)
  • Парето-оптимальный фронт
  • Алгоритмы многокритериальной оптимизации

Требования к моделям


Порождение моделей

  • Методы порождения моделей
  • Структурная сложность
  • Структурное расстояние
  • Порождение моделей МГУА
  • Порождение нейронных сетей и RBF
  • Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
  • Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом

Методы выбора признаков

  • Переборные алгоритмы
  • Шаговая регрессия
  • Алгоритмы с регуляризацией
  • Алгоритмы направленного добавления FOS, Stagewise, LARS
  • Оптимальное прореживание
  • Оптимизация правдоподобия

Сравнение моделей

Сравнение моделей

  • Графические модели
  • Байесовские сети
  • Расстояние Кулльбака-Лейблера
  • Вероятностная сходимость
  • Расстояние между моделями

Мультимоделирование и смеси экспертов

  • Байесовское усреднение моделей
  • Смеси распределений
  • Смеси линейных моделей
  • Смеси обобщенно-линейных моделей
  • Смеси экспертов
  • Иерархические модели
  • Инварианты в пространстве параметров моделей

Анализ ковариационных матриц

  • Гауссовские процессы
  • Байесовская регрессия - пространство данных и пространство параметров
  • Оценка гиперпараметров
  • Мультиколлинеарность и случайные признаки

Практика

Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».

Практику необходимо сдать до начала экзамена.

Экзамен

Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.

Практика

  • 28 сентября и 5 октября
  • 26 октября и 2 ноября
  • 23 и 30 ноября

Теория

  • 14 декабря 2011, группа 674, ауд. 355; список задач будет опубликован по окончании экзамена при условии полной явки.

История

Предшествующие программы и практические задания

Начиная с осени 2010 старая практика переносится в раздел

Литература

Личные инструменты