Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Требования к моделям)
Строка 1: Строка 1:
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
-
 
-
== Лекции: слайды ==
 
-
* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/ В репозитории (осень 2011, будут к 11.12), PDF]
 
{{TOCright}}
{{TOCright}}
Строка 12: Строка 9:
* [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Leonteva2011ElectricityConsumption/doc/Leonteva2011ElectricityConsumption.pdf Авторегрессионные модели]
* [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Leonteva2011ElectricityConsumption/doc/Leonteva2011ElectricityConsumption.pdf Авторегрессионные модели]
* [[Media:strijov08ln.pdf|Примеры постановки задач регрессионного анализа]] (с. 47-53)
* [[Media:strijov08ln.pdf|Примеры постановки задач регрессионного анализа]] (с. 47-53)
-
* Моделирование геометрических измерений
+
* [https://dmba.svn.sourceforge.net/svnroot/dmba/Slides/DMBA_Part13_Energy,Options.pdf Моделирование в финансовой математике]
-
* Моделирование в финансовой математике
+
* [https://dmba.svn.sourceforge.net/svnroot/dmba/Slides/DMBA_Part4,5_Indicators.pdf Экспертно-статистические методы]
-
* Экспертно-статистические методы
+
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Рекомендуемые обозначения|Обозначения]]
-
 
+
== Линейные и существенно-нелинейные модели ==
== Линейные и существенно-нелинейные модели ==
* [[Линейная регрессия]]
* [[Линейная регрессия]]
Строка 38: Строка 34:
== Обобщенно-линейные модели ==
== Обобщенно-линейные модели ==
-
* Гипотеза порождения данных []
+
* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part1%60DataGeneration.pdf Гипотеза порождения данных]
 +
* Первый уровень Байесовского вывода (там же)
* [[Логистическая регрессия]]
* [[Логистическая регрессия]]
* [[Логистическая регрессия (пример)|Метод Ньютона-Рафсона]]
* [[Логистическая регрессия (пример)|Метод Ньютона-Рафсона]]
-
* Первый уровень Байесовского вывода
+
* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part2%60ParameterEstimation.pdf Методы оценки параметров моделей]
-
* Регуляризация
+
-
* Оценка гиперпараметров для произвольной гипотезы порождения данных
+
== Методы сэмплирования ==
== Методы сэмплирования ==
Строка 62: Строка 57:
* Постановка задач многокритериальной оптимизации
* Постановка задач многокритериальной оптимизации
* Сведение многокритериальной оптимизации к однокритериальной (Weber)
* Сведение многокритериальной оптимизации к однокритериальной (Weber)
-
* Парето-оптимальный фронт
+
* Парето-оптимальный фронт
* Алгоритмы многокритериальной оптимизации
* Алгоритмы многокритериальной оптимизации
Строка 68: Строка 63:
* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)|пример]]
* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)|пример]]
* [[Фактор инфляции дисперсии]]
* [[Фактор инфляции дисперсии]]
-
* [[|Исследование устойчивости оценок ковариационной матрицы параметров|Устойчивость моделей]]
+
* [[Исследование устойчивости оценок ковариационной матрицы параметров|Устойчивость моделей]]
* [[Метод Белсли]]
* [[Метод Белсли]]
* [[Анализ мультиколлинеарности|Анализ мультиколлинеарности (пример)]]
* [[Анализ мультиколлинеарности|Анализ мультиколлинеарности (пример)]]
Строка 82: Строка 77:
* Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
* Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
-
== Методы выбора признаков ==
+
== [[Media:Strijov-Krymova10Model-Selection.pdf|Методы выбора признаков]] ==
* Переборные алгоритмы
* Переборные алгоритмы
 +
* Регуляризация
* Шаговая регрессия
* Шаговая регрессия
* Алгоритмы с регуляризацией
* Алгоритмы с регуляризацией
* Алгоритмы направленного добавления FOS, Stagewise, LARS
* Алгоритмы направленного добавления FOS, Stagewise, LARS
* Оптимальное прореживание
* Оптимальное прореживание
-
* Оптимизация правдоподобия
 
== Сравнение моделей ==
== Сравнение моделей ==
-
* Второй уровень Байесовского вывода
+
* [[Связанный Байесовский вывод|Второй уровень Байесовского вывода, множитель Оккама]]
-
* Фактор Оккама
+
* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part4%60ModelComplexity.pdf Принцип минимальной длины описания]
-
* Принцип минимальной длины описания
+
* [[Аппроксимация Лапласа]]
* [[Аппроксимация Лапласа]]
* [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tokmakova2011HyperPar/doc/Tokmakova2011HyperPar.pdf Оценка гиперпараметров]
* [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tokmakova2011HyperPar/doc/Tokmakova2011HyperPar.pdf Оценка гиперпараметров]
* [[Аппроксимация функции ошибки|Эмпирическая функция правдоподобия и аппроксимация Лапласа]]
* [[Аппроксимация функции ошибки|Эмпирическая функция правдоподобия и аппроксимация Лапласа]]
 +
* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part3%60ProblemStatement.pdf Постановка задач выбора моделей]
== Сравнение моделей ==
== Сравнение моделей ==
Строка 119: Строка 114:
* Оценка гиперпараметров
* Оценка гиперпараметров
* Мультиколлинеарность и случайные признаки
* Мультиколлинеарность и случайные признаки
 +
* Метод Белсли и анализ ковариационных матриц для нелинейных моделей
 +
* Оценка гиперпараметров для произвольной гипотезы порождения данных
== Практика ==
== Практика ==
Строка 148: Строка 145:
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
-
== Литература ==
+
== На будущее ==
 +
* [Сложность моделей]
 +
 
 +
* Оптимизация правдоподобия (из раздела выбор признаков)
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Версия 16:58, 2 декабря 2011

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.

Содержание

Введение

Линейные и существенно-нелинейные модели

Линейные методы

Обобщенно-линейные модели

Методы сэмплирования

  • Интегрирование Монте-Карло
  • Методы преобразования равномерного распределения
  • Сэмплирование с отклонением
  • Сэмплирование по значимости
  • Гиббсовское сэмплирование
  • Сэмплирование Метрополиса-Хастингса
  • Использование результатов

Критерии качества моделей

  • Отсутствие гипотезы порождения данных
  • Искусственные критерии качества моделей
  • МГУА
  • Скоринг и логистическая регрессия
  • Многокритериальный выбор моделей
  • Постановка задач многокритериальной оптимизации
  • Сведение многокритериальной оптимизации к однокритериальной (Weber)
  • Парето-оптимальный фронт
  • Алгоритмы многокритериальной оптимизации

Требования к моделям

Порождение моделей

  • Методы порождения моделей
  • Структурная сложность
  • Структурное расстояние
  • Порождение моделей МГУА
  • Порождение нейронных сетей и RBF
  • Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
  • Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом

Методы выбора признаков

  • Переборные алгоритмы
  • Регуляризация
  • Шаговая регрессия
  • Алгоритмы с регуляризацией
  • Алгоритмы направленного добавления FOS, Stagewise, LARS
  • Оптимальное прореживание

Сравнение моделей

Сравнение моделей

  • Графические модели
  • Байесовские сети
  • Расстояние Кулльбака-Лейблера
  • Вероятностная сходимость
  • Расстояние между моделями

Мультимоделирование и смеси экспертов

  • Байесовское усреднение моделей
  • Смеси распределений
  • Смеси линейных моделей
  • Смеси обобщенно-линейных моделей
  • Смеси экспертов
  • Иерархические модели
  • Инварианты в пространстве параметров моделей

Анализ ковариационных матриц

  • Гауссовские процессы
  • Байесовская регрессия - пространство данных и пространство параметров
  • Оценка гиперпараметров
  • Мультиколлинеарность и случайные признаки
  • Метод Белсли и анализ ковариационных матриц для нелинейных моделей
  • Оценка гиперпараметров для произвольной гипотезы порождения данных

Практика

Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».

Практику необходимо сдать до начала экзамена.

Экзамен

Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.

Практика

  • 28 сентября и 5 октября
  • 26 октября и 2 ноября
  • 23 и 30 ноября

Теория

  • 14 декабря 2011, группа 674, ауд. 355; список задач будет опубликован по окончании экзамена при условии полной явки.

История

Предшествующие программы и практические задания

Начиная с осени 2010 старая практика переносится в раздел

На будущее

  • [Сложность моделей]
  • Оптимизация правдоподобия (из раздела выбор признаков)
Личные инструменты