Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)

Версия 17:25, 2 декабря 2011

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.

Содержание

1 Введение
2 Линейные и существенно-нелинейные модели
3 Линейные методы
4 Обобщенно-линейные модели
5 Методы сэмплирования
6 Критерии качества моделей
7 Требования к моделям
8 Методы выбора признаков
9 Сравнение моделей
10 Мультимоделирование и смеси экспертов
11 Практика
12 Экзамен
13 История
14 На будущее
15 Не обсуждалось: Порождение моделей
16 Выпадает из курса, перенести в практику

Введение

Линейные и существенно-нелинейные модели

Линейные методы

Метод главных компонент
Максимальное правдоподобие МГК (К.С.)
Байесовский МГК (+)
МГК для нелинейных моделей (+)
Сингулярное разложение
Простой итерационный алгоритм сингулярного разложения

Обобщенно-линейные модели

Гипотеза порождения данных
Первый уровень Байесовского вывода (там же)
Логистическая регрессия
Метод Ньютона-Рафсона
Методы оценки параметров моделей

Методы сэмплирования

Интегрирование Монте-Карло
Методы преобразования равномерного распределения
Сэмплирование с отклонением
Сэмплирование по значимости
Гиббсовское сэмплирование
Сэмплирование Метрополиса-Хастингса
Использование результатов (М.Ю.)

Критерии качества моделей

(при отсутствии гипотезы порождения данных)

Искусственные критерии качества моделей (см. МГУА)
[ https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Strijov2010Scoring_ANE.pdf Скоринг и логистическая регрессия]

Требования к моделям

Методы выбора признаков

Переборные алгоритмы
МГУА
Регуляризация
Шаговая регрессия
Алгоритмы с регуляризацией
Алгоритмы направленного добавления FOS, Stagewise, LARS
Оптимальное прореживание

Сравнение моделей

Мультимоделирование и смеси экспертов

Байесовское усреднение моделей
Смеси распределений
Смеси линейных моделей
Смеси обобщенно-линейных моделей
Смеси экспертов
Иерархические модели
Инварианты в пространстве параметров моделей

Практика

Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».

Практику необходимо сдать до начала экзамена.

Подробнее: Группа 674, осень 2011

Экзамен

Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.

Практика

28 сентября и 5 октября
26 октября и 2 ноября
23 и 30 ноября

Теория

14 декабря 2011, группа 674, ауд. 355; список задач будет опубликован по окончании экзамена при условии полной явки.

История

Предшествующие программы и практические задания

Начиная с осени 2010 старая практика переносится в раздел

Численные методы обучения по прецедентам

На будущее

Сложность моделей (нужно ли)
Гауссовские процессы (нужно ли)
Оптимизация правдоподобия (после выхода работы)
Метод Белсли и анализ ковариационных матриц для нелинейных моделей (то же)
Оценка гиперпараметров для произвольной гипотезы порождения данных (то же)
Графические модели (нужно ли)
Байесовские сети
Расстояние Кулльбака-Лейблера
Расстояние между моделями (после выхода работы)

Не обсуждалось: Порождение моделей

Методы порождения моделей
Структурная сложность
Структурное расстояние
Порождение моделей МГУА
Порождение нейронных сетей и RBF
Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом

Выпадает из курса, перенести в практику

Многокритериальный выбор моделей
Постановка задач многокритериальной оптимизации
Сведение многокритериальной оптимизации к однокритериальной (Weber)
Парето-оптимальный фронт
Алгоритмы многокритериальной оптимизации

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%B8%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%BE%D0%B9_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_B.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29»

Категория: Учебные курсы

@@ Строка 24: / Строка 24: @@
 == Линейные методы ==
 * [[Метод главных компонент]]
-* Максимальное правдоподобие МГК
+* Максимальное правдоподобие МГК (К.С.)
-* Байесовский МГК
+* Байесовский МГК (+)
-* МГК для нелинейных моделей
+* МГК для нелинейных моделей (+)
 * [[Сингулярное разложение]]
 * [[Простой итерационный алгоритм сингулярного разложения]]
-* Пространства, порождаемые сингулярными векторами
-* Матричные нормы и обусловленность
-* Анализ сингулярных структур
 == Обобщенно-линейные модели ==
@@ Строка 41: / Строка 38: @@
 == Методы сэмплирования ==
-* Интегрирование Монте-Карло
+* [http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%9C%D0%BE%D0%BD%D1%82%D0%B5-%D0%9A%D0%B0%D1%80%D0%BB%D0%BE Интегрирование Монте-Карло]
 * Методы преобразования равномерного распределения
-* Сэмплирование с отклонением
+* [http://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B0_%D1%81_%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC Сэмплирование с отклонением]
-* Сэмплирование по значимости
+* [http://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B0_%D0%BF%D0%BE_%D0%B7%D0%BD%D0%B0%D1%87%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D0%B8 Сэмплирование по значимости]
-* Гиббсовское сэмплирование
+* [http://en.wikipedia.org/wiki/Gibbs_sampling Гиббсовское сэмплирование]
-* Сэмплирование Метрополиса-Хастингса
+* [http://en.wikipedia.org/wiki/Metropolis-Hastings_algorithm Сэмплирование Метрополиса-Хастингса]
-* Использование результатов
+* Использование результатов (М.Ю.)
 == Критерии качества моделей ==
-* Отсутствие гипотезы порождения данных
+(при отсутствии гипотезы порождения данных)
-* Искусственные критерии качества моделей
+* Искусственные критерии качества моделей (см. МГУА)
-* МГУА
+* [ https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Strijov2010Scoring_ANE.pdf Скоринг и логистическая регрессия]
-* Скоринг и логистическая регрессия
-* Многокритериальный выбор моделей
-* Постановка задач многокритериальной оптимизации
-* Сведение многокритериальной оптимизации к однокритериальной (Weber)
-* Парето-оптимальный фронт
-* Алгоритмы многокритериальной оптимизации
 == Требования к моделям ==
@@ Строка 67: / Строка 58: @@
 * [[Анализ мультиколлинеарности|Анализ мультиколлинеарности (пример)]]
 * [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)| пример]] и [[Статистический отчет при создании моделей|отчет]]
-== Порождение моделей ==
-* Методы порождения моделей
-* Структурная сложность
-* Структурное расстояние
-* Порождение моделей МГУА
-* Порождение нейронных сетей и RBF
-* Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
-* Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
 == [[Media:Strijov-Krymova10Model-Selection.pdf|Методы выбора признаков]]  ==
 * Переборные алгоритмы
+* МГУА
 * Регуляризация
 * Шаговая регрессия
@@ Строка 92: / Строка 75: @@
 * [[Аппроксимация функции ошибки|Эмпирическая функция правдоподобия и аппроксимация Лапласа]]
 * [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part3%60ProblemStatement.pdf Постановка задач выбора моделей]
-== Сравнение моделей ==
-* Графические модели
-* Байесовские сети
-* Расстояние Кулльбака-Лейблера
-* Вероятностная сходимость
-* Расстояние между моделями
 == Мультимоделирование и смеси экспертов  ==
@@ Строка 108: / Строка 84: @@
 * Иерархические модели
 * Инварианты в пространстве параметров моделей
-== Анализ ковариационных матриц ==
-* Гауссовские процессы
-* Байесовская регрессия - пространство данных и пространство параметров
-* Оценка гиперпараметров
-* Мультиколлинеарность и случайные признаки
-* Метод Белсли и анализ ковариационных матриц для нелинейных моделей
-* Оценка гиперпараметров для произвольной гипотезы порождения данных
 == Практика ==
@@ Строка 146: / Строка 114: @@
 == На будущее ==
-* [Сложность моделей]
+* Сложность моделей (нужно ли)
+* Гауссовские процессы (нужно ли)
+* Оптимизация правдоподобия (после выхода работы)
+* Метод Белсли и анализ ковариационных матриц для нелинейных моделей (то же)
+* Оценка гиперпараметров для произвольной гипотезы порождения данных (то же)
+* Графические модели (нужно ли)
+* Байесовские сети
+* Расстояние Кулльбака-Лейблера
+* Расстояние между моделями (после выхода работы)
-* Оптимизация правдоподобия (из раздела выбор признаков)
+== Не обсуждалось: Порождение моделей ==
+* Методы порождения моделей
+* Структурная сложность
+* Структурное расстояние
+* Порождение моделей МГУА
+* Порождение нейронных сетей и RBF
+* Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
+* Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
+== Выпадает из курса, перенести в практику ==
+* Многокритериальный выбор моделей
+* Постановка задач многокритериальной оптимизации
+* Сведение многокритериальной оптимизации к однокритериальной (Weber)
+* Парето-оптимальный фронт
+* Алгоритмы многокритериальной оптимизации
 [[Категория:Учебные курсы]]