Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 24: Строка 24:
== Линейные методы ==
== Линейные методы ==
* [[Метод главных компонент]]
* [[Метод главных компонент]]
-
* Максимальное правдоподобие МГК
+
* Максимальное правдоподобие МГК (К.С.)
-
* Байесовский МГК
+
* Байесовский МГК (+)
-
* МГК для нелинейных моделей
+
* МГК для нелинейных моделей (+)
* [[Сингулярное разложение]]
* [[Сингулярное разложение]]
* [[Простой итерационный алгоритм сингулярного разложения]]
* [[Простой итерационный алгоритм сингулярного разложения]]
-
* Пространства, порождаемые сингулярными векторами
 
-
* Матричные нормы и обусловленность
 
-
* Анализ сингулярных структур
 
== Обобщенно-линейные модели ==
== Обобщенно-линейные модели ==
Строка 41: Строка 38:
== Методы сэмплирования ==
== Методы сэмплирования ==
-
* Интегрирование Монте-Карло
+
* [http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%9C%D0%BE%D0%BD%D1%82%D0%B5-%D0%9A%D0%B0%D1%80%D0%BB%D0%BE Интегрирование Монте-Карло]
* Методы преобразования равномерного распределения
* Методы преобразования равномерного распределения
-
* Сэмплирование с отклонением
+
* [http://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B0_%D1%81_%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC Сэмплирование с отклонением]
-
* Сэмплирование по значимости
+
* [http://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B0_%D0%BF%D0%BE_%D0%B7%D0%BD%D0%B0%D1%87%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D0%B8 Сэмплирование по значимости]
-
* Гиббсовское сэмплирование
+
* [http://en.wikipedia.org/wiki/Gibbs_sampling Гиббсовское сэмплирование]
-
* Сэмплирование Метрополиса-Хастингса
+
* [http://en.wikipedia.org/wiki/Metropolis-Hastings_algorithm Сэмплирование Метрополиса-Хастингса]
-
* Использование результатов
+
* Использование результатов (М.Ю.)
== Критерии качества моделей ==
== Критерии качества моделей ==
-
* Отсутствие гипотезы порождения данных
+
(при отсутствии гипотезы порождения данных)
-
* Искусственные критерии качества моделей
+
* Искусственные критерии качества моделей (см. МГУА)
-
* МГУА
+
* [ https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Strijov2010Scoring_ANE.pdf Скоринг и логистическая регрессия]
-
* Скоринг и логистическая регрессия
+
-
* Многокритериальный выбор моделей
+
-
* Постановка задач многокритериальной оптимизации
+
-
* Сведение многокритериальной оптимизации к однокритериальной (Weber)
+
-
* Парето-оптимальный фронт
+
-
* Алгоритмы многокритериальной оптимизации
+
== Требования к моделям ==
== Требования к моделям ==
Строка 67: Строка 58:
* [[Анализ мультиколлинеарности|Анализ мультиколлинеарности (пример)]]
* [[Анализ мультиколлинеарности|Анализ мультиколлинеарности (пример)]]
* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)| пример]] и [[Статистический отчет при создании моделей|отчет]]
* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)| пример]] и [[Статистический отчет при создании моделей|отчет]]
-
 
-
== Порождение моделей ==
 
-
* Методы порождения моделей
 
-
* Структурная сложность
 
-
* Структурное расстояние
 
-
* Порождение моделей МГУА
 
-
* Порождение нейронных сетей и RBF
 
-
* Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
 
-
* Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
 
== [[Media:Strijov-Krymova10Model-Selection.pdf|Методы выбора признаков]] ==
== [[Media:Strijov-Krymova10Model-Selection.pdf|Методы выбора признаков]] ==
* Переборные алгоритмы
* Переборные алгоритмы
 +
* МГУА
* Регуляризация
* Регуляризация
* Шаговая регрессия
* Шаговая регрессия
Строка 92: Строка 75:
* [[Аппроксимация функции ошибки|Эмпирическая функция правдоподобия и аппроксимация Лапласа]]
* [[Аппроксимация функции ошибки|Эмпирическая функция правдоподобия и аппроксимация Лапласа]]
* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part3%60ProblemStatement.pdf Постановка задач выбора моделей]
* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part3%60ProblemStatement.pdf Постановка задач выбора моделей]
-
 
-
== Сравнение моделей ==
 
-
* Графические модели
 
-
* Байесовские сети
 
-
* Расстояние Кулльбака-Лейблера
 
-
* Вероятностная сходимость
 
-
* Расстояние между моделями
 
== Мультимоделирование и смеси экспертов ==
== Мультимоделирование и смеси экспертов ==
Строка 108: Строка 84:
* Иерархические модели
* Иерархические модели
* Инварианты в пространстве параметров моделей
* Инварианты в пространстве параметров моделей
-
 
-
== Анализ ковариационных матриц ==
 
-
* Гауссовские процессы
 
-
* Байесовская регрессия - пространство данных и пространство параметров
 
-
* Оценка гиперпараметров
 
-
* Мультиколлинеарность и случайные признаки
 
-
* Метод Белсли и анализ ковариационных матриц для нелинейных моделей
 
-
* Оценка гиперпараметров для произвольной гипотезы порождения данных
 
== Практика ==
== Практика ==
Строка 146: Строка 114:
== На будущее ==
== На будущее ==
-
* [Сложность моделей]
+
* Сложность моделей (нужно ли)
 +
* Гауссовские процессы (нужно ли)
 +
* Оптимизация правдоподобия (после выхода работы)
 +
* Метод Белсли и анализ ковариационных матриц для нелинейных моделей (то же)
 +
* Оценка гиперпараметров для произвольной гипотезы порождения данных (то же)
 +
* Графические модели (нужно ли)
 +
* Байесовские сети
 +
* Расстояние Кулльбака-Лейблера
 +
* Расстояние между моделями (после выхода работы)
-
* Оптимизация правдоподобия (из раздела выбор признаков)
+
== Не обсуждалось: Порождение моделей ==
 +
* Методы порождения моделей
 +
* Структурная сложность
 +
* Структурное расстояние
 +
* Порождение моделей МГУА
 +
* Порождение нейронных сетей и RBF
 +
* Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
 +
* Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
 +
 
 +
== Выпадает из курса, перенести в практику ==
 +
* Многокритериальный выбор моделей
 +
* Постановка задач многокритериальной оптимизации
 +
* Сведение многокритериальной оптимизации к однокритериальной (Weber)
 +
* Парето-оптимальный фронт
 +
* Алгоритмы многокритериальной оптимизации
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Версия 17:25, 2 декабря 2011

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.

Содержание

Введение

Линейные и существенно-нелинейные модели

Линейные методы

Обобщенно-линейные модели

Методы сэмплирования

Критерии качества моделей

(при отсутствии гипотезы порождения данных)

Требования к моделям

Методы выбора признаков

  • Переборные алгоритмы
  • МГУА
  • Регуляризация
  • Шаговая регрессия
  • Алгоритмы с регуляризацией
  • Алгоритмы направленного добавления FOS, Stagewise, LARS
  • Оптимальное прореживание

Сравнение моделей

Мультимоделирование и смеси экспертов

  • Байесовское усреднение моделей
  • Смеси распределений
  • Смеси линейных моделей
  • Смеси обобщенно-линейных моделей
  • Смеси экспертов
  • Иерархические модели
  • Инварианты в пространстве параметров моделей

Практика

Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».

Практику необходимо сдать до начала экзамена.

Экзамен

Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.

Практика

  • 28 сентября и 5 октября
  • 26 октября и 2 ноября
  • 23 и 30 ноября

Теория

  • 14 декабря 2011, группа 674, ауд. 355; список задач будет опубликован по окончании экзамена при условии полной явки.

История

Предшествующие программы и практические задания

Начиная с осени 2010 старая практика переносится в раздел

На будущее

  • Сложность моделей (нужно ли)
  • Гауссовские процессы (нужно ли)
  • Оптимизация правдоподобия (после выхода работы)
  • Метод Белсли и анализ ковариационных матриц для нелинейных моделей (то же)
  • Оценка гиперпараметров для произвольной гипотезы порождения данных (то же)
  • Графические модели (нужно ли)
  • Байесовские сети
  • Расстояние Кулльбака-Лейблера
  • Расстояние между моделями (после выхода работы)

Не обсуждалось: Порождение моделей

  • Методы порождения моделей
  • Структурная сложность
  • Структурное расстояние
  • Порождение моделей МГУА
  • Порождение нейронных сетей и RBF
  • Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
  • Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом

Выпадает из курса, перенести в практику

  • Многокритериальный выбор моделей
  • Постановка задач многокритериальной оптимизации
  • Сведение многокритериальной оптимизации к однокритериальной (Weber)
  • Парето-оптимальный фронт
  • Алгоритмы многокритериальной оптимизации
Личные инструменты