Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Требования к моделям)
Строка 68: Строка 68:
* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)|пример]]
* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)|пример]]
* [[Фактор инфляции дисперсии]]
* [[Фактор инфляции дисперсии]]
-
* Сложность моделей
+
* [[|Исследование устойчивости оценок ковариационной матрицы параметров|Устойчивость моделей]]
-
* Устойчивость моделей
+
* [[Метод Белсли]]
* [[Метод Белсли]]
* [[Анализ мультиколлинеарности|Анализ мультиколлинеарности (пример)]]
* [[Анализ мультиколлинеарности|Анализ мультиколлинеарности (пример)]]
-
* Метод Белсли и анализ ковариационных матриц для нелинейных моделей
 
* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)| пример]] и [[Статистический отчет при создании моделей|отчет]]
* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)| пример]] и [[Статистический отчет при создании моделей|отчет]]
-
 
== Порождение моделей ==
== Порождение моделей ==

Версия 16:11, 2 декабря 2011

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.

Лекции: слайды

Содержание

Введение

Линейные и существенно-нелинейные модели

Линейные методы

Обобщенно-линейные модели

Методы сэмплирования

  • Интегрирование Монте-Карло
  • Методы преобразования равномерного распределения
  • Сэмплирование с отклонением
  • Сэмплирование по значимости
  • Гиббсовское сэмплирование
  • Сэмплирование Метрополиса-Хастингса
  • Использование результатов

Критерии качества моделей

  • Отсутствие гипотезы порождения данных
  • Искусственные критерии качества моделей
  • МГУА
  • Скоринг и логистическая регрессия
  • Многокритериальный выбор моделей
  • Постановка задач многокритериальной оптимизации
  • Сведение многокритериальной оптимизации к однокритериальной (Weber)
  • Парето-оптимальный фронт
  • Алгоритмы многокритериальной оптимизации

Требования к моделям

Порождение моделей

  • Методы порождения моделей
  • Структурная сложность
  • Структурное расстояние
  • Порождение моделей МГУА
  • Порождение нейронных сетей и RBF
  • Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
  • Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом

Методы выбора признаков

  • Переборные алгоритмы
  • Шаговая регрессия
  • Алгоритмы с регуляризацией
  • Алгоритмы направленного добавления FOS, Stagewise, LARS
  • Оптимальное прореживание
  • Оптимизация правдоподобия

Сравнение моделей

Сравнение моделей

  • Графические модели
  • Байесовские сети
  • Расстояние Кулльбака-Лейблера
  • Вероятностная сходимость
  • Расстояние между моделями

Мультимоделирование и смеси экспертов

  • Байесовское усреднение моделей
  • Смеси распределений
  • Смеси линейных моделей
  • Смеси обобщенно-линейных моделей
  • Смеси экспертов
  • Иерархические модели
  • Инварианты в пространстве параметров моделей

Анализ ковариационных матриц

  • Гауссовские процессы
  • Байесовская регрессия - пространство данных и пространство параметров
  • Оценка гиперпараметров
  • Мультиколлинеарность и случайные признаки

Практика

Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».

Практику необходимо сдать до начала экзамена.

Экзамен

Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.

Практика

  • 28 сентября и 5 октября
  • 26 октября и 2 ноября
  • 23 и 30 ноября

Теория

  • 14 декабря 2011, группа 674, ауд. 355; список задач будет опубликован по окончании экзамена при условии полной явки.

История

Предшествующие программы и практические задания

Начиная с осени 2010 старая практика переносится в раздел

Литература

Личные инструменты