Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

Перейти к: навигация, поиск

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.

Содержание

Введение

Линейные и существенно-нелинейные модели

Линейные методы

Обобщенно-линейные модели

Методы сэмплирования

  • Интегрирование Монте-Карло
  • Методы преобразования равномерного распределения
  • Сэмплирование с отклонением
  • Сэмплирование по значимости
  • Гиббсовское сэмплирование
  • Сэмплирование Метрополиса-Хастингса
  • Использование результатов

Критерии качества моделей

  • Отсутствие гипотезы порождения данных
  • Искусственные критерии качества моделей
  • МГУА
  • Скоринг и логистическая регрессия
  • Многокритериальный выбор моделей
  • Постановка задач многокритериальной оптимизации
  • Сведение многокритериальной оптимизации к однокритериальной (Weber)
  • Парето-оптимальный фронт
  • Алгоритмы многокритериальной оптимизации

Требования к моделям

Порождение моделей

  • Методы порождения моделей
  • Структурная сложность
  • Структурное расстояние
  • Порождение моделей МГУА
  • Порождение нейронных сетей и RBF
  • Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
  • Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом

Методы выбора признаков

  • Переборные алгоритмы
  • Регуляризация
  • Шаговая регрессия
  • Алгоритмы с регуляризацией
  • Алгоритмы направленного добавления FOS, Stagewise, LARS
  • Оптимальное прореживание

Сравнение моделей

Сравнение моделей

  • Графические модели
  • Байесовские сети
  • Расстояние Кулльбака-Лейблера
  • Вероятностная сходимость
  • Расстояние между моделями

Мультимоделирование и смеси экспертов

  • Байесовское усреднение моделей
  • Смеси распределений
  • Смеси линейных моделей
  • Смеси обобщенно-линейных моделей
  • Смеси экспертов
  • Иерархические модели
  • Инварианты в пространстве параметров моделей

Анализ ковариационных матриц

  • Гауссовские процессы
  • Байесовская регрессия - пространство данных и пространство параметров
  • Оценка гиперпараметров
  • Мультиколлинеарность и случайные признаки
  • Метод Белсли и анализ ковариационных матриц для нелинейных моделей
  • Оценка гиперпараметров для произвольной гипотезы порождения данных

Практика

Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».

Практику необходимо сдать до начала экзамена.

Экзамен

Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.

Практика

  • 28 сентября и 5 октября
  • 26 октября и 2 ноября
  • 23 и 30 ноября

Теория

  • 14 декабря 2011, группа 674, ауд. 355; список задач будет опубликован по окончании экзамена при условии полной явки.

История

Предшествующие программы и практические задания

Начиная с осени 2010 старая практика переносится в раздел

На будущее

  • [Сложность моделей]
  • Оптимизация правдоподобия (из раздела выбор признаков)
Личные инструменты