Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Правки Strijov (обсуждение) откачены к версии Likz)
(Отмена правки № 19671 участника Strijov (обсуждение))
Строка 1: Строка 1:
-
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
+
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
-
Предполагается, что слушатели владеют материалом курса [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|«Численные методы обучения по прецедентам»]]
+
{{tip|Страница редактируется для группы 674 вплоть до 15 сентября 2011. --[[Участник:Strijov|Strijov]] 15:25, 21 июня 2011 (MSD)}}
-
 
+
-
{{tip|Страница редактируется для группы 674 вплоть до 7 сентября 2011. --[[Участник:Strijov|Strijov]] 15:25, 21 июня 2011 (MSD)}}
+
{{TOCright}}
{{TOCright}}
Строка 16: Строка 14:
* Экспертно-статистические методы
* Экспертно-статистические методы
-
== Линейные модели ==
+
== Линейные и существенно-нелинейные модели ==
* Линейная регрессия
* Линейная регрессия
* Метод наименьших квадратов
* Метод наименьших квадратов
Строка 27: Строка 25:
== Линейные методы ==
== Линейные методы ==
 +
* Метод главных компонент
 +
* Максимальное правдоподобие МГК
 +
* Байесовский МГК
 +
* МГК для нелинейных моделей
* Сингулярное разложение
* Сингулярное разложение
* Простой итерационный алгоритм сингулярного разложения
* Простой итерационный алгоритм сингулярного разложения
* Пространства, порождаемые сингулярными векторами
* Пространства, порождаемые сингулярными векторами
* Матричные нормы и обусловленность
* Матричные нормы и обусловленность
-
* Метод главных компонент
 
* Анализ сингулярных структур
* Анализ сингулярных структур
-
== Обобщенные линейные модели ==
+
== Обобщенно-линейные модели ==
* Гипотеза порождения данных
* Гипотеза порождения данных
* Логистическая регрессия
* Логистическая регрессия
Строка 40: Строка 41:
* Первый уровень Байесовского вывода
* Первый уровень Байесовского вывода
* Регуляризация
* Регуляризация
 +
* Оценка гиперпараметров для произвольной гипотезы порождения данных
 +
 +
== Методы сэмплирования ==
 +
* Интегрирование Монте-Карло
 +
* Методы преобразования равномерного распределения
 +
* Сэмплирование с отклонением
 +
* Сэмплирование по значимости
 +
* Гиббсовское сэмплирование
 +
* Сэмплирование Метрополиса-Хастингса
 +
* Использование результатов
== Критерии качества моделей ==
== Критерии качества моделей ==
-
* Отсутвие гипотезы порождения данных
+
* Отсутствие гипотезы порождения данных
* Искусственные критерии качества моделей
* Искусственные критерии качества моделей
* МГУА
* МГУА
Строка 48: Строка 59:
* Многокритериальный выбор моделей
* Многокритериальный выбор моделей
* Постановка задач многокритериальной оптимизации.
* Постановка задач многокритериальной оптимизации.
-
* Сведение многокритериальной опптимизации к однокритериальной (найти метод Вилли)
+
* Сведение многокритериальной оптимизации к однокритериальной (Weber)
* Парето-оптимальный фронт
* Парето-оптимальный фронт
* Алгоритмы многокритериальной оптимизации
* Алгоритмы многокритериальной оптимизации
== Требования к моделям ==
== Требования к моделям ==
-
* Анализ регрессионных оостатков
+
* Анализ регрессионных остатков
* Фактор инфляции дисперсии
* Фактор инфляции дисперсии
-
* Метод Белсли
 
* Сложность моделей
* Сложность моделей
* Устойчивость моделей
* Устойчивость моделей
 +
* Метод Белсли для линейных моделей
 +
* Метод Белсли и анализ ковариационных матриц для нелинейных моделей
== Порождение моделей ==
== Порождение моделей ==
Строка 65: Строка 77:
* Порождение моделей МГУА
* Порождение моделей МГУА
* Порождение нейронных сетей и RBF
* Порождение нейронных сетей и RBF
-
* Порождение всех допустимых моделей данного класса по возрастающей сложности (алгоритм последовательного порождения всевозможных моделей)
+
* Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
-
* Порождение моделей, принадлежащих заданному индуктивно-порождаемому набору (классу моделей) случайным образом
+
* Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
== Методы выбора признаков ==
== Методы выбора признаков ==
Строка 86: Строка 98:
== Сравнение моделей ==
== Сравнение моделей ==
* Графические модели
* Графические модели
 +
* Байесовские сети
* Расстояние Кулльбака-Лейблера
* Расстояние Кулльбака-Лейблера
* Вероятностная сходимость
* Вероятностная сходимость
-
* Расстояние между моделями.
+
* Расстояние между моделями
-
== Смесь экспертов ==
+
== Мультимоделирование и смеси экспертов ==
 +
* Байесовское усреднение моделей
 +
* Смеси распределений
 +
* Смеси линейных моделей
 +
* Смеси обобщенно-линейных моделей
 +
* Смеси экспертов
 +
* Иерархические модели
 +
* Инварианты в пространстве параметров моделей
-
== Методы сэмплирования ==
+
== Анализ ковариационных матриц ==
 +
* Гауссовские процессы
 +
* Байесовская регрессия - пространство данных и пространство параметров
 +
* Оценка гиперпараметров
 +
* Мультиколлинеарность и случайные признаки
 +
 
 +
== Практика ==
 +
Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию.
 +
Практика и доклад выполняются в формате [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|«Численные методы»]].
 +
 
 +
Практику необходимо сдать до начала экзамена.
 +
* Подробнее: [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 674, осень 2011 | Группа 674, осень 2011]]
== Экзамен ==
== Экзамен ==
-
Экзамен состоит из двух частей: доклад о выполнении практики и письменная работа по теории. Доклад выполняется в формате [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|"Численные методы"]]. Письменная работа состоит из 50 вопросов/задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов.
+
Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов.
 +
Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 83] дает 1 балл, а отрезок [84, 100] линейно отображается в отрезок [6,10].
'''Практика'''
'''Практика'''
-
* 7 декабря 2011, группа 674: список тем
+
* 29 сентября и 6 октября
 +
* 27 октября и 3 ноября
 +
* 24 ноября и 1 декабря
'''Теория'''
'''Теория'''
-
* 14 декабря 2011 группа 674: список задач
+
* 15 декабря 2011 группа 674: список задач будет опубликован по окончании экзамена при условии полной явки.
== История ==
== История ==
Строка 109: Строка 143:
* [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 274, осень 2007 | Группа 274, осень 2007]]
* [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 274, осень 2007 | Группа 274, осень 2007]]
* [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 174, осень 2006 | Группа 174, осень 2006]]
* [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 174, осень 2006 | Группа 174, осень 2006]]
-
 
+
Начиная с осени 2010 старая практика переносится в раздел
-
Начиная с осени 2010 практика по этому курсу переносится в раздел
+
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
-
== Основная литература ==
+
== Литература ==
-
 
+
-
== Дополнительная литература ==
+
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Версия 15:42, 6 сентября 2011

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.


Страница редактируется для группы 674 вплоть до 15 сентября 2011. --Strijov 15:25, 21 июня 2011 (MSD)


Содержание

Введение

  • Задача регрессионного анализа, терминология
  • Что такое регрессионная модель
  • Примеры постановки задач регрессионного анализа
  • Подстановки в линейных моделях
  • Авторегрессионные модели
  • Моделирование геометрических измерений
  • Моделирование в финансовой математике
  • Экспертно-статистические методы

Линейные и существенно-нелинейные модели

  • Линейная регрессия
  • Метод наименьших квадратов
  • Нелинейная регрессия
  • Основные модели нелинейной регрессии
  • Матрица Якоби и Гессе
  • Метод Ньютона
  • Алгоритм Левенберга-Марквардта
  • Ранговая регрессия

Линейные методы

  • Метод главных компонент
  • Максимальное правдоподобие МГК
  • Байесовский МГК
  • МГК для нелинейных моделей
  • Сингулярное разложение
  • Простой итерационный алгоритм сингулярного разложения
  • Пространства, порождаемые сингулярными векторами
  • Матричные нормы и обусловленность
  • Анализ сингулярных структур

Обобщенно-линейные модели

  • Гипотеза порождения данных
  • Логистическая регрессия
  • Метод Ньютона-Рафсона
  • Первый уровень Байесовского вывода
  • Регуляризация
  • Оценка гиперпараметров для произвольной гипотезы порождения данных

Методы сэмплирования

  • Интегрирование Монте-Карло
  • Методы преобразования равномерного распределения
  • Сэмплирование с отклонением
  • Сэмплирование по значимости
  • Гиббсовское сэмплирование
  • Сэмплирование Метрополиса-Хастингса
  • Использование результатов

Критерии качества моделей

  • Отсутствие гипотезы порождения данных
  • Искусственные критерии качества моделей
  • МГУА
  • Скоринг и логистическая регрессия.
  • Многокритериальный выбор моделей
  • Постановка задач многокритериальной оптимизации.
  • Сведение многокритериальной оптимизации к однокритериальной (Weber)
  • Парето-оптимальный фронт
  • Алгоритмы многокритериальной оптимизации

Требования к моделям

  • Анализ регрессионных остатков
  • Фактор инфляции дисперсии
  • Сложность моделей
  • Устойчивость моделей
  • Метод Белсли для линейных моделей
  • Метод Белсли и анализ ковариационных матриц для нелинейных моделей

Порождение моделей

  • Методы порождения моделей
  • Структурная сложность
  • Структурное расстояние
  • Порождение моделей МГУА
  • Порождение нейронных сетей и RBF
  • Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
  • Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом

Методы выбора признаков

  • Переборные алгоритмы
  • Шаговая регрессия
  • Алгоритмы с регуляризацией
  • Алгоритмы направленного добавления FOS, Stagewise, LARS
  • Оптимальное прореживание
  • Оптимизация правдоподобия

Сравнение моделей

  • Второй уровень Байесовского вывода
  • Фактор Оккама
  • Принцип минимальной длины описания
  • Аппроксимация Лапласа
  • Оценка гиперпараметров
  • Выбор базиса аппроксимации Лапласа

Сравнение моделей

  • Графические модели
  • Байесовские сети
  • Расстояние Кулльбака-Лейблера
  • Вероятностная сходимость
  • Расстояние между моделями

Мультимоделирование и смеси экспертов

  • Байесовское усреднение моделей
  • Смеси распределений
  • Смеси линейных моделей
  • Смеси обобщенно-линейных моделей
  • Смеси экспертов
  • Иерархические модели
  • Инварианты в пространстве параметров моделей

Анализ ковариационных матриц

  • Гауссовские процессы
  • Байесовская регрессия - пространство данных и пространство параметров
  • Оценка гиперпараметров
  • Мультиколлинеарность и случайные признаки

Практика

Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».

Практику необходимо сдать до начала экзамена.

Экзамен

Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 83] дает 1 балл, а отрезок [84, 100] линейно отображается в отрезок [6,10].

Практика

  • 29 сентября и 6 октября
  • 27 октября и 3 ноября
  • 24 ноября и 1 декабря

Теория

  • 15 декабря 2011 группа 674: список задач будет опубликован по окончании экзамена при условии полной явки.

История

Предшествующие программы и практические задания

Начиная с осени 2010 старая практика переносится в раздел

Литература

Личные инструменты