Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Экзамен)
м (Правки Strijov (обсуждение) откачены к версии Likz)
Строка 1: Строка 1:
-
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
+
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
-
{{tip|Страница редактируется для группы 674 вплоть до 15 сентября 2011. --[[Участник:Strijov|Strijov]] 15:25, 21 июня 2011 (MSD)}}
+
Предполагается, что слушатели владеют материалом курса [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|«Численные методы обучения по прецедентам»]]
 +
 
 +
{{tip|Страница редактируется для группы 674 вплоть до 7 сентября 2011. --[[Участник:Strijov|Strijov]] 15:25, 21 июня 2011 (MSD)}}
{{TOCright}}
{{TOCright}}
Строка 14: Строка 16:
* Экспертно-статистические методы
* Экспертно-статистические методы
-
== Линейные и существенно-нелинейные модели ==
+
== Линейные модели ==
* Линейная регрессия
* Линейная регрессия
* Метод наименьших квадратов
* Метод наименьших квадратов
Строка 25: Строка 27:
== Линейные методы ==
== Линейные методы ==
-
* Метод главных компонент
 
-
* Максимальное правдоподобие МГК
 
-
* Байесовский МГК
 
-
* МГК для нелинейных моделей
 
* Сингулярное разложение
* Сингулярное разложение
* Простой итерационный алгоритм сингулярного разложения
* Простой итерационный алгоритм сингулярного разложения
* Пространства, порождаемые сингулярными векторами
* Пространства, порождаемые сингулярными векторами
* Матричные нормы и обусловленность
* Матричные нормы и обусловленность
 +
* Метод главных компонент
* Анализ сингулярных структур
* Анализ сингулярных структур
-
== Обобщенно-линейные модели ==
+
== Обобщенные линейные модели ==
* Гипотеза порождения данных
* Гипотеза порождения данных
* Логистическая регрессия
* Логистическая регрессия
Строка 41: Строка 40:
* Первый уровень Байесовского вывода
* Первый уровень Байесовского вывода
* Регуляризация
* Регуляризация
-
* Оценка гиперпараметров для произвольной гипотезы порождения данных
 
-
 
-
== Методы сэмплирования ==
 
-
* Интегрирование Монте-Карло
 
-
* Методы преобразования равномерного распределения
 
-
* Сэмплирование с отклонением
 
-
* Сэмплирование по значимости
 
-
* Гиббсовское сэмплирование
 
-
* Сэмплирование Метрополиса-Хастингса
 
-
* Использование результатов
 
== Критерии качества моделей ==
== Критерии качества моделей ==
-
* Отсутствие гипотезы порождения данных
+
* Отсутвие гипотезы порождения данных
* Искусственные критерии качества моделей
* Искусственные критерии качества моделей
* МГУА
* МГУА
Строка 59: Строка 48:
* Многокритериальный выбор моделей
* Многокритериальный выбор моделей
* Постановка задач многокритериальной оптимизации.
* Постановка задач многокритериальной оптимизации.
-
* Сведение многокритериальной оптимизации к однокритериальной (Weber)
+
* Сведение многокритериальной опптимизации к однокритериальной (найти метод Вилли)
* Парето-оптимальный фронт
* Парето-оптимальный фронт
* Алгоритмы многокритериальной оптимизации
* Алгоритмы многокритериальной оптимизации
== Требования к моделям ==
== Требования к моделям ==
-
* Анализ регрессионных остатков
+
* Анализ регрессионных оостатков
* Фактор инфляции дисперсии
* Фактор инфляции дисперсии
 +
* Метод Белсли
* Сложность моделей
* Сложность моделей
* Устойчивость моделей
* Устойчивость моделей
-
* Метод Белсли для линейных моделей
 
-
* Метод Белсли и анализ ковариационных матриц для нелинейных моделей
 
== Порождение моделей ==
== Порождение моделей ==
Строка 77: Строка 65:
* Порождение моделей МГУА
* Порождение моделей МГУА
* Порождение нейронных сетей и RBF
* Порождение нейронных сетей и RBF
-
* Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
+
* Порождение всех допустимых моделей данного класса по возрастающей сложности (алгоритм последовательного порождения всевозможных моделей)
-
* Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
+
* Порождение моделей, принадлежащих заданному индуктивно-порождаемому набору (классу моделей) случайным образом
== Методы выбора признаков ==
== Методы выбора признаков ==
Строка 98: Строка 86:
== Сравнение моделей ==
== Сравнение моделей ==
* Графические модели
* Графические модели
-
* Байесовские сети
 
* Расстояние Кулльбака-Лейблера
* Расстояние Кулльбака-Лейблера
* Вероятностная сходимость
* Вероятностная сходимость
-
* Расстояние между моделями
+
* Расстояние между моделями.
-
== Мультимоделирование и смеси экспертов ==
+
== Смесь экспертов ==
-
* Байесовское усреднение моделей
+
-
* Смеси распределений
+
-
* Смеси линейных моделей
+
-
* Смеси обобщенно-линейных моделей
+
-
* Смеси экспертов
+
-
* Иерархические модели
+
-
* Инварианты в пространстве параметров моделей
+
-
== Анализ ковариационных матриц ==
+
== Методы сэмплирования ==
-
* Гауссовские процессы
+
-
* Байесовская регрессия - пространство данных и пространство параметров
+
-
* Оценка гиперпараметров
+
-
* Мультиколлинеарность и случайные признаки
+
-
== Практика ==
 
-
Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию.
 
-
Практика и доклад выполняются в формате [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|«Численные методы»]].
 
-
* Подробнее: [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 674, осень 2011 | Группа 674, осень 2011]]
 
== Экзамен ==
== Экзамен ==
-
Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов.
+
Экзамен состоит из двух частей: доклад о выполнении практики и письменная работа по теории. Доклад выполняется в формате [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|"Численные методы"]]. Письменная работа состоит из 50 вопросов/задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов.
-
Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 83] дает 1 балл, а отрезок [84, 100] линейно отображается в отрезок [6,10].
+
'''Практика'''
'''Практика'''
-
* 29 сентября и 6 октября
+
* 7 декабря 2011, группа 674: список тем
-
* 27 октября и 3 ноября
+
-
* 24 ноября и 1 декабря
+
'''Теория'''
'''Теория'''
-
* 15 декабря 2011 группа 674: список задач будет опубликован по окончании экзамена при условии полной явки.
+
* 14 декабря 2011 группа 674: список задач
== История ==
== История ==
Строка 140: Строка 109:
* [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 274, осень 2007 | Группа 274, осень 2007]]
* [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 274, осень 2007 | Группа 274, осень 2007]]
* [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 174, осень 2006 | Группа 174, осень 2006]]
* [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 174, осень 2006 | Группа 174, осень 2006]]
-
Начиная с осени 2010 старая практика переносится в раздел
+
 
 +
Начиная с осени 2010 практика по этому курсу переносится в раздел
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
-
== Литература ==
+
== Основная литература ==
 +
 
 +
== Дополнительная литература ==
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Версия 15:36, 6 сентября 2011

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.

Предполагается, что слушатели владеют материалом курса «Численные методы обучения по прецедентам»


Страница редактируется для группы 674 вплоть до 7 сентября 2011. --Strijov 15:25, 21 июня 2011 (MSD)


Содержание

Введение

  • Задача регрессионного анализа, терминология
  • Что такое регрессионная модель
  • Примеры постановки задач регрессионного анализа
  • Подстановки в линейных моделях
  • Авторегрессионные модели
  • Моделирование геометрических измерений
  • Моделирование в финансовой математике
  • Экспертно-статистические методы

Линейные модели

  • Линейная регрессия
  • Метод наименьших квадратов
  • Нелинейная регрессия
  • Основные модели нелинейной регрессии
  • Матрица Якоби и Гессе
  • Метод Ньютона
  • Алгоритм Левенберга-Марквардта
  • Ранговая регрессия

Линейные методы

  • Сингулярное разложение
  • Простой итерационный алгоритм сингулярного разложения
  • Пространства, порождаемые сингулярными векторами
  • Матричные нормы и обусловленность
  • Метод главных компонент
  • Анализ сингулярных структур

Обобщенные линейные модели

  • Гипотеза порождения данных
  • Логистическая регрессия
  • Метод Ньютона-Рафсона
  • Первый уровень Байесовского вывода
  • Регуляризация

Критерии качества моделей

  • Отсутвие гипотезы порождения данных
  • Искусственные критерии качества моделей
  • МГУА
  • Скоринг и логистическая регрессия.
  • Многокритериальный выбор моделей
  • Постановка задач многокритериальной оптимизации.
  • Сведение многокритериальной опптимизации к однокритериальной (найти метод Вилли)
  • Парето-оптимальный фронт
  • Алгоритмы многокритериальной оптимизации

Требования к моделям

  • Анализ регрессионных оостатков
  • Фактор инфляции дисперсии
  • Метод Белсли
  • Сложность моделей
  • Устойчивость моделей

Порождение моделей

  • Методы порождения моделей
  • Структурная сложность
  • Структурное расстояние
  • Порождение моделей МГУА
  • Порождение нейронных сетей и RBF
  • Порождение всех допустимых моделей данного класса по возрастающей сложности (алгоритм последовательного порождения всевозможных моделей)
  • Порождение моделей, принадлежащих заданному индуктивно-порождаемому набору (классу моделей) случайным образом

Методы выбора признаков

  • Переборные алгоритмы
  • Шаговая регрессия
  • Алгоритмы с регуляризацией
  • Алгоритмы направленного добавления FOS, Stagewise, LARS
  • Оптимальное прореживание
  • Оптимизация правдоподобия

Сравнение моделей

  • Второй уровень Байесовского вывода
  • Фактор Оккама
  • Принцип минимальной длины описания
  • Аппроксимация Лапласа
  • Оценка гиперпараметров
  • Выбор базиса аппроксимации Лапласа

Сравнение моделей

  • Графические модели
  • Расстояние Кулльбака-Лейблера
  • Вероятностная сходимость
  • Расстояние между моделями.

Смесь экспертов

Методы сэмплирования

Экзамен

Экзамен состоит из двух частей: доклад о выполнении практики и письменная работа по теории. Доклад выполняется в формате "Численные методы". Письменная работа состоит из 50 вопросов/задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов.

Практика

  • 7 декабря 2011, группа 674: список тем

Теория

  • 14 декабря 2011 группа 674: список задач

История

Предшествующие программы и практические задания

Начиная с осени 2010 практика по этому курсу переносится в раздел

Основная литература

Дополнительная литература

Личные инструменты