Прикладной регрессионный анализ (курс лекций, B.В.Стрижов, 2008)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Текущая версия (16:04, 20 сентября 2010) (править) (отменить)
 
Строка 1: Строка 1:
-
{{TOCright}}
+
#REDIRECT [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 374, осень 2008]]
-
'''Московский физико-технический институт, Факультет управления и прикладной математики'''
+
-
 
+
-
Курс читается студентам 6-го курса кафедры "Интеллектуальные системы", специализация: "Интеллектуальный анализ данных", группа 374-а.
+
-
 
+
-
== Аннотация ==
+
-
Курс лекций включает теоретические и прикладные аспекты
+
-
создания моделей нелинейной регрессии и алгоритмов оптимизации
+
-
качества этих моделей. Рассматриваются современные алгоритмы
+
-
индуктивного порождения регрессионных моделей. Приводятся примеры использования алгоритмов при решении
+
-
прикладных задач в финансовой математике, экологии и медицине.
+
-
 
+
-
== Организационная часть ==
+
-
Семестровый курс содержит 32 часа лекций и 32 часа практических занятий.
+
-
В ходе лекций будут объявляться темы практических заданий.
+
-
После выбора темы обсуждаются требования к работе.
+
-
До начала экзамена нужно сдать все задания по практике.
+
-
Экзамен состоит из теоретических вопросов и задач.
+
-
 
+
-
== Дополнительный материал ==
+
-
* [http://strijov.com/teaching/article3.php Курс лекций 2006, план лекций и примеры]
+
-
* [http://strijov.com/teaching/index.php Курс лекций 2007, примеры задач практикума и материалы для самоподготовки]
+
-
* [http://strijov.com/sources/examples.php Примеры решения задач регрессионного анализа]
+
-
 
+
-
== Задачи для самостоятельного решения ==
+
-
'''Задачи вынесены из курса лекций, так как решались ранее в курсах линейной алгебры или математической статистики
+
-
'''
+
-
# Вывести нормальное уравнение МНК через квадратичную оптимизацию.
+
-
# Вывести нормальное уравнение через проекцию на пространство столбцов матрицы.
+
-
# Показать что матрица, проектирующая вектор на свое пространство столбцов симметрична и идемпотентна.
+
-
# Показать что если матрица удовлетворяет условиям задачи 3, то она проектирует вектор на свое пространство столбцов (доп.).
+
-
# Показать что матрица <tex>A^TA</tex> симметрична и положительно определена.
+
-
# Сколько мономов полинома Колмогорова-Габора от <tex>m</tex> переменных имеют степень не превосходящую <tex>R</tex> (с повторами переменных в мономах и без повторов)?
+
-
# Показать, что оценки интегральных индикаторов и весов показателей, полученные альфа-согласованием являются согласованными.
+
-
# Вывести оценку весов показателей гамма-согласования как минимум суммы квадратов расстояний между выставленной и вычисленной оценками в пространствах оценок интегральных индикаторов и весов показателей.
+
-
# Показать, что сингулярные числа матрицы <tex>A</tex> — это длины осей эллипсоида, заданного множеством <tex>\{A\mathbf{x}: \|\mathbf{x}\|=1\}</tex>.
+
-
# Показать, что первое сингулярное число матрицы — это ее Евклидова норма.
+
-
# Показать, что число обусловленности матрицы <tex>A^TA</tex> есть квадрат числа обусловленности матрицы <tex>A</tex>. Заметка: число обусловленности матрицы — <tex>\kappa(A)=\|A\| \|A^{-1}\|</tex> есть отношение первого сингулярного числа к последнему, <tex>\kappa(A)=\lambda_1/\lambda_n</tex>.
+
-
# Записать алгоритм итеративого нахождения сингулярного разложения.
+
-
 
+
-
'''Задачи на понимание методов регрессионного анализа'''
+
-
# Дана выборка - множество <tex>\{(u_i,v_i)\}, i=1,\ldots,M</tex> измерений координат окружности <tex>(O,r)</tex>, где <tex>O=(u_O, v_O)</tex>, выполненных с некоторой случайной аддитивной ошибкой. Требуется методом наименьших квадратов найти центр и радиус этой окружности.
+
-
# (продолжение) Применим ли метод решения этой задачи для сферы?
+
-
# (продолжение) Есть измерения координат границ плоских и объемных физических тел (несложной формы), сделанные с ошибкой. Предложите примеры моделирования форм этих тел с помощью методов наименьших квадратов.
+
-
# Даны два вектора <tex>\mathbf{u}, \mathbf{v}</tex> в пространстве <tex>\mathbb{R}^N</tex>. Требуется приблизить вектор <tex>\mathbf{v}</tex> вектором <tex>\mathbf{u}</tex>, так что <tex>\|\mathbf{u}-f(\mathbf{w},\mathbf{v})\|^2\to\min</tex>. Поставить и решить задачу линейной регрессии (пусть модель будет квадратичным полиномом, <tex>\mathbf{w}</tex> - вектор параметров).
+
-
 
+
-
== Рекомендуемые примеры ==
+
-
# [[Matlab|Часто используемые конструкции языка m]]
+
-
# [http://strijov.com/sources/report_example.php Советы по оформлению отчетов]
+
-
# [http://strijov.com/sources/demo_least_squares_fit.php Метод наименьших квадратов]
+
-
# [http://strijov.com/files/mvr61.zip MVR Composer, порождение нелинейных регрессионых моделей]
+
-
 
+
-
== Задания для практических занятий ==
+
-
 
+
-
'''Общие требования'''
+
-
# Поставить задачу и описать алгоритм в математической нотации. Результат&nbsp;— файл tex или doc, 1-2 страницы.
+
-
# Написать алгоритм, протестировать, документировать код ([[Документирование функций Matlab|см. пример]]). Алгоритм запускается из файла отчета. Совет: при создании алгоритма желательно использовать существующие функции и код, написанный ранее. Результат&nbsp;— набор документированных функций.
+
-
# Выполнить вычислительный эксперимент (исходные данные и условия оговариваются отдельно), сделать отчет ([[Медиа:Report_example_ru.pdf|см. пример]]). Результат&nbsp; — файл pdf.
+
-
# Сдать задание с таким расчетом, чтобы получить рецензию и успеть исправить недочеты до экзамена (конец декабря). Результат&nbsp;— положительная рецензия и допуск к экзамену.
+
-
 
+
-
=== Задание 1 ===
+
-
Прогнозирование временного ряда. Дан многомерный временной ряд, в котором один остчет времени соответствует одному часу. Известно, что ряд имеет три периода: 24, 7*24, 365*24. Требуется построить алгоритм прогноза на 24 отсчета вперед.
+
-
Прогноз выполняется с помощью линейной регрессии. Дополнительно используется библиотека нелинейных безпараметрических преобразований свободных переменных. Свободные переменные (признаки) выбираются с помощью многорядного МГУА. При выполнении вычислительного эксперимента необходимо выбрать несколько лучших моделей и сравнить прогнозы, сделанные с их помощью. Для этого вычисляется ошибка на прогнозе и строится график. (Исходные данные и список библиотечных функций по запросу).
+
-
 
+
-
''Выполняет Михаил Шавловский''
+
-
 
+
-
=== Задание 2 ===
+
-
[[Конструктивное построение множества суперпозиций]]
+
-
 
+
-
''Выполняет Юрий Максимов''
+
-
 
+
-
=== Задание 3 ===
+
-
Выбор признаков при построении скоринговых карт кредитного займа. Дана выборка — набор векторов описаний клиентов. Признаки (элементы вектора описаний) могут быть в линейных или ранговых шкалах. Указана принадлежность каждого клиента к классу — «вернул» или «не вернул» кредит. Требуется найти набор признаков, который доставляет максимум критерию качества классификации. Поиск выполняется с помощью генетического оптимизационного алгоритма. Параметры алгоритма заданы. Качество классификации — сумма квадратов невязок — определяется на тестовой выборке с усреднением по заданному числу разбиений. Отношение числа элементов обучающей выборки к тестовой задано. (Исходные данные по запросу).
+
-
 
+
-
''Выполняет Алексей Куракин''
+
-
 
+
-
=== Задание 4 ===
+
-
Даны три выборки, в которых одна свободная и одна зависимая переменная.
+
-
# Известно, что зависимость переменных во всех трех выборках описывается с помощью некоторой многомерной линейной регрессионной модели.
+
-
# Известно, что модель содержит некоторые мономы не более 3-й степени от свободной переменной, ее тангенса, экспоненты и синуса (т.е. имеется <tex>2^{14}</tex> моделей-претендентов).
+
-
# Известно, что зависимая переменная есть случайная величина с матожиданием <tex>E(y|x)</tex>, ее распределение принадлежит экспоненциальному семейству, в частности одному из трех:
+
-
#* гамма-распределению с обратной функцией связи,
+
-
#* нормальному распределению и тривиальной функцией связи,
+
-
#* нормальному распределению с функцией <tex>\sqrt(y)=X\mathbf{w}</tex>.
+
-
Требуется указать модель, которая описывает зависимости выборок, найти ее параметры, и указать распределение зависимой переменной каждой выборки. (Исходные данные по запросу).
+
-
 
+
-
''Выполняет Расул Тутунов''
+
-
 
+
-
== План лекций ==
+
-
 
+
-
=== Лекция 1. Введение ===
+
-
Организация курса, организация практических занятий, план лекций,
+
-
обзор литературы по предмету, обзор программного обеспечения, введение в программирование задач регрессионного анализа.
+
-
 
+
-
=== Лекция 2. Линейная регрессия ===
+
-
Введение в регрессионный анализ, постановка задачи, терминология, регрессионная модель, линейные модели,
+
-
метод наименьших квадратов, два вывода нормального уравнения,
+
-
подстановки и нахождение параметров линейной регрессионной модели,
+
-
пример построения линейной регрессии: линейная, квадратичная и нелинейная функции, пример: биржевые опционы и улыбка волатильности,
+
-
построение многомерной регрессионной модели.
+
-
 
+
-
=== Лекция 3. МГУА ===
+
-
Метод группового учета аргументов. Постановка задачи с использованием порождающих функций (безпараметрических нелинейных подстановок). Базовая модель. Алгоритм МГУА. Комбинаторный алгоритм. Многослойный алгоритм. Внутренние и внешние критерии
+
-
 
+
-
=== Лекция 4. Интегральные индикаторы ===
+
-
Предположение об аддтивной случайной составляющей свободной переменной. Построение интегральных индикаторов. Требования к исходым данным. Подготовка данных. Парето-расслоение. Экспертно-статистический метод. Метод главных компонент. Альфа и гамма — согласование экспертных оценок. Согласование оценок, выставленных в ранговых шкалах.
+
-
 
+
-
=== Лекция 5. Сингулярное разложение ===
+
-
Сингулярное разложение при решении задач линейной регрессии. Определение и свойства сингулярного разложения. Сингулярное разложение и обращение матриц. Определение псевдообратной матрицы. Два способа регуляризации при обращении матриц. Сингулярное разложение и собственные векторы матрицы <tex>A^TA</tex>. Простой итеративный способ нахождения сингулярного разложения. Задача о поведении биосистемы в экстремальных условиях.
+
-
 
+
-
=== Лекция 6. Метод главных компонент ===
+
-
Метод главных компонент. Многомерная случайная величина. Оптимизационная задача нахождения проекций на линейную оболочку множества векторов. Матрица вращения главных компонент. Связь метода главных компонент и сингулярного разложения. Организация вычислительных экспериментов, связанных с индуктивным порождением регрессионных моделей.
+
-
 
+
-
=== Лекция 7. Прогнозирование ===
+
-
Линейные методы прогнозирования. Система управления с обратной связью. Задача о макроэкономическом моделировании. Системы одновременных линейных уравнений и векторная авторегрессия. Решение уравнения векторной авторегрессии для решения задачи управления. Задача о прогнозе потребления электроэнергии. Алгоритм линейного прогноза.
+
-
 
+
-
=== Лекция 8. Логистическая регрессия ===
+
-
Конструктивное порождение множества суперпозиций. Логистическая регрессия. Нахождение параметров модели и восстановление зависимости. Задача о классификации заемщиков банковских кредитов. (Обсуждение предобработки временных рядов по задаче предыдущей лекции.)
+
-
 
+
-
=== Лекция 9. Обобщенные линейные модели ===
+
-
Постановка задачи. Экспоненциальное семейство распределений. Функции связи для дискретных и непрерывных зависимых переменных. Пространство параметров, функция правдоподобия и формула Байеса.
+
-
 
+
-
=== Лекция 10. Нелинейная регрессия ===
+
-
Оптимизация параметров нелинейных моделей. Алгоритм Левенберга-Марквардта. Часто используемые регрессионные модели. Оптимальное прореживание нейронных сетей (использование метода множителей Лагранжа).
+
-
 
+
-
=== Лекция 11. Связанный Байесовский вывод ===
+
-
Достоверность и сравнение моделей на первом уровне вывода. Пример сравнения моделей. Схема порождения и выбора моделей. Второй уровень — вывод параметров модели. Связь первого и второго уровня. Пример сравнения трех моделей различной сложности.
+
-
 
+
-
== Литература ==
+
-
* [http://strijov.com/teaching/index.php Cписок литературы находится здесь.]
+
-
 
+
-
== Благодарности ==
+
-
Хочу отметить Алексея Куракина и Юрия Максимова за отличное знание теоретической части и за успешно выполненные практические задания.
+
-
 
+
-
[[Категория:Регрессионный анализ]]
+
-
[[Категория:Учебные курсы]]
+

Текущая версия

  1. REDIRECT Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 374, осень 2008
Личные инструменты