Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 174, осень 2006

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Практика

На каждую неделю назначаются задания. Выполненные задания нужно отправлять по адресу, указанному внизу этой страницы. Структура отправляемых файлов должна быть следующей (см. пример — maximov.zip).

  • Создается папка "[LastName]", в которой будут находиться все файлы.
  • Стартовые файлы находятся в этой папке и имеют начало "run_".
  • Файлы "*.m", которые относятся к данному заданию, находятся в папке "code".
  • Файлы "*.m" c библиотечными моделями находятся в папке "func".
  • Файлы со входными данными, находятся в папке "data".
  • Файлы с графиками и отчеты находятся в папке "report".
  • Корневая папка архивируется в "[LastName].zip" и отправляется по нижеуказанному адресу.

Скачать пример: maximov.zip

Лекция 1

Темы. План лекций, организация практических работ. Терминология: приближение функций, аппроксимация, интерполяция, регрессия. Обозначения. Постановка задач регрессии. Что такое модель регрессии. Метод наименьших квадратов. Приемы работы с Matlab.

Задание. Восстановление регрессии

Методом наименьших квадратов найти для регрессионной модели — квадратичного полинома — параметры, приближающие выборку 'quaddata.csv'. Нарисовать график функции и данные. Данные находится в файле 'maximov.zip'.

Полезные материалы. Обзор приемов работы с Matlab: [1] (вставлен пример с многомерной матрицей, улучшение кода этого примера приветствуется).

Пример созданной функции: to01.m (поместить в папку 'code').

Метод наименьших квадратов run_mnk.m и данные к примеру mnk.csv.

Иллюстрация к методу наименьших квадратов <a href="/teaching/mnk.gif"> mnk.gif</a>.</p>

Ссылки на решения

  • Автор И.О. [C:\Mathnb\MLAlgorithms\MIPT2006-2010OldProj\Romanov2006Basic\problem1.m]

Лекция 2

Темы. Сингулярное разложение. Свойства сингулярного разложения. Примеры применения: поведение системы в экстремальных условиях, сегментация Фишера, кластеризация с ограничением размерности пространства. Метод главных компонент. Подстановки в линейных моделях.

Задание. Подбор нелинейных подстановок для решения задачи линейной регрессии. Требуется "угадать", какие подстановки требуется сделать, чтобы найди регрессионную модель для данных [http://www.strijov.com/teaching/problem2.csv">problem2.csv</a> (также как и раньше, первый столбец &#151 свободная переменная, а второй &#151 зависимая). Для решения задачи необходимо нелинейные параметры подобрать вручную, а линейные &#151 методом наименьших квадратов. Нарисовать график полученной модели и данных на графике с указанием найденной функции в заголовке. Для обращения матрицы следует использовать сингулярное разложение. Написанный к этому заданию код сохранить в файле run_problem2.m.

Полезные материалы. Примеры трех функций подстановки:

Совет: в связи с тем, что производительность алгоритмов по поиску моделей существенно зависит от наполнения моделей, не следует вставлять проверки "data match" в эти функции. Проверки на соответствие размеров векторов лучше вставлять в вызывающие модули, а размеры тщательно документировать.

Лекция 3

Темы. Библиотечные модели. Метод главных компонент (окончание). Пространства, порождаемые сингулярными векторами. Матричные нормы и обусловленность. Некорректно поставленные задачи. Регуляризация для МНК, SVD, PCA. Шкалы оценок и Расслоение Парето. Пример: интегральные индикаторы и экспертные оценки. Отыскание параметра регуляризации и согласование оценок &#151 линейное и квадратичное.

Задание. Дана (7x2)-матрица, файл problem3.csv. Требуется найти ее первую главную компоненту и нарисовать проекции векторов-строк матрицы на первую главную компоненту. Пример рисунка: problem3.png.

Полезные материалы

  • Некоторые приемы работы с графикой: run_problem3.m
  • Метод главных компонент run_plot1PC
  • Проекции векторов на главные компоненты pca.gif

Лекция 4

Темы. История и особенности МГУА. Принцип МГУА. Внешние и внутренние критерии. Разделение выборки на две части. Принятые обозначения. Критерий регулярности, критерий минимального смещения, критерий предсказательной способности. Комбинированные критерии — линейная комбинация. Оптимальность в пространстве внешних критериев и Парето-оптимальный фронт. Базовая модель МГУА. Подстановки в базовой модели.

Задание. Дана выборка, файл problem4.csv. Первые 10 точек являются обучающими, остальные — контрольными. Требуется вычислить внешний критерий (критерий регулярности) для линейной модели.

Полезные материалы. Заготовка функции критерия регулярности: met_regularity.m.

Лекция 5

Темы. Базовая модель МГУА: модель Колмогорова-Габора. Последовательность шагов и критерии остановки алгоритма. Многорядный алгоритм: линейная комбинация заданного числа нелинейных подстановок. Комбинаторный алгоритм. Матрица вхождения мономов в базовую модель. Генетический алгоритм: последовательность шагов. Представление. Селекция: алгоритм рулетки. Скрещивание. Мутация. Параметры алгоритма. Сравнение алгоритмов глобальной и локальной оптимизации. Метаоптимизация — оптимизация параметров оптимизирующего алгоритма. Регрессия в метаоптимизации.

Задание. Дана выборка, файл [problem5.csv. Первые 30 точек являются обучающими, остальные — контрольными. Первый и второй столбец — свободные переменные, последний — зависимая. Требуется написать комбинаторный алгоритм и с помощью критерия регулярности отыскать оптимальную полиномиальную модель. Совет: для отладки можно использовать файл problem4.csv.

Полезные материалы. Очень полезные счетчики: cntabover.m и cntabappend.m. Функция показа трехмерных моделей surfplot.m.

Лекция 6

Темы. Постановка задачи для многомерной регрессионной модели и множества подстановок безпараметрических гладких нелинейных функций одного аргумента. Подстановки для мономов в базовой модели. Теорема Колмогорова о представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного переменного. О том, как эксперты строят модели — сильные и слабые стороны (линейная регрессия, полиномиальные модели, нейронные сети, МГУА, МГУА с подстановками, произвольная суперпозиция). Интерпретируемость моделей. Четыре способа порождения моделей. Гипотеза порождения данных. Функция распределения и плотность распределения. Наивный метод оценки параметров распределения.

Задание.

Для данных problem6a.csv и модели y=w построить пару графиков. Первый график — данные и приближающая эти данные модель. Второй график — зависимость целевой функции p1=-log(sumsqr(y1-f(w,x))) от единственного параметра w модели. Пример: plt_problem6a.png.

Для данных problem6b.csv, модели y=sin(16*x+w), где w — единственный параметр, и целевой функции p=-log(sumsqr(y1-f(w,x))) построить пару графиков. Пример: plt_problem6b.png.

Даны три выборки problem6c.csv (первый столбец — свободная переменная, второй, третий, четвертый — три реализации зависимой переменной). Модели y=w. Даны три целевые функции

  • p1=-log(sumsqr(y1-f(w,x))),
  • p2=-log(sum(abs(y1-f(w,x)))),
  • p3=-log(max(abs(y1-f(w,x)))).

Требуется построить соответствующие графики. Пример: plt_problem6c.png.

Полезные материалы. О том, как рисовать несколько графиков в одном окне, часть кода txt_subplotexample.m. Комментарий: через переменную y1 обозначены значения, которые принимает модель на элементах выборки свободных переменных.

Лекция 7

Темы. Два отображения в задачах регрессии: f : X → Y и f : X x W → Y. Представление элементов одной выборки как независимых случайных величин с заданной плотностью распределения. Совместная плотность распределения. Определение функции наибольшего правдоподобия. Фиксация одного из двух аргументов функции правдоподобия. Пример вычисления для 1) дискретного и 2) непрерывного множества значений оцениваемых параметров. Вычисление оценок параметров одномерного Гауссова распределения. Примеры построения целевой функции в пространстве параметров. Примеры обнаружения инвариантов с использованием целевой функции. Примеры вычисления устойчивости моделей с помощью интеграла целевой функции для заданной области в пространстве параметров. Гипотеза аддитивного Гауссова шума с нулевым средним. Гиперпараметры. Гипотеза о штрафе больших весов в линейных моделях. Константа Липшица и гипотеза о шуме. Ошибка в пространстве данных и ошибка в пространстве весов.

Задание.Задана регрессионная модель y = - 3.14 x^3 + 2.71 x. Данные, по которым была построена эта модель , находятся в файле problem7.csv. Требуется оценить дисперсию аддитивного Гауссова шума с нулевым средним, пользуясь введенным определением гиперпараметра и функционалом распределения (memento).

Полезные материалы. Подсказка: можно оценить ее методом перебора значений в заданном интервале, но есть и другие варианты. Функция плотности met_pDwb.m и самый простой пример.

Лекция 8

Темы. Первый уровень Байесовского вывода. Функция распределения в пространстве параметров. Правдоподобие моделей. Байесовский критерий сравнения моделей. Пример сравнения моделей с параметрами, принимающими значения в конечном множестве. Механизм двухуровневого Байесовского вывода, схема проведения вычислительного эксперимента. Достоверность. Множитель Оккама, определение. Сравнение моделей. Изменение апостериорного распределения параметров после получения данных. Пример сравнения трех моделей с различным априорным и апостериорным распределением параметров.

Задание. Дана нелиненная регрессионная модель y =sin(w_1 sin(x))+w_2x. Данные, по которым была построена эта модель находятся в файле problem8.csv. Требуется оценить параметры w_1,w_2, график problem8.png.

Полезные материалы. Читай doc nlinfit. Очень полезный инструмент.

Лекция 9

Темы. Постановка задачи с точки зрения эксперта в предметной области. Схема работы аналитика при поиске модели. Ограничения, накладываемые при моделировании. Модель как произвольная суперпозиция. Пример автоматического построения модели давления в камере сгорания дизельного двигателя. Роль гиперпараметров при оценке информативности свободных переменных. Функция распределения случайной переменной в пространстве данных, функция распределения параметров в пространстве параметров. Связь гиперпараметров и дисперсий в обоих пространствах. Выбор наиболее информативных элементов модели.

Задание. Дана нелиненная регрессионная модель y = sin(w1x1+w2) cos(w3x2+w4). Данные, по которым была построена эта модель находятся в файле problem9.csv. Требуется оценить параметры w1,…, w4, график problem9.png. Нарисовать исходные данные и полученную модель.

Дана нелиненная регрессионная модель двух свободных переменных y = sin(w_1 x_1+w_2) cos(w_3 x_2+w_4). Данные, по которым была построена эта модель находятся в файле problem9.csv. Требуется оценить параметры w_1,...,w_4, графикproblem9.png.

Полезные материалы. Функция построения графика зависимости зависимой переменной от двух свободных, surfplot.m. Совет. Если параметры начального приближения выбраны недостаночно точно, результаты оптимизации будут некорректными. Также см. статью о выводе гиперпараметров, strijov06poisk_jct.pdf.

Лекция 10

'Темы.  Аппроксимация совместного распределения параметров и гиперпараметров модели. Аппроксимация функции ошибки S(w) рядом Тейлора. Вычисление нормирующей константы Z_S апостериорного распределения p(w|D,alpha,beta). Аппроксимация Лапласа: пример для одной переменной. Вывод гиперпараметров, плотность распределения p(D|alpha,beta) в первом и втором уровне Байесовского вывода. Генетический алгоритм порождения и выбора регрессионных моделей.

Задание. Больше заданий в семестре не предполагается.

Лекция 11

Темы.

Постановка задачи однокритериальной оптимизации. Алгоритмы локальной и глобальной оптимизации. Мультистарт локальной оптимизации. Алгоритм Нельдера-Мида. Алгоритм моделируемого отжига и задача коммивояжера. Тестовые задачи однокритериальной оптимизации. Постановка задачи многокритериальной оптимизации. Пространство аргументов и целевое пространство. Парето-оптимальный фронт. Проблема постановки задачи оптимизации — один критерий или много критериев? Задачи регуляризации и многокритериальная оптимизация: регуляризация в двухуровневом Байесовском выводе, в методе наименьших квадратов, регуляризация ковариационной матрицы; выбор модели пространстве внешних критериев МГУА. Тестовые задачи многокритериальной оптимизации. Отображение пространства аргументов в целевое пространство: использование стохастических алгоритмов или алгоритмов полного перебора.


Лекция 12

Темы. Методы многокритериальной оптимизации. Линейная комбинация целевых функций. Целевое программирование (goal programming). Стремление к цели (goal attainment) — целевое программирование со скалярным параметром. Лексикографическое упорядочивание  — оптимизация целевых функций по отдельности. Особые точки ПОФ  — утопия, антиутопия, надир. Направленный поиск (direct-based search). Архитектура системы многокритериальной оптимизации. Работа оптимизационного алгоритма с модулями системы.


Лекция 13

Темы. Регрессия и классификация. Использование методов регрессии при решении задач классификации. Сравнение непараметрических и параметрических методов. Адекватность полученных результатов и гипотеза перемешивания. Основные математические объекты, обсуждаемые в рамках курса «Прикладная регрессия и оптимизация», их взаимосвязь. Архитектура системы поиска оптимальных регрессионных моделей.

Экзамен

19 декабря 2006 г., аудитория 355

Теория. Требуется ответить на основной вопрос, указанный в билете (номер билета есть номер лекции) и на два дополнительных вопроса.

Практика. Принести с собой USB flash memory со всеми заданиями. Задания должны быть выполнены в ранее указанном формате.


Благодарности

Хочу отметить Андрея Ивахненко, Дмитрия Житлухина и Галину Иофину за вопросы, которые они задавали в ходе лекций, за то, что разобрались в теме и за ответственность при выполнении практических заданий.

Личные инструменты