Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 474, весна 2018

Материал из MachineLearning.

Перейти к: навигация, поиск


Короткая ссылка bit.ly/2JkLqlo

Два курса весеннего семестра

  • Выбор моделей в задачах регрессии и классификации, лекции по теории машинного обучения
  • Постановка задач в машинном обучении, практические занятия


Выбор моделей в задачах регрессии и классификации, лекции

Перед лекциями слушателям предлагается, по желанию, ответить на пять вопросов. Экзамен в конце семестра содержит 50 вопросов, длительность экзамена 1 час. Проверка - собеседование по записанным ответам.

Тема 1

Выбор вероятностных моделей

Тема 2

Методы оптимизации параметров вероятностных моделей

Тема 3

Оптимизация параметров для выбора моделей глубокого обучения

Тема 4

Выбор вероятностных моделей иерархической классификации

Тема 5

Правдоподобие модели. Построение мультимоделей и анализ пространства их параметров

Тема 6

Оптимизация гиперпараметров вероятностных моделей

Тема 7

Вариационные оценки, вариационный автоэнкодер

Тема 8

Построение, оптимизация и выбор мультимоделей

Тема 9

Информативные априорные предположения в баейсовском мультимоделировании

Тема 10

Оценка объема выборки с использованием байесовского подхода

  • Мотренко А.А. Оценка необходимого объема выборки // МФТИ, 2016, text, text.

Вопросы к экзамену

  1. Какие гипотезы принимаются при оценивании параметров линейной регрессивной модели методом наименьших квадратов?
  2. Какие гипотезы принимаются при назначении гиперпараметров?
  3. Включает ли функиця ошибки общего вида регуляризатор?
  4. Чем отличаются регуляризируемые слагаемые в случае нормального и мультиномиального распределения зависимой переменной?
  5. Что предпочтительнее при вычислении регуляризатора: сначала взвешивать параметры, а потом суммировать их квадраты или сначала суммировать квадраты, а потом взвешивать сумму?
  6. Чем отличаются наиболее вероятные параметры модели отличаются от наиболее правдоподобных и от оптимальных?
  7. Чем отличается наиболее правдоподобная выборка от наиболее правдоподобной модели?
  8. Как аппроксимация Лаплпса связывает разложение функции ошибки в ряд и предположение о нормальном распределении?
  9. Можно ли аппроксимацию параметров методом Лапласа выполнить в произвольной точке пространства параметров модели?
  10. Можно ли вычислить правдоподобие линейной модели аналитически?
  11. Почему процедура оценки гиперпараметров с помощью аппроксимации Лапласа не сходится за одну итерацию?
  12. Нужно ли оптимизировать параметры при вычислении правдоподобия модели?
  13. Какой уровень байесовского вывода используется при пополнении выборки в семплировании Метрополиса-Хастингса
  14. Какая операция вносит наибольшую сложность в оценку гиперпараметров методом кросс-валидации?
  15. Какой метод оценки гиперпараметров требует наибольшего числа итераций?
  16. Как зависит оптимальное правдоподобие модели от объема выборки?
  17. Какое априорное предположение о вероятности моделей может быть использовано при сравнении их правдоподобий в байесовском выводе второго уровня.
  18. Чем отличаются многоуровневые модели от смеси моделей и от смеси экспертов?
  19. Какие параметры оптимизирует алгоритм ЕМ при построении
  20. Чем отличается gating function от softmax в случае смеси экспертов?
  21. Назовите гипотезы и критерии оценивания оптимального объема выборки.
  22. Как связаны MDL и колмогоровская сложность?
  23. Как связаны Evidence и кросс-валидация?
  24. Как связаны нижняя оценка Evidence и MDL?
  25. Что такое бритва Оккама в задаче выбора модели?
  26. В каком случае нижняя оценка Evidence будет совпадать с Evidence?
  27. Описать критерий информативности параметров на основе вариационного распределения.
  28. Как получить оценку начала переобучения без использования кросс-валидации?
  29. Что такое оператор оптимизации?
  30. Что такое гиперпараметры, в чем их отличие от параметров и структурных параметров?
  31. В каком случае оптимизация гиперпараметров градиентными методами работает лучше других методов?
  32. Привести формальную постановку задачи оптимизации гиперпараметров.
  33. Как свести двусвязный байесовский выбор модели к задаче оптимизации гиперпараметров?
  34. Какие существуют градиентные алгоритмов оптимизации гиперпараметров? В чем заключаются их основные идеи?
  35. В каком случае алгоритм DrMAD будет давать более предпочтительное по сравнению с альтернативами качество оптимизации?
  36. В чем заключается проблема оптимизации полной и диагональной матрицы ковариаций с использованием кросс-валидации?
  37. В каком случае случайный поиск более предпочтителен, чем градиентные методы оптимизации гиперпараметров?
  38. Какой вид имеет оценка максимума правдоподобия для линейно-разделимой выборки из двух классов в модели логистической регрессии?
  39. В каком случае результат ML-оценки параметров модели линейной регрессии с 1000, возможно, мультиколлинеарными, но не в точности линейно зависимыми, признаками на 1000 точках будет иметь высокое качество и на тестовой выборке?
  40. Какие преимущества и недостатки есть у l-1 и квадратичной регуляризации в линейной регрессии? Чему эквивалентно введение таких штрафов за сложность в байесовском смысле?
  41. Понятие обоснованности. Почему модель с наибольшим правдоподобием для некоторого значения параметра может оказаться хуже других по обоснованности?
  42. Пусть имеется дискретное множество моделей, из которых наблюдаемая выборка могла быть получена, и некоторый набор априорных вероятностей каждой из моделей. Как связана апостериорная вероятность модели с ее обоснованностью?
  43. Опишите, как принцип максимума обоснованности может быть использован для отбора признаков в линейной и логистической регрессии. Что делать, если вы уверены, что какой-то признак значим, и в процессе максимизации обоснованности нужно рассматривать его как таковой (то есть не выбрасывать)?
  44. Пусть имеется несколько нормально зашумленных копий одного признака с известными дисперсиями шумов, которые создают мультиколлинеарность. Что следует сделать с такой группой признаков для повышения качества классификации и избавления от мультиколлинеарности? В каком случае это будет эквивалентно выбору "лучшего" представителя такого набора?
  45. Понятие адекватной мультимодели. Чем плоха неадекватная мультимодель?
  46. Корректность сходства моделей. Предлагаемая корректная функция сходства и ее вид для пары нормальных распределений.
  47. Как можно использовать предлагаемую функцию сходства для решения задачи статистического сравнения пары моделей? Что реже встречается для пары совпадающих моделей: сходство 0.01 для n=2 или n=20 (n-размерность признакового пространства)?
  48. Как зависит вероятность ошибки второго рода (вероятность признать модели одинаковыми, хотя они разные) при фиксированном числе объектов в выборке из первой модели при увеличении числа объектов в выборке для второй?
  49. Как конвертировать метод сравнения пары моделей в метод прореживания мультимодели для построения адекватной мультимодели? Какие методы рассматривались на лекции и какие Вы могли бы предложить?
  50. Чему равно вариационное распределение полученное на E-шаге EM-алгоритма без введения каких-либо ограничений?
  51. Какую проблему помогает преодолеть вариационная аппроксимация?
  52. Какую оптимизационную задачу решает вариационный автокодировщик?
  53. Что такое reparametrization trick?
  54. Что такое оценивание Монте Карло и как оно применяется для вычисления градиента нижней вариационной оценки?
  55. Как учесть метки классов при построении вариационного автокодировщика?
  56. Как меняется вид оптимизируемой вариационной нижней оценки в случае semi-supervised learning?

Дополнительные темы

  • Выбор моделей Животовский
  • GAN Попова
  • Мультиколлинеарность, байесовский Беллсли Катруца

Постановка задач в машинном обучении, практические занятия

Курс посвящен технике изложения основной идеи исследования. Обсуждаются постановки задач выбора моделей и способы построения функции ошибки. Обсуждение ведется в формате эссе. Эссе — это изложение идеи постановки и решения задачи. Изложение должно быть достаточно полным (идея восстанавливается однозначно), но кратким (полстраницы) и ясным. Задача ставится формально, желательно использование языка теории множеств, алгебры, матстатистики. Желательно ставить задачу в формате argmin. Пишется в свободной форме, с учетом нашего стиля выполнения научных работ: терминологическая точность и единство обозначений приветствуются[2]. Желательно приводить решение задачи в краткой форме. Обсуждаются эссе слушателей, которые лично присутствуют на занятии и могут прокомментировать задачу. Продолжительность доклада 3 минуты. Для доклада необходимо загрузить эссе в репозиторий и поставить ссылку в таблицу. Оценка выставляется за устный доклад: A или Z баллов.

Эссе хранятся в личной папке Group374/Surname2017Essays/. В папке этого примера есть шаблон эссе. Ссылка на эссе делается по шаблону

 [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Surname2017Essays/Surname2017Essay1.pdf?format=raw 1] 

Можно делать эссе на слайдах с целью укорочения текста.


Важно участвовать в обсуждении (можно по скайпу). Отложенных выступлений не предусмотрено в силу невозможности организовать обсуждение 88 докладов.


Результаты

Автор Ссылки на эссе Доклад \Sigma
Федоряка Дмитрий (пример) 1 ,

2 , 4 , 5 , 6 , 7

1A,2A,3Z,4A,5A,6A,T7,T8 10
Алексеев Василий

1, 2, 3, 4, 5, 6, 7

1A+,2A,3A,4A,5A,6A,7A+
Аникеев Дмитрий

4

4Z
Гасанов Эльнур

4 5 6 7

4A,5A,6A,7A
Захаренков Антон 1 1Z
Иванычев Сергей 1

2 3 4

1A,2A,3A,4A
Ковалев Дмитрий
Кубентаева Самал 5 5a
Макарчук Глеб 1,

2, 2code, 3 4

1A,2A,3A,4A+
Рыбка Елизавета 1, 4 1A,4A
Селезнева Мария 4
Смердов Антон
Шибаев Иннокентий
Шолохов Алексей 2

4 1

1A,2A,4A

Задача 1

Предложить метод, аналогичный методу главных компонент для выборки с признаками, измеренными разнородных шкалах: номинальными, ординальными, линейными, с возможными пропусками. Звездочка: оценить максимальное число пропусков, допустимое для восстановления выборки с заданной точностью. Пример: Бахтеев О.И. Восстановление пропущенных значений в разнородных шкалах с большим числом пропусков // Машинное обучение и анализ данных. 2015. T. 1, №11. C. 1484 - 1499.

Задача 2

Предложить метод, аналогичный методу Mixture of experts для выборок, заданных в полностью или частично упорядоченных шкалах. Метод не должен использовать вероятностных допущений (только матрицу объект-модель). Он должен быть отличен от кластеризации с последующей классификацией кластеров. Примеры корректной работы с такими шкалами первый, см стр. 10 и далее, второй.

Задача 3

Предложить метод, учитывающий закономерность на элементах вектора целевых переменной, аналогично PLS. При этом элементы имеют биномиальное распределение и

  1. полностью упорядочены,
  2. частично упорядочены.

Пример задачи: дано описание заемщика во времени. Требуется спрогнозировать вероятность дефолта по месяцам на год вперед. Тут элементы целевого вектора упорядочены во времени. Решение может быть корректировкой алгоритма PLS или самостоятельным алгоритмом. Примеры PLS1, PLS2.

Задача 4

Решается задача восстановления дерева по (упорядоченному) описанию объекта (например, предложение, длина которого не превышает заданную). Выборка объект-структура задана. Требуется предложить постановку задачи, с функцией ошибки, которая бы штрафовала взвешенный полносвязный граф за то, что он не дерево (упрощенный вариант - не дерево заданного вида). Приветствуется решение, где функция штрафа однократно (или дважды) дифференцируема по весам. Tommi Jaakkola — Scaling structured prediction

Задача 5

Решается задача восстановления дерева по графовому скелетному представлению G жирных линий. Задана выборка {(x=x(G(I)), y)}. Требуется восстановить метку класса (конечное множество) по описанию x, полученному из растрового изображения I. Необходимо записать формальный алгоритм, который можно запрограммировать, ясный для понимания. Алгоритм включает 1) способ построения описания x по скелетному представлению G и 2) способ свертки последовательности векторов x. Свертка графов описана в Han Altae-Tran, 2016. Low Data Drug Discovery with One-shot Learning.

Задача 6

Требуется предложить алгоритм непрерывной аппроксимации параметров локальной модели SEMOR, \|\mathbf{\hat{x}}-\mathbf{x}\|^2_2\to\min, модель \mathbf{\hat{x}} =   w_1+w_2 \mathbf{g}(w_3+w_4 t). Вектор \mathbf{g} содержит меньшее число элементов, чем исходный ряд, в сегменте времени коророго производится аппроксимация, \mathbf{s} = [ \mathbf{s}_{\text{start}}, \mathbf{x}, \mathbf{s}_{\text{end}} ]. Предполагается, что форма модели \mathbf{g} приближает форму временного ряда \mathbf{x} внутри дискретного сегмента времени, t\in\{1,\dots,T\} , исходного ряда \mathbf{s}.

Задача 7

По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю и внешнюю границу радужки. Iris_circle_problem.pdf Требуется построить мультимодель, которая с помощью двух прямых в линейной регрессии приближает окружности зрачка и радужки. Выписать функцию ошибки, включающую априорное предположение о параметрах модели и ограничения в явном виде. Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны и другие размеры)[3], [4].

Задача 8

Прогноз направлений научных исследований и разработок.

Личные инструменты