Теория надёжности обучения по прецедентам (курс лекций, К. В. Воронцов)

Материал из MachineLearning.

(Различия между версиями)

Версия 10:38, 4 февраля 2012

Содержание

1 Комбинаторная теория переобучения
2 Литература
3 Ссылки
4 См. также

Спецкурс знакомит студентов с теорией вычислительного обучения (computational learning theory, COLT), исследующей проблему надёжности восстановления зависимостей по эмпирическим данным. Родоначальниками этой теории были советские математики В. Н. Вапник и А. Я. Червоненкис. В 80-е годы эта теория получила широкую мировую известность, и в настоящее время продолжает развиваться.

Один из основных вопросов теории COLT — как количественно оценить способность алгоритмов классификации и прогнозирования к обобщению эмпирических фактов. В каких случаях можно утверждать, что общие закономерности, выявленные по частным прецедентам, не окажутся ложными, предрассудками? Как избежать переобучения — ситуации, когда ответы алгоритма удаётся хорошо подогнать под обучающие данные, но на новых контрольных данных они оказываются существенно менее точными? Как управлять обобщающей способностью алгоритма на стадии его построения? Эти и другие смежные вопросы рассматриваются в данном спецкурсе.

Цели спецкурса — научить студентов оценивать надёжность алгоритмов обучения; использовать оценки обобщающей способности для разработки более надёжных алгоритмов; применять их для решения прикладных задач классификации, регрессии, прогнозирования.

В основу курса легли современные результаты, полученные в COLT за последнее десятилетие, а также собственные исследования автора по комбинаторной теории переобучения и слабой вероятностной аксиоматике.

Спецкурс читается студентам 3 курса кафедры «Математические методы прогнозирования» ВМиК МГУ с 2007 года, в дополнение к обязательному кафедральному курсу Математические методы распознавания образов (ММРО).

Учебное пособие по курсу ТНОП: Voron-2011-tnop.pdf, 3 МБ (черновая версия).

Комбинаторная теория переобучения

Проблема переобучения и перестановочная вероятность

Задача обучения по прецедентам. Матрица ошибок. Понятия наблюдаемой и скрытой выборки. Проблема переобучения. Примеры приложений.
Слабая вероятностная аксиоматика. Вероятности переобучения. Перенос оценок из слабой аксиоматики в сильную (колмогоровскую).
Точность и надёжность предсказаний. Обращение оценок.
Эмпирические оценки. Скользящий контроль.
Финитарные и инфинитарные вероятности. Сравнение с колмогоровской аксиоматикой, достоинства, недостатки и границы применимости.

Предсказание частоты события и гипергеометрическое распределение

Задача предсказания частоты события. Выборочный контроль качества.
Лемма. Частота события в наблюдаемой выборке подчиняется гипергеометрическому распределению.
Теорема. Точная оценка вероятности большого уклонения частот события на наблюдаемой и скрытой выборках.
Геометрическая интерпретация.
Свойства гипергеометрического распределения. Методы вычисления гипергеометрического распределения.
Экспоненциальные верхние и асимптотические оценки. Закон больших чисел в слабой аксиоматике.
Переход от ненаблюдаемой оцеки к наблюдаемой. Точная интервальная оценка. Вероятность нуль-события.

Теория Вапника-Червоненкиса

Принцип равномерной сходимости.
Коэффициент разнообразия (shatter coefficient), функция роста.
Теорема. Оценка Вапника-Червоненкиса.
Обращение оценки. Метод структурной минимизации риска.
Проблема завышенности оценок. Анализ причин завышенности, эффекты расслоения и связности.
Эксперимент 1. Вычисление достаточной длины обучающей выборки.
Разновидности методов обучения. Пессимистичная, оптимистичная, рандомизированная минимизация эмпирического риска. Максимизация переобученности.
Программа для вычисления эмпирических оценок вероятности переобучения. Метод Монте-Карло. Скользящий контроль.
Эксперимент 2. Вычисление вероятности переобучения для модельных семейств алгоритмов с расслоением и связностью.
Теорема. Вероятность переобучения семейства без расслоения.

Размерность Вапника-Червоненкиса (ёмкость)

Понятие ёмкости.
Функция $\Phi_L^h$ , её связь с треугольником Паскаля.
Лемма о функции $\Phi_L^h$ .
Теорема. Выражение функции роста через ёмкость.
Ёмкость конечных множеств. Принцип минимума длины описания.
Теорема. Ёмкость семейства линейных разделяющих правил.
Пример однопараметрического семейства бесконечной ёмкости.
Теорема. Ёмкость семейства конъюнкций элементарных пороговых условий.
Ёмкость некоторых разновидностей нейронных сетей (без доказательства).

Принцип порождающих и запрещающих множеств

Простая гипотеза о множествах порождающих и запрещающих объектов.
Лемма о вероятности получить заданный алгоритм в результате обучения.
Теорема. Точная оценка вероятности переобучения.
Общая гипотеза о множествах порождающих и запрещающих объектов.
Теорема. Общая гипотеза верна практически всегда.
Аналогично: Лемма и Теорема для общей гипотезы.
Теорема. Точная оценка вероятности переобучения для случая, когда существует корректный алгоритм.
Теорема. Точная оценка функционала полного скользящего контроля.

Модельные семейства алгоритмов (семейства простой структуры)

Монотонная цепь алгоритмов. Примеры.
Теорема. Вероятность переобучения монотонной цепи.
Унимодальная цепь алгоритмов. Примеры.
Теорема. Вероятность переобучения унимодальной цепи.
Единичная окрестность лучшего алгоритма.
Теорема. Вероятность переобучения единичной окрестности.
Пучок h монотонных цепочек алгоритмов.
Полный слой алгоритмов.

Оценки расслоения-связности

Граф расслоения-связности. Верхняя и нижняя связность и неоптимальность алгоритмов.
Профиль расслоения-связности. Гипотеза о сепарабельности профиля расслоения-связности.
h-мерная монотонная сеть алгоритмов.

Конъюнктивные логические закономерности

Логические алгоритмы классификации. Критерии информативности.
Структура классов эквивалентности семейства конъюнкций пороговых предикатов.
Стандартные представители классов эквивалентности и граничные пожмножества объектов.
Послойный восходящий алгоритм вычисления оценки расслоения-связности.
Модификация критериев информативности. Результаты экспериментов.

Рекуррентное вычисление вероятности переобучения

Идея рекуррентного обновления информации о каждом алгоритме семейства при добавлении нового алгоритма.
Лемма. Вычисление информации о добавленном алгоритме. Доказательство леммы.
Теорема. Правила обновления информации о предыдущих алгоритмах при добавлении нового.
Теорема. Упрощённый рекуррентный алгоритм не уменьшает оценку вероятности переобучения.

Блочные и интервальные точные оценки вероятности переобучения

Определение блока объектов.
Теорема. Формула для вычисления вероятности переобучения по блокам.
Теорема. Вероятность переобучения для пары алгоритмов.
Вероятность переобучения интервала булева куба и его нижних слоёв.

Оценки равномерного отклонения эмпирических распределений

Вероятность большого равномерного отклонения эмпирических функций распределения. Интерпретации: эмпирическое предсказание и проверка гипотезы однородности.
Теоремы Колмогорова и Смирнова (без доказательства).
Усечённый треугольник Паскаля. Случайное блуждание.
Теорема. Точная оценка вероятности большого равномерного отклонения эмпирических распределений. Геометрические интерпретации.
Обобщение на случай вариационного ряда со связками. Почему в этом случае задача предсказания намного сложнее.

Радемахеровская сложность

Метод обучения, максимизирующий переобученность.
Понятие Радемахеровской сложности.
Оценка через принцип порождающих и запрещающих множеств.
Оценка через цепные разложения.
Точная оценка для монотонной цепи алгоритмов через случайное блуждание.

Оценки скользящего контроля для метода ближайших соседей

Метрические алгоритмы классификации, метод ближайших соседей.
Понятие профиля компактности.
Теорема. Точное выражение функционала полного скользящего контроля для метода одного ближайшего соседа (1NN).
Теорема. Точное выражение функционала полного скользящего контроля для метода k ближайших соседей (kNN).
Свойства профилей компактности.
Алгоритм выделения эталонных объектов. Функция вклада объекта и её эффективное вычисление. Метрические деревья.
Разделение объектов на шумовые, эталонные и неинформативные.

Оценки скользящего контроля для монотонных классификаторов

Монотонные алгоритмы классификации.
Понятие клина объекта. Профиль монотонности выборки.
Теорема. Верхняя оценка скользящего контроля. Доказательство теоремы.
Монотонные корректирующие операции в алгоритмических композициях.
Критерии настройки базовых алгоритмов на основе оценок обобщающей способности.

Непараметрические статистические критерии

Задачи проверки статистических гипотез.
Гипотеза однородности, гипотеза сдвига.
Принципиальное различие задач эмпирического предсказания и проверки статистических гипотез.
Критерий знаков.
Критерий Уилкоксона-Манна-Уитни.
Критерий серий.
Критерий Смирнова.
Доверительное оценивание. Доверительный интервал для медианы.

Литература

Воронцов, К. В. Комбинаторная теория надёжности обучения по прецедентам: Дис. док. физ.-мат. наук: 05-13-17. — Вычислительный центр РАН, 2010. — 271 с. (подробнее).
Воронцов К. В. Слабая вероятностная аксиоматика. 2009. PDF, 832 КБ.
Воронцов К. В. Эффекты расслоения и сходства в семействах алгоритмов и их влияние на вероятность переобучения. 2009. PDF, 354 КБ.
Воронцов К. В. Точные оценки вероятности переобучения. 2009. PDF, 542 КБ.

Ссылки

Расслоение и сходство алгоритмов (виртуальный семинар)
Открытые проблемы и задачи по спецкурсу «Теория надёжности обучения по прецедентам». 2010. PDF, 183 КБ.

См. также

Теория надёжности обучения по прецедентам (курс лекций, К. В. Воронцов)/2010

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%A2%D0%B5%D0%BE%D1%80%D0%B8%D1%8F_%D0%BD%D0%B0%D0%B4%D1%91%D0%B6%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A._%D0%92._%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29»

Категория: Учебные курсы

@@ Строка 1: / Строка 1: @@
 {{TOCright}}
-Спецкурс знакомит студентов с современным состоянием [[теория вычислительного обучения|теории вычислительного обучения]] (computational learning theory, COLT), исследующей проблему качества восстановления зависимостей по эмпирическим данным. Родоначальниками этой теории были советские математики [[Вапник, Владимир Наумович|{{S|В. Н. Вапник}}]] и [[Червоненкис, Алексей Яковлевич|{{S|А. Я. Червоненкис}}]]. В 80-е годы эта теория получила широкую мировую известность, и в настоящее время развивается очень активно.
+Спецкурс знакомит студентов с [[теория вычислительного обучения|теорией вычислительного обучения]] (computational learning theory, COLT), исследующей проблему надёжности восстановления зависимостей по эмпирическим данным. Родоначальниками этой теории были советские математики [[Вапник, Владимир Наумович|{{S|В. Н. Вапник}}]] и [[Червоненкис, Алексей Яковлевич|{{S|А. Я. Червоненкис}}]]. В 80-е годы эта теория получила широкую мировую известность, и в настоящее время продолжает развиваться.
-Один из основных вопросов теории COLT — как количественно оценить способность алгоритмов классификации и прогнозирования к обобщению эмпирических фактов. В каких случаях можно утверждать, что общие закономерности, выявленные по частным прецедентам, не окажутся ложными? Как избежать [[Переобучение|переобучения]] — ситуации, когда ответы алгоритма слишком точны на обучающей выборке, но недостаточно точны на новых данных, которые не были известны на этапе обучения? Как управлять [[обобщающая способность|обобщающей способностью]] алгоритма на стадии его построения? Эти и другие смежные вопросы рассматриваются в данном спецкурсе.
+Один из основных вопросов теории COLT — как количественно оценить способность алгоритмов классификации и прогнозирования к обобщению эмпирических фактов. В каких случаях можно утверждать, что общие закономерности, выявленные по частным прецедентам, не окажутся ложными, [[предрассудок|предрассудками]]? Как избежать [[Переобучение|переобучения]] — ситуации, когда ответы алгоритма удаётся хорошо подогнать под обучающие данные, но на новых контрольных данных они оказываются существенно менее точными? Как управлять [[обобщающая способность|обобщающей способностью]] алгоритма на стадии его построения? Эти и другие смежные вопросы рассматриваются в данном спецкурсе.
-Цели спецкурса — научить студентов не только строить и применять обучаемые алгоритмы анализа данных, но и оценивать их надёжность; разрабатывать более надёжные алгоритмы; понимать возможные причины ненадёжной работы обучаемых алгоритмов в прикладных задачах классификации, регрессии, прогнозирования.
+Цели спецкурса — научить студентов оценивать надёжность алгоритмов обучения; использовать оценки обобщающей способности для разработки более надёжных алгоритмов; применять их для решения прикладных задач классификации, регрессии, прогнозирования.
-В основу курса легли современные результаты, полученные в COLT за последнее десятилетие, а также собственные исследования автора по комбинаторной теории обобщающей способности и [[Слабая вероятностная аксиоматика|слабой вероятностной аксиоматике]].
+В основу курса легли современные результаты, полученные в COLT за последнее десятилетие, а также собственные исследования автора по [[Расслоение и сходство алгоритмов (виртуальный семинар)|комбинаторной теории переобучения]] и [[Слабая вероятностная аксиоматика|слабой вероятностной аксиоматике]].
 Спецкурс читается студентам 3 курса кафедры «Математические методы прогнозирования» ВМиК МГУ с 2007 года, в дополнение к обязательному кафедральному курсу [[Машинное обучение (курс лекций, К.В.Воронцов)|Математические методы распознавания образов (ММРО)]].