Обработка изображений в системах искусственного интеллекта (курс лекций, А.Н.Гнеушев)

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

В курсе рассматриваются основы обработки и анализа изображения, основные подходы и модели для решения задач при построении систем компьютерного зрения и искусственного интеллекта.

Компьютерное зрение относится к области создания интеллектуальных систем, которые получают информацию из изображений и на ее основе формируют знания и делают заключения. Автоматическая обработка, восстановление, улучшение, сверхразрешение, сегментация, распознавание, индексация, анализ и аннотация, редактирование и генерирование структур сцены на изображениях и видео являются основными задачами компьютерного зрения.

Интеллектуальная система рассматривается как математическая модель искусственного интеллекта для решения специализированных задач. При построении интеллектуальной системы рассматривают несколько подзадач: регистрация и кодирование видео изображения, предобработка, выделение характерных свойств изображения объектов, их анализ и преобразование, классификация и принятие решения, оценивание параметров сцены на изображении. Изображения регистрируются с помощью видео датчиков (сенсоров видеокамер) в различных частотных диапазонах, и могут быть представлены с помощью матриц яркости. Этап предобработки и выделение признаков обычно включает такие операции с изображением, как фильтрация, яркостные и геометрические корректирующие преобразования, нормализация для облегчения устойчивого выделения характерных свойств объектов, которые представляются как некоторое множество признаков, приближённо описывающее интересующий класс объектов, его поведение. Преобразование пространства признаков позволяет их сжимать, модифицировать, или обуславливать дополнительными ограничениями и моделями, например, для сверхразрешения и генеративных приложений. Классификация строится путем анализа полученного множества признаков, разделения признакового пространства на подобласти, указывающие на соответствующий класс. Принадлежность к некоторому классу зарегистрированного объекта или структуры на изображении используется в последующих этапах принятия решения в интеллектуальной системе. Контекстно зависимые представления видеоизображений в пространстве признаков позволяет строить системы знаний, вопросно-ответные и генеративные системы в больших мультимодальных нейросетевых моделях.

Современные системы компьютерного зрения разнообразны: они реализованы как на основе классических подходов математического моделирования, так и с использованием нейросетевых моделей и машинного обучения в зависимости от требований целевой платформы, масштабируемости, ограничений вычислительных ресурсов, доступности обучающих данных, стоимости разработки и эксплуатации. Классические методы математического моделирования обладают объяснительными свойствами и востребованы в ответственных системах, где требуется достоверность и высокий уровень безопасности. Нейросетевые подходы обобщают классические решения путем обучения параметров моделей на подготовленной обучающей выборке примеров, специализации нейросетевых архитектур и типов слоев, использования регуляризации параметров и латентных моделей, учета свойств изображений и ограничений в условиях недостатка обучающих примеров.

В курсе упор делается на изложении основ и базовых алгоритмов обработки изображений. Рассматриваются модели регистрации и представления изображений, решаются модельные обратные задачи, такие как реконструкция изображения алгебраическими методами и на основе спектральной теории фильтрации, излагаются подходы выделения информативных признаков и сжатия изображений, основы вейвлет-теории и многомасштабного анализа для представления и выделения характерных свойств изображения объектов с целью дальнейшей обработки и анализа. При изложении классических моделей рассматриваются элементы нейросетевых подходов для решения тех или иных задач.

Цель курса – дать представление о предмете обработки и анализе изображений, познакомить с математическими моделями, использующимися в компьютерном зрении, выработать интуицию при решении задач и построении интеллектуальных систем.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей и случайных процессов. Необходимыми являются базовые представления о проведении вычислительного эксперимента и построении математических моделей в физике.

Курс читается студентам 3 и 4 курса кафедры «Интеллектуальные системы / проектирование и организация систем» ФУПМ МФТИ. Программа лекционного курса рассчитана на два семестра, предусмотрены практические (семинарские) занятия и домашняя работа (32 часа).

Замечания для студентов


Семестр 1

Модель интеллектуальной системы обработки и анализа изображения

Презентация: (PDF, 5,28 МБ) — обновление 22.03.2026.

  • Понятия искусственного интеллекта и интеллектуальной системы. Основные свойства, функции и цели интеллектуальной системы.
  • Путь сигнала при обработке в системах ИИ: регистрация, выделение признаков, классификация.
  • Модель выделения признаков изображения и построения карт признаков.
  • Модель нейросетевого классификатора множества признаков.
  • Cверточная нейросетевая модель для классификации изображения.
  • Теоремы об аппроксимации.
  • Типы нейросетевых архитектур моделей для решения основных задач компьютерного зрения.
  • Структура глаза, колбочки и палочки, их пространственная организация и функции, рецептивные поля.
  • Модель регистрации и первичной обработки изображения в сетчатке и зрительной коре головного мозга.
  • Механизм внимания, неустойчивость визуального восприятия и оптические иллюзии.

Математические модели регистрации и представления изображений

Презентация: (PDF, 3,11 МБ) — обновление 22.03.2026.

  • Регистрация изображения. Математическая модель и устройство видеокамеры.
  • Квантование видео сигнала сенсора в видеокамере, получение цифрового изображения. Квантователь Ллойда-Макса, равномерное и неравномерное квантование.
  • Дискретизация сигнала сенсора в видеокамере. Теорема отсчетов Котельникова-Найквиста.
  • Модели представления изображений: функциональное, матричное, статистическое. Представление цветных изображений, маска Байера.
  • Основания трех-цветовой модели, субъективные характеристики света. Основные цветовые модели: RGB,HSI,HSV,YUV.
  • Гистограмма яркости изображения. Статистические характеристики гистограмм.

Поэлементные операции над изображениями

Презентация: [[.|(PDF)]] — обновление .

  • Адаптивная бинаризация изображения с использованием гистограммы.
  • Линейные операции с гистограммой яркости и нелинейные эффекты, насыщение. Нормализация яркости и контрастности.
  • Нелинейные операции с гистограммой яркости. Степенные, полиномиальные и кусочно-линейные преобразования. Приведение гистограммы яркости, эквализация.
  • Алгебраические преобразования изображения. Модели статического фона и фильтрация аддитивного шума.

Модели линейных систем обработки изображения

Презентация: [[.|(PDF)]] — обновление .

  • Понятие свертки и элементарные фильтры: сглаживания, взвешенного усреднения, операторы производных первого и второго порядка, повышение четкости, нерезкое маскирование.
  • Элементы теории линейных систем. Характеристические функции системы обработки изображения.
  • Импульсная характеристика, интеграл суперпозиции системы, интеграл свертки, ядро свертки.
  • Переходная характеристика, передаточная функция, амплитудно-фазовая частотная характеристика.
  • Спектральная теорема о свертке и ее применение к элементарным фильтрам в пространственной области.

Спектральные методы реконструкции изображений

Презентация: [[.|(PDF)]] — обновление .

  • Применение теоремы о свертке в непрерывном случае для реконструкции изображения.
  • Инверсная фильтрация, инверсная фильтрация с отсечением
  • Винеровская фильтрация изображения, фильтрация с регуляризацией по Тихонову.
  • Модели искажений изображения и реконструкция. Модели расфокусировки, размытости вследствие движения камеры, турбулентности атмосферы.
  • Прямое измерение функции рассеяния точки (ФРТ).

Элементы дискретной теории фильтрации изображений

Презентация: [[.|(PDF)]] — обновление .

  • Дискретное преобразование Фурье (ДПФ) и его свойства.
  • Теорема о свертке в дискретном случае. Линейная и циклическая свертка.
  • Уравнение Винера-Хопфа. Винеровский фильтр, вывод для дискретного случая.
  • Решение уравнения Винера-Хопфа для линейной модели искажения с аддитивным шумом.
  • Быстрое преобразование Фурье (БПФ).
  • Дискретная низкочастотная фильтрация (НЧ): идеальный НЧ-фильтр и эффект Гиббса, НЧ-фильтр Баттерворта, Гаусса, усреднения.
  • Дискретная высокочастотная фильтрация (ВЧ): идеальный ВЧ-фильтр, ВЧ-фильтр Баттерворта, Гаусса, Лапласа.
  • Режекторная, полосовая и узкополосная фильтрация.
  • Адаптивная фильтрация шума на основе оценивания его параметров.
  • Спектральная модель канального механизма внимания.
  • Нейросетевые реализации канального механизма внимания в сверточных сетях.

Алгебраические методы реконструкции изображений

Презентация: [[.|(PDF)]] — обновление .

  • Структура матриц линейного оператора для обработки изображения.
  • Линейная и циклическая свертка в матричном виде, матрица Теплица и циркулярная матрица, матрица ДПФ.
  • Решение обратной линейной задачи в матричном виде.
  • Обобщенно-обратная матрица для случаев переопределенной и недоопределенной систем.
  • Случаи полного и неполного ранга матрицы, решения с регуляризацией и сингулярным разложением.
  • Модель линейного искажения с аддитивным шумом. Матричная винеровская оценка.
  • Алгебраическая реставрация со сглаживанием, регуляризация по Тихонову.

Нелинейная фильтрация

Презентация: [[.|(PDF)]] — обновление .

  • Локальная нормализация, эквализация.
  • Билатеральный фильтр.
  • Фильтры порядковых статистик. Влияние размера окна фильтрации.
  • Понятие адаптивной фильтрации, адаптивный линейный и медианный фильтры.
Математическая морфология
  • Морфологические операции на дискретных изображениях, случаи бинарного и полутонового изображений.
  • Дилатация и эрозия, их двойственность.
  • Операции Открытия и Замыкания, их двойственность.
  • Морфологическая фильтрация, сглаживающий фильтр, морфологический градиент.
  • Обобщение морфологических операций на полутоновые изображения.

Геометрические преобразования изображения

Презентация: [[.|(PDF)]] — обновление .

  • Преобразование системы координат. Аффинное преобразование, полиномиальное преобразование второго порядка.
  • Интерполяция значений яркости. Интерполяция по ближайшему соседу, билинейная, бикубическая интерполяция.
  • Интерполяционные сверточные ядра, ядро Котельникова, ядро Ланцоша.
  • Прямоугольное и треугольное ядра, В-сплайны и гауссовские ядра.


Семестр 2

Количество информации, информативные признаки

Презентация: [[.|(PDF)]] — обновление .

  • Элементы теории информации, формула Хартли и Шенона.
  • Показатели количества информации изображения, энтропия, коэффициент избыточности.
  • Марковская модель, связь энтропии яркости пикселя и его окрестности на изображении.
  • Понятие избыточности изображения, кодовая избыточность, межэлеменетная избыточность, визуальная избыточность.
  • Уменьшение избыточности элемента на основе разностных преобразований.
  • Понятие информативных элементов на основе марковской модели межэлементной избыточности.

Спектральный анализ изображения

Презентация: [[.|(PDF)]] — обновление .

  • Декоррелирующее ортогональное преобразование, Метод Главных компонент (МГК). Связь с нейросетевой моделью автоэнкодера.
  • Преобразование Карунена-Лоэва для изображения как реализации стационарного процесса.
  • Аппроксимация преобразования Карунена-Лоэва для марковского процесса.
  • Спектральный анализ на основе ортогональных преобразований: Фурье, синусное, косинусное, Уолша, Адамара, Хаара.
  • Сжатие изображения на основе перераспределения энтропии. Основные элементы алгоритмов JPEG, MPEG/H.26x.

Нестационарный анализ изображения.

Презентация: [[.|(PDF)]] — обновление .

  • Локально-стационарный анализ изображения.
  • Функция окна, интегральное оконное преобразование Фурье (ОПФ).
  • Кратковременное Преобразование Фурье, выбор оптимальной функция окна, принцип неопределенности.
  • Прямое и обратное преобразование Габора, его использование в прикладных системах компьютерного зрения.

Введение в вейвлет теорию.

Презентация: [[.|(PDF)]] — обновление .

  • Интегральное вейвлет-преобразование (ИВП). Базисная фейвлет-функция, локализация вейвлет-функции в пространственной и частотной областях.
  • Дискретное вейвлет-преобразование (ДВП). Условие устойчивости для вейвлет-ряда, фрейм в конечномерном пространстве.
  • Разложение функции по биортогональной системе вейвлетов. Вейвлет Морле, DOG.
  • Кратномасштабный анализ. Гауссовская и лапласовская пирамида.
  • Масштабирующая и вейвлетные функции. Вейвлеты Хаара.
  • Анализ мод вейвлет-преобразования, выделение пространственной и частотной структуры изображения.
  • Алгоритмы вейвлет-сжатия изображений, JPEG2000.

Согласованная фильтрация, выделение признаков и привязка изображений

Презентация: [[.|(PDF)]] — обновление .

  • Оператор декорреляции в согласованной фильтрации, сопоставление в пространстве признаков. Теорема о корреляции, применение ДПФ для поиска паттерна.
  • Дескрипторы изображения для задач анализа изображения в пространстве признаков.
  • Выделение краев: операторы Прюитта, Собеля, Кэнни.
  • Параметризация прямых на основе преобразования Хафа.
  • Дескрипторы HOG, LBP, SIFT. Привязка изображений по дескрипторам.
  • Пирамида признаков в предобученных глубоких нейросетевых моделях.
  • Нейросетевые модели детекции: R-CNN, YOLO, DETR

Текстура и сегментация

Презентация: [[.|(PDF)]] — обновление .

  • Текстура и методы её анализа
  • Понятие связности. Метод «лесного пожара».
  • Сегментация методами водораздела и квадрирования.
  • Диаграммы Вороного
  • Нейросетевые модели сегментации: U-Net, Mask R-CNN, SAM (Segment Anything Model).

Оптические потоки

Презентация: [[.|(PDF)]] — обновление .

  • Алгоритмы Лукаса-Канаде, Хорна-Шунка.
  • Нейросетевая модель RAFT.


Дополнительные лекции

Презентация: [[.|(PDF)]] — обновление .

  • Механизмы внимания в нейронных сетях.


Семинары и домашние задания

Oрганизация рабочей среды

Презентация: [[.|(PDF)]] — обновление .

  • Установка Docker, создание Dockerfile
  • Вызов функций C в Python (Ctypes)
  • Вызов функций C++ в Python (Pybind11)


Домашние задания

Задание 1

Текст пособия: [[.|Практика программирования в обработке изображений]] — обновление .

  • Элементы компьютерной графики на С. Реализовать библиотеку функций на С рисования и преобразования цветного изображения. Вызвать функции из Юпитер-ноутбука.
  • Реализовать низкочастотный усредняющий фильтр с квадратным ядром. Вызвать функции из Юпитер-ноутбука.
  • Реализовать высокочастотный фильтр Собеля, Лапласа, нерезкого маскирования. Вызвать функции из Юпитер-ноутбука.
  • Оптимизировать фильтр с усредняющим квадратным ядром на С. Вызвать функции из Юпитер-ноутбука и построить графики зависимости скорости работы функций от значения размера ядра для оптимизированного алгоритма и прямой реализации на C и на Python.

Задание 2

  • Обучить нейросетевую модель ResNet-18 на CIFAR-10 для задачи классификации с оптимизатором Adam c простой аугментацией горизонтальным зеркалированием.
  • Оценить Accuracy на тесте, построить интегральную ROC (логарифмический масштаб по FPR).
  • Исследовать влияние параметров lr и wd оптимизатора на результат. Построить зависимость точности обученной модели от сочетания параметров оптимизатора.
  • Исследовать влияние аугментации на результат.

Необходимое программное обеспечение

  • среда разработки и компилятор языка C/C++
  • библиотека OpenCV
  • среда разработки Python
  • доступ с Google Colab


Литература

Основная литература

  1. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М., Техносфера, 2005 – 1072 с.
  2. Pratt, W.K. Introduction to Digital Image Processing. CRC Press, 2013. (на рус.яз: Прэтт У. Цифровая обработка изображений: Пер. с англ.—М.: Мир, 1982.)
  3. Методы компьютерной обработки изображений. Под ред. В.А.Сойфера. М., Физматлит, 2003. – 780 с.
  4. Добеши И. Десять лекций по вейвлетам. — Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001, - 464 с.
  5. Шапиро Л, Стокман Дж. Компьютерное зрение. М., БИНОМ. Лаборатория знаний, 2006 – 752 с.
  6. Яне Б. Цифровая обработка изображений М.: Техносфера, 2007 – 584 с.
  7. Duda R.O., Hart P.E., Stork D.G Pattern classification. New York, Wiley Interscience Publication, 2001 – 654 p.
  8. Бишоп Кристофер М. Распознавание образов и машинное обучение. Вильямс, 2020 - 960 с.

Дополнительная литература

  1. Ту Дж., Гонсалес Р. Принципы распознавания образов. М., Мир, 1978 – 412 с.
  2. Фукунага К. Введение в статистическую теорию распознавания образов. М., Наука, 1979 – 368 с.
  3. Форсайт Д, Понс Ж. Компьютерное зрение. Современный подход. М., Издательский дом «Вильямс», 2004 – 928 с.
  4. Сергей Николенко, Е. В. Архангельская, А. Кадурин. Глубокое обучение. Погружение в мир нейронных сетей. 481 с.
  5. Сергей Николенко. Машинное обучение: основы. Издательство Питер, 2025 – 608 c.
  6. Марр Д. ЗРЕНИЕ: Информационный подход к изучению представления и обработки зрительных образов. М., «Радио и связь». 1987.
  7. Харман Г. Современный факторный анализ. М., Статистика, 1972 – 486 с.
  8. Шеффе Г. Дисперсионный анализ. М., Наука. 1980 – 512 с.
  9. Факторный дискриминантный и кластерный анализ. Под ред. И.С. Енюкова. М., Финансы и статистика, 1989 – 215 с.
  10. Гренандер У. Лекции по теории образов м.: Мир, 1981 – 448 с.


Программу составил
А.Н.Гнеушев, доцент, к.ф.-м.н.

См. также

Список подстраниц

Обработка изображений в системах искусственного интеллекта (курс лекций, А.Н.Гнеушев)/Вопросы 1 семестр
Личные инструменты