Обработка изображений

Материал из MachineLearning.

Версия от 11:53, 5 июля 2026; Andrei Blinov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Статья написана с использованием LLM GPT-5.5 Thinking и проверена участником Andrei Blinov 14:53, 5 июля 2026 (MSD)

Обработка изображений — область информатики, математики и машинного обучения, изучающая методы представления, преобразования, улучшения и анализа изображений. В классическом понимании обработка изображений часто рассматривает изображение как сигнал: входом является изображение, а результатом может быть другое изображение, набор измерений, маска, признаки или решение прикладной задачи.

Обработка изображений тесно связана с компьютерным зрением, распознаванием образов, цифровой обработкой сигналов, математической статистикой и нейронными сетями.

Содержание

1 Интуитивное описание
2 Цифровое изображение
3 Основные задачи
4 Улучшение изображения
5 Шум и фильтрация
6 Границы и локальные признаки
7 Геометрические преобразования
8 Сегментация изображений
9 Регистрация изображений
10 Восстановление изображения
11 Сжатие изображений
12 Представление изображений в машинном обучении
13 Связь с компьютерным зрением
14 Обработка изображений в машинном обучении
15 Оценка качества
16 Типичные ошибки
17 См. также
18 Литература
19 Ссылки

Интуитивное описание

Изображение можно рассматривать как способ измерить свойства сцены: яркость, цвет, отражение света, температуру, плотность ткани, глубину или другую физическую величину. Обработка изображений отвечает на вопрос, как преобразовать такие измерения, чтобы получить более полезное представление.

Например, можно удалить шум с фотографии, повысить контраст медицинского снимка, выделить границы объектов, найти дефекты на промышленной детали, совместить несколько снимков одной сцены или подготовить изображение для нейронной сети.

В машинном обучении обработка изображений часто используется как предварительный этап: изображение нормализуют, масштабируют, очищают от шума, выделяют области интереса или преобразуют в формат, удобный для модели.

Цифровое изображение

Цифровое изображение обычно представляется как набор пикселей. Каждый пиксель хранит одно или несколько чисел, описывающих яркость или цвет в соответствующей точке.

Градационное изображение имеет один канал яркости. Цветное изображение обычно имеет несколько каналов, например красный, зелёный и синий в модели RGB. В медицинских и научных задачах изображение может иметь другие каналы: глубину, температуру, спектральные диапазоны или интенсивности разных датчиков.

Формально изображение можно рассматривать как функцию, заданную на дискретной сетке:

$I(x,y)=z.$

Здесь $x$ и $y$ — координаты пикселя, а $z$ — значение яркости или вектор значений каналов. В цветном изображении значение $z$ состоит из нескольких компонент.

Основные задачи

К типичным задачам обработки изображений относятся:

улучшение изображения;
подавление шума;
повышение или выравнивание контраста;
фильтрация;
выделение границ;
геометрические преобразования;
сегментация;
регистрация изображений;
восстановление изображения;
сжатие изображений;
извлечение признаков.

В прикладных системах эти задачи часто объединяются в конвейер. Например, перед распознаванием объекта изображение могут сначала нормализовать, очистить от шума, привести к нужному размеру, затем выделить область интереса и только после этого передать в классификатор.

Улучшение изображения

Улучшение изображения направлено на получение изображения, более удобного для визуального восприятия или дальнейшей обработки. Улучшение не обязательно восстанавливает физически правильную сцену; его цель — сделать важную информацию более заметной.

Примеры методов улучшения:

изменение яркости и контраста;
гамма-коррекция;
выравнивание гистограммы;
повышение резкости;
локальное усиление деталей.

Такие методы применяются в фотографии, медицине, микроскопии, спутниковых снимках и системах технического зрения.

Шум и фильтрация

Изображения часто содержат шум, возникающий при съёмке, передаче, сжатии или оцифровке. Шум может быть связан с датчиком, освещением, движением, квантованием или внешними помехами.

Фильтрация — один из основных способов обработки изображений. Фильтр преобразует значение пикселя с учётом значений соседних пикселей. Линейная фильтрация часто записывается через свёртку:

$g(x,y)=\sum_u\sum_v h(u,v)f(x-u,y-v).$

Здесь $f$ — исходное изображение, $h$ — фильтр, а $g$ — результат обработки.

Примеры фильтров:

сглаживающий фильтр уменьшает шум, но может размывать детали;
гауссов фильтр выполняет сглаживание с весами, убывающими от центра;
медианный фильтр хорошо подавляет импульсный шум;
фильтр повышения резкости усиливает локальные перепады яркости.

В машинном обучении свёртка также является базовой операцией свёрточных нейронных сетей, но в ней фильтры обычно обучаются по данным, а не задаются вручную.

Границы и локальные признаки

Граница на изображении обычно соответствует резкому изменению яркости, цвета или текстуры. Выделение границ используется для анализа формы, поиска контуров, предварительной сегментации и построения признаков.

Классические методы выделения границ используют локальные изменения яркости. В простейшем случае оценивают производные изображения по координатам. Если изменение яркости велико, точка может считаться принадлежащей границе.

Локальные признаки описывают небольшие области изображения. Они могут быть устойчивыми к сдвигам, поворотам, изменению масштаба или освещения. До широкого распространения глубокого обучения такие признаки часто использовались в задачах поиска соответствий, распознавания объектов и построения панорам.

Геометрические преобразования

Геометрические преобразования меняют координаты пикселей. Они используются для поворота, масштабирования, сдвига, выравнивания, исправления перспективы и приведения изображений к единой системе координат.

Примеры геометрических преобразований:

перенос;
поворот;
масштабирование;
аффинное преобразование;
перспективное преобразование;
нелинейная деформация.

При геометрическом преобразовании часто возникает необходимость вычислять значение изображения в точках, которые не совпадают с исходной сеткой пикселей. Для этого используют интерполяцию: например, ближайшего соседа, билинейную или бикубическую интерполяцию.

Сегментация изображений

Сегментация изображения — задача разбиения изображения на области, соответствующие объектам, частям объектов или однородным участкам. Результатом сегментации часто является маска, в которой каждому пикселю приписан класс или номер области.

Сегментация применяется в медицинской диагностике, анализе документов, автономном вождении, промышленном контроле, спутниковом мониторинге и биометрии.

Классические методы сегментации используют пороговую обработку, границы, области, графовые алгоритмы и статистические модели. Современные методы часто основаны на глубоком обучении и обучаются по размеченным изображениям.

Регистрация изображений

Регистрация изображений — задача совмещения нескольких изображений одной сцены, объекта или области. Необходимо найти преобразование, которое переводит координаты одного изображения в координаты другого.

Регистрация используется в медицинской визуализации, построении панорам, спутниковом анализе, обработке видео и сравнении снимков, полученных в разные моменты времени или разными датчиками.

Обычно регистрация включает выбор модели преобразования, поиск соответствующих точек или областей и оптимизацию меры совпадения между изображениями.

Восстановление изображения

Восстановление изображения отличается от простого улучшения тем, что обычно опирается на модель искажения. Предполагается, что наблюдаемое изображение получено из некоторого истинного изображения после размытия, добавления шума, сжатия или другого искажения.

Примеры задач восстановления:

устранение размытия;
подавление шума;
сверхразрешение;
восстановление пропущенных областей;
удаление артефактов сжатия.

В классических подходах используют модели шума, регуляризацию и оптимизацию. В современных подходах часто применяют нейронные сети и генеративные модели.

Сжатие изображений

Сжатие изображений уменьшает объём данных, необходимый для хранения или передачи изображения. Сжатие может быть без потерь или с потерями.

Сжатие без потерь позволяет точно восстановить исходное изображение. Сжатие с потерями допускает небольшие искажения, но обычно обеспечивает более сильное уменьшение размера файла.

Методы сжатия используют статистическую избыточность, особенности человеческого зрения, преобразования сигнала и квантование. В машинном обучении сжатие связано с задачами представления данных, автоэнкодерами и нейросетевыми кодеками.

Представление изображений в машинном обучении

Для алгоритма машинного обучения изображение должно быть представлено в виде данных фиксированной или управляемой структуры. В простых задачах изображение можно рассматривать как вектор пикселей. Однако такое представление часто плохо отражает пространственную структуру.

Более содержательные представления учитывают локальность, соседство пикселей, каналы, масштаб и инвариантность к преобразованиям. В классическом машинном обучении для этого использовали вручную заданные признаки: текстурные признаки, гистограммы градиентов, локальные дескрипторы и статистики областей.

В современном компьютерном зрении признаки часто извлекаются автоматически с помощью свёрточных нейронных сетей, трансформеров и других архитектур глубокого обучения.

Связь с компьютерным зрением

Обработка изображений и компьютерное зрение близки, но имеют разные акценты. Обработка изображений обычно сосредоточена на преобразовании изображения: улучшить, очистить, сжать, восстановить, выделить важные структуры. Компьютерное зрение чаще ставит задачу интерпретации изображения: распознать объект, понять сцену, оценить позу, найти действие или построить трёхмерную структуру.

На практике граница между ними размыта. Многие системы компьютерного зрения включают этапы обработки изображений, а современные методы обработки изображений часто используют модели машинного обучения.

Обработка изображений в машинном обучении

В машинном обучении обработка изображений выполняет несколько функций.

Во-первых, она используется для подготовки данных. Изображения приводят к единому размеру, нормализуют, корректируют цвет, обрезают, поворачивают или дополняют.

Во-вторых, она используется для увеличения обучающей выборки. Аугментация данных создаёт изменённые версии изображений: повороты, отражения, изменения яркости, случайные обрезки, размытие или шум. Это помогает модели лучше обобщать на новые данные.

В-третьих, обработка изображений используется как часть модели. Некоторые операции, например свёртка, интерполяция, нормализация и геометрические преобразования, могут быть дифференцируемыми и входить в обучаемый вычислительный граф.

В-четвёртых, обработка изображений применяется после работы модели. Например, после сегментации можно удалить мелкие компоненты, сгладить маску, уточнить границы или объединить области.

Оценка качества

Качество обработки изображений зависит от задачи. Если есть эталонное изображение, можно сравнивать результат с ним по численной мере. Если эталона нет, используют косвенные критерии, экспертную оценку или качество следующего этапа обработки.

Примеры критериев:

среднеквадратичная ошибка;
отношение сигнал-шум;
структурное сходство;
точность сегментации;
качество распознавания после предобработки;
визуальная оценка специалиста.

В прикладных задачах важно выбирать метрику, соответствующую конечной цели. Изображение, которое выглядит лучше человеку, не всегда даёт лучший результат для алгоритма распознавания, и наоборот.

Типичные ошибки

Путать обработку изображений и компьютерное зрение. Обработка часто преобразует изображение, а компьютерное зрение обычно интерпретирует его содержимое.
Применять фильтры без учёта задачи. Сглаживание может убрать шум, но одновременно уничтожить мелкие важные детали.
Оценивать результат только визуально. Для прикладной системы важно качество конечной задачи, а не только внешний вид изображения.
Нарушать согласованность данных. Предобработка обучающих и тестовых изображений должна быть совместимой.
Использовать информацию из будущего или из разметки. Это приводит к утечке данных и завышенной оценке качества.
Игнорировать физику получения изображения. Освещение, шум датчика, оптика и сжатие могут существенно влиять на данные.
Считать нейронную сеть заменой всей предобработки. Во многих задачах корректная нормализация, калибровка и контроль качества входов остаются критически важными.

См. также

Литература

Gonzalez R. C., Woods R. E. Digital Image Processing. Pearson, 2018.
Szeliski R. Computer Vision: Algorithms and Applications. Springer, 2022.
Jain A. K. Fundamentals of Digital Image Processing. Prentice Hall, 1989.
Sonka M., Hlavac V., Boyle R. Image Processing, Analysis, and Machine Vision. Cengage Learning, 2014.

Ссылки

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9»

Категории: Обработка изображений | Компьютерное зрение | Машинное обучение | Энциклопедия анализа данных