L0-регуляризация
Материал из MachineLearning.
| | Статья написана с использованием LLM DeepSeek V3 и проверена участником Artyom Savov 15:28, 28 июня 2026 (MSD) |
L0-регуляризация — метод регуляризации в машинном обучении и статистике, основанный на прямой минимизации числа ненулевых параметров модели. В отличие от широко распространённых L1- и L2-регуляризации, L0-штраф непосредственно контролирует разреженность — количество используемых признаков, весов или нейронов. Это делает его эталонным инструментом для отбора признаков, построения сжатых интерпретируемых моделей и снижения вычислительных затрат. Точное решение L0-регуляризованной задачи сопряжено с комбинаторной сложностью и является NP-трудной[1].
Формальная постановка
В задачах обучения с учителем целевую функцию представляют как сумму эмпирического риска и штрафного слагаемого:
где
-
— функция потерь (например, MSE для линейной регрессии или логистическая потеря для логистической регрессии);
-
— вектор параметров модели;
-
— L0-норма (L0 norm), определяемая как число ненулевых элементов:
;
-
— гиперпараметр, управляющий силой регуляризации.
Функция не является нормой в математическом смысле (не удовлетворяет положительной однородности и неравенству треугольника), однако термин закрепился из-за аналогии с Lp-нормами. Прямая оптимизация эквивалентна задаче выбора наилучшего подмножества признаков (best subset selection).
Связь с информационными критериями
Для линейной регрессии с аддитивным гауссовским шумом минимизация среднеквадратичной ошибки
при , где
— дисперсия шума, эквивалентна критерию Акаике (AIC), а при
— байесовскому информационному критерию (BIC)[1][1]. Таким образом, L0-штраф унифицирует управление компромиссом между качеством подгонки и сложностью модели, а известные свойства состоятельности BIC и эффективности AIC переносятся на L0-регуляризованные оценки.
Геометрический смысл
Геометрия единичного шара -нормы объясняет жёсткую разреженность L0-решений. При
множество
стягивается к координатным осям, образуя "координатный крест". Наложение такого ограничения приводит к тому, что точка касания с линиями уровня функции потерь почти всегда лежит на одной из осей; большинство компонент обнуляются. Напротив, выпуклая L1-норма даёт ромбовидную область, лишь способствующую разреженности, а L2-норма — сферу, не поощряющую нулевые коэффициенты. Максимальная разреживающая способность L0-штрафа обусловлена этой топологической особенностью.
Влияние на VC-размерность
Ограничение снижает VC-размерность (Vapnik-Chervonenkis dimension) линейных моделей с
до
[1]. При
модель сохраняет способность к обобщению, что обеспечивает защиту от переобучения в ультравысокоразмерных режимах, когда число признаков на порядки превосходит число наблюдений.
Назначение
Непосредственный контроль степени разреженности обеспечивает следующие преимущества:
- Явный отбор признаков. Модель полностью исключает нерелевантные переменные, что критично для интерпретируемости в биоинформатике, медицине и эконометрике.
- Сжатие моделей. L0-регуляризация применима к внутренним представлениям нейронных сетей для прунинга весов, нейронов или каналов.
- Несмещённость оценок. В отличие от Lasso, L0-штраф не стягивает ненулевые коэффициенты к нулю, а лишь принимает решение об обнулении. При фиксированной поддержке оценки остаются несмещёнными.
Методы решения L0-регуляризованных задач
Из-за комбинаторной природы задачи разработаны приближённые и эвристические алгоритмы.
1. Жадные алгоритмы
Итеративно наращивается множество активных признаков.
- Поиск по соответствию (Matching Pursuit, MP) и его ортогональная версия OMP (Orthogonal Matching Pursuit) — для задач восстановления разреженных сигналов[1].
- Прямое пошаговое включение/исключение (stepwise selection) — процедуры для регрессионных моделей, на каждом шаге добавляющие или удаляющие один признак по статистическому критерию.
2. Выпуклая релаксация: L1-регуляризация
Замена на
приводит к Lasso[1] — выпуклой задаче, решаемой координатным спуском или проксимальным градиентным спуском. При выполнении ограниченного изометрического свойства (RIP) или условий некогерентности решение L1-задачи совпадает с L0-решением[1]. На практике Lasso вносит смещение и может отбирать избыточные признаки.
3. Невыпуклые аппроксимации
Гладкие невыпуклые штрафы точнее имитируют L0:
- SCAD (Smoothly Clipped Absolute Deviation)[1] — квадратичный штраф вблизи нуля и постоянный для больших значений.
- MCP (Minimax Concave Penalty)[1] — сохраняет выпуклость в начальной области и быстро выходит на константу.
- Log-штраф
и
-нормы при
— способствуют сильной разреженности, но требуют специальных техник (например, перевзвешенный L1).
4. Итеративное жёсткое пороговое преобразование
Iterative Hard Thresholding (IHT)[1] — проксимальный алгоритм для задач с ограничением на разреженность:
где оставляет
наибольших по модулю компонент и обнуляет остальные. Сходимость к локальному минимуму достигается при подходящем выборе шага
.
5. Точные методы и MILP-решатели
Сведение к MILP (см. выше) и использование ветвей и границ[1] позволяют находить глобальный оптимум для задач малой и средней размерности. Пакет L0Learn[1] реализует координатный спуск с локальным комбинаторным поиском и успешно решает задачи L0-регуляризованной регрессии для тысяч признаков.
6. Байесовский подход
В байесовской парадигме L0-регуляризация соответствует априорному распределению Spike-and-slab[1] — смеси точечной массы в нуле и широкого распределения для ненулевых коэффициентов. Вариационный вывод и MCMC-методы позволяют оценивать вероятности включения переменных и строить разреженные прогнозные модели.
L0-регуляризация в нейронных сетях
Развитие непрерывных релаксаций, допускающих градиентную оптимизацию, сделало возможным применение L0-регуляризации в нейронных сетях.
Прунинг и обучение разреженных структур
Прямое применение L0-штрафа подразумевает обнуление целых групп параметров. Классический прунинг по величине весов (magnitude pruning) связан с L0-целью лишь эвристически.
L0-регуляризация с непрерывным маскированием
Метод Hard Concrete Distribution[1] вводит для каждого параметра непрерывно-распределённую маску, аппроксимирующую дискретную 0/1 переменную. Ожидаемое значение L0-нормы становится дифференцируемым, что позволяет применять SGD и совместно оптимизировать веса и структуру сети. Подход используется для сжатия архитектур, разреживания внимания в трансформерах и автоматического поиска архитектуры.
Гипотеза лотерейного билета и динамическая разреженность
Lottery Ticket Hypothesis[1] утверждает, что внутри плотной сети можно найти разреженную подсеть, обучающуюся не хуже исходной. Это стимулировало развитие динамической разреженной тренировки (dynamic sparse training, DST)[1], где структура разреженности меняется в процессе обучения, часто с явным ограничением на количество ненулевых связей, эквивалентным L0-регуляризации с фиксированным бюджетом.
Программные инструменты
- L0Learn (R/Python) — пакет для L0-регуляризованной линейной и логистической регрессии на основе координатного спуска с комбинаторными улучшениями[1].
- glmnet (R/Python) — реализация Lasso и эластичной сети; часто используется как выпуклая альтернатива.
- scikit-learn — содержит Lasso, OrthogonalMatchingPursuit, стратегии отбора признаков.
- PyTorch / TensorFlow — реализация L0-регуляризации через hard concrete distribution доступна в виде отдельных библиотек (например, `l0-regularization-pytorch`).
- Gurobi / CPLEX — солверы для точного решения MILP-формулировок задачи best subset selection.
Сравнение с другими видами регуляризации
| Характеристика | L0-регуляризация | L1-регуляризация (Lasso) | L2-регуляризация (Ridge) |
|---|---|---|---|
| Вид штрафа | | | |
| Свойство штрафа | Невогнутый, негладкий | Выпуклый, негладкий в 0 | Выпуклый, гладкий |
| Степень разреженности | Максимальная (жёсткая) | Высокая | Нулевая (только сжатие) |
| Смещение ненулевых коэффициентов | Отсутствует (теоретически) | Присутствует | Присутствует |
| Вычислительная сложность точного решения | NP-трудна | Полиномиальная | Аналитическая (для MSE) |
| Интерпретируемость | Идеальная | Хорошая | Слабая (все признаки) |
Актуальные исследования и перспективы
Область применения L0-регуляризации расширена за пределы классической регрессии:
- Сжатие больших языковых моделей. L0-штраф на маски внимания и промежуточные представления позволяет адаптивно снижать вычислительные затраты во время инференса[1].
- Обучение "рождением и смертью" нейронов. Методы, явно управляющие числом активных нейронов через L0-ограничения, демонстрируют конкурентоспособность в условиях ограниченных ресурсов.
- Теоретические гарантии. Анализ ландшафта невыпуклых L0-аппроксимаций показывает, что при определённых условиях градиентные методы сходятся к глобально оптимальной разреженной модели, минуя плохие локальные минимумы.
L0-регуляризация остаётся эталонной целью в задачах, требующих полного устранения лишних степеней свободы. Гибридные численные схемы, сочетающие непрерывную оптимизацию и дискретный поиск, стирают грань между классическим отбором признаков и современным глубоким обучением.
См. также
- Регуляризация
- L1-регуляризация (Lasso)
- L2-регуляризация (Ridge)
- Эластичная сеть (Elastic Net)
- Отбор признаков (Feature Selection)
- Разреженное кодирование (Sparse Coding)
- Прунинг нейронных сетей (Neural Network Pruning)
- Гипотеза лотерейного билета (Lottery Ticket Hypothesis)
- Dynamic Sparse Training

