Group Relative Policy Optimization

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Ilia Prokofev (Обсуждение | вклад)
(Новая: {{well|Статья написана с использованием LLM '''OpenAI GPT-5''' и проверена участником ~~~~}} '''Group Relative Policy Optimization''' ('...)
К следующему изменению →

Версия 09:40, 16 июня 2026

Статья написана с использованием LLM OpenAI GPT-5 и проверена участником Ilia Prokofev 13:40, 16 июня 2026 (MSD)


Group Relative Policy Optimization (GRPO) — метод обучения с подкреплением для дообучения больших языковых моделей, в котором обновление политики строится не на основе отдельной модели ценности, а на основе относительного сравнения нескольких ответов, сгенерированных для одного и того же запроса. Метод приобрёл известность после работы DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (arXiv:2402.03300), где он был представлен как вариант Proximal Policy Optimization (PPO), уменьшающий затраты памяти и упрощающий оптимизацию.

Главная идея GRPO состоит в том, что качество ответа можно оценивать не абсолютно, а относительно других ответов из той же группы. Для каждого запроса модель генерирует несколько вариантов решения, после чего для них вычисляются награды и строятся нормированные относительные преимущества. Благодаря этому удаётся отказаться от явного критика, сохранив при этом структуру policy optimization с ограничением на слишком резкие обновления политики.

Содержание

Мотивация

В классических actor-critic-методах, включая Proximal Policy Optimization, важную роль играет оценка преимущества действия, которая часто строится через функцию ценности или отдельный value head. Для больших языковых моделей такой подход может быть дорогим по памяти, чувствительным к качеству value-модели и не всегда устойчивым в задачах, где награда определяется внешним проверяющим механизмом.

В ряде современных задач, особенно в математическом и программном рассуждении, для одного и того же запроса можно получить несколько ответов и затем сравнить их по проверяемому критерию: правильности финального ответа, прохождению тестов, соответствию формату или другой rule-based reward. Это подсказывает более простой способ оценивания: сравнивать ответы внутри одной группы и использовать их относительное качество как замену advantage estimation.

Именно эту идею и реализует GRPO.

Основная идея

Пусть для запроса x текущая политика генерирует группу из G ответов:

y_1, y_2, \dots, y_G \sim \pi_{\theta_{\mathrm{old}}}(\cdot|x)

Для каждого ответа вычисляется награда r_i = r(x, y_i). Далее по этой группе строятся выборочные среднее и стандартное отклонение:

\mu = \frac{1}{G}\sum_{i=1}^{G} r_i
\sigma = \sqrt{\frac{1}{G}\sum_{i=1}^{G}(r_i-\mu)^2}

После этого каждому ответу сопоставляется относительное преимущество:

\hat{A}_i = \frac{r_i - \mu}{\sigma}

Тем самым ответ считается хорошим не сам по себе, а относительно остальных ответов из той же группы. Если награда ответа выше среднего по группе, его преимущество положительно; если ниже среднего — отрицательно.

Функция потерь

Как и в PPO, в GRPO используется отношение вероятностей новой и старой политик. Для ответа y_i оно записывается как

\rho_i(\theta) = \frac{\pi_\theta(y_i|x)}{\pi_{\theta_{\mathrm{old}}}(y_i|x)}

Основная clip-цель GRPO имеет вид

\mathcal{L}_{GRPO}(\theta) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G} \min\left( \rho_i(\theta)\hat{A}_i,\; \mathrm{clip}(\rho_i(\theta), 1-\varepsilon, 1+\varepsilon)\hat{A}_i \right)\right]

где \varepsilon — параметр clipping, ограничивающий слишком большие обновления политики.

Во многих практических реализациях к этому добавляется штраф за отклонение от опорной модели:

\mathcal{L}(\theta) = \mathcal{L}_{GRPO}(\theta) - \beta D_{KL}(\pi_\theta \| \pi_{\mathrm{ref}})

где \pi_{\mathrm{ref}} — reference policy, а \beta регулирует силу KL-регуляризации. В контексте языковых моделей этот член помогает сохранить общую языковую компетентность и не допустить слишком резкого смещения поведения.

Чем GRPO отличается от PPO

GRPO часто описывают как critic-free вариант PPO. Это полезное, хотя и слегка упрощённое описание.

Сходства:

  • обе схемы используют policy ratio;
  • обе используют clipping или близкие механизмы ограничения шага;
  • обе оптимизируют политику по внешнему сигналу награды;
  • обе могут включать KL-регуляризацию относительно опорной модели.

Отличия:

  • в PPO advantage обычно опирается на value function или critic;
  • в GRPO advantage строится из относительных наград внутри группы ответов;
  • GRPO особенно естественен там, где легко получить несколько candidate outputs для одного запроса;
  • метод часто оказывается удобным в задачах reasoning, где награда вычисляется по проверяемым правилам.

Именно отказ от явной value-модели сделал GRPO привлекательным для обучения крупных reasoning-моделей.

Интерпретация

С математической точки зрения GRPO использует внутригрупповую нормализацию наград как суррогат для преимущества. Это означает, что алгоритм не пытается точно оценить абсолютную ценность каждого ответа. Вместо этого он спрашивает: какие ответы в данной группе оказались лучше остальных?

Такой подход имеет два важных следствия.

Во-первых, оценка преимущества становится проще и дешевле, так как не нужно отдельно обучать critic. Во-вторых, обучение становится чувствительным к составу самой группы: один и тот же ответ может получить разный относительный сигнал в зависимости от того, с какими альтернативами он сравнивается.

Поэтому качество GRPO зависит не только от reward-функции, но и от того, насколько разнообразные и информативные выборки ответов генерируются для одного запроса.

Преимущества

У GRPO есть несколько практических достоинств.

  • Отсутствие отдельной value-модели снижает требования к памяти.
  • В задачах с проверяемой наградой метод легко реализовать.
  • Относительное сравнение ответов хорошо согласуется с задачами reasoning и multi-sample search.
  • Метод естественно сочетается с rule-based reward и автоматической верификацией.

Именно поэтому GRPO стал заметным инструментом в обучении reasoning-моделей, где можно автоматически проверять решение задачи по конечному ответу, формату или исполнению программы.

Ограничения

Несмотря на привлекательность, GRPO не является универсальным решением.

  • Если награды внутри группы почти одинаковы, нормализация становится шумной или малоинформативной.
  • При малом размере группы относительный сигнал может быть нестабилен.
  • Метод сравнивает ответы только внутри одной группы, а значит, сильно зависит от качества сэмплирования.
  • Если reward плохо отражает реальную цель, модель будет оптимизировать именно этот суррогат.
  • Отсутствие critic упрощает схему, но не всегда гарантирует лучшую sample efficiency.

Позднейшие работы также обращали внимание на проблемы низкой дисперсии наград, zero-variance collapse и нестабильности при многокритериальных ограничениях, что привело к появлению модификаций GRPO.

Связь с современными LLM

GRPO стал особенно заметен в исследованиях reasoning LLM, поскольку хорошо подходит для сценариев, где для одного запроса можно сгенерировать несколько цепочек рассуждений, проверить их внешним механизмом и затем обновить политику по относительному качеству этих цепочек.

В отличие от Direct Preference Optimization, который опирается на заранее собранные пары предпочтений, GRPO обычно работает в более явной RL-постановке: модель генерирует ответы, получает награды и обновляет политику on-policy или near-on-policy способом. По этой причине GRPO особенно часто обсуждается рядом с Proximal Policy Optimization, а не как вариация supervised fine-tuning.

В современных reasoning-системах GRPO часто сочетается с:

  • reward по правильности ответа;
  • format reward;
  • проверкой программ по тестам;
  • self-consistency и multi-sample generation;
  • rule-based или verifier-based оцениванием.

Исторический контекст

Термин GRPO получил широкое распространение после статьи DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (arXiv:2402.03300), опубликованной в 2024 году. Позднее метод стал обсуждаться и в контексте моделей семейства DeepSeek-R1, где critic-free или near-critic-free схемы обучения с проверяемыми наградами сыграли важную роль в развитии reasoning behavior.

В 2026 году появились и теоретические работы, анализирующие свойства GRPO, а также модификации для constrained optimization, multi-constraint instruction following и heterogeneous preference alignment. Это показывает, что GRPO быстро превратился из инженерной эвристики в самостоятельную исследовательскую линию.

См. также

Литература

  • Shao Z. et al. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. 2024.
  • Zhou H. et al. Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic. 2026.
  • Girgis R. et al. Constrained Group Relative Policy Optimization. 2026.