Перплексия

Материал из MachineLearning.

Версия от 16:17, 1 июля 2026; Iaroslav Lyakhov (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Статья написана с использованием LLM Claude Opus 4.8 и проверена участником Iaroslav Lyakhov 20:17, 1 июля 2026 (MSD)


Содержание

Перплексия (англ. perplexity) - мера качества вероятностной языковой модели, показывающая, насколько хорошо модель предсказывает текст. Неформально перплексия - это среднее число равновероятных вариантов, между которыми модель «колеблется» на каждом шаге. Чем ниже перплексия, тем увереннее и точнее модель предсказывает следующий токен. Это стандартная метрика для сравнения языковых моделей.

Определение

Для последовательности W = w_1 w_2 \dots w_N перплексия определяется как экспонента от средней отрицательной логарифмической вероятности (кросс-энтропии):

\mathrm{PPL}(W) = \exp\!\left(-\frac{1}{N}\sum_{i=1}^{N} \ln P(w_i \mid w_1,\dots,w_{i-1})\right)

Эквивалентно, \mathrm{PPL} = b^{H}, где H - кросс-энтропия в логарифме по основанию b. Таким образом, перплексия - это просто экспонента средней функции потерь (логарифмических потерь), которую модель и минимизирует при обучении по принципу минимизации эмпирического риска. Это делает перплексию естественной метрикой качества.

Интерпретация

  • «Степень удивления». Перплексия 1 означает идеальное предсказание. Перплексия k примерно соответствует ситуации, когда на каждом шаге модель выбирает из k одинаково вероятных вариантов. Например, модель, для которой следующий символ равновероятен среди шести исходов (как бросок честной игральной кости), имеет перплексию 6.
  • Верхняя граница. Для словаря размера V модель, дающая равномерное распределение, имеет перплексию V. Осмысленная модель должна быть значительно ниже.
  • Пример. Хорошие современные модели на английских текстах достигают перплексии порядка единиц-десятков (в зависимости от токенизации и корпуса).

Ограничения

  • Зависимость от токенизации и словаря. Перплексии двух моделей сравнимы, только если у них одинаковый токенизатор и тестовый набор. Модель с более дробной токенизацией может показывать иные значения.
  • Не измеряет полезность. Низкая перплексия говорит о хорошем моделировании распределения текста, но не гарантирует фактическую точность, отсутствие галлюцинаций или полезность ответов. Поэтому для оценки прикладного качества используют отдельные бенчмарки.
  • Неприменима к некоторым моделям. Для моделей, не задающих явного авторегрессионного распределения (например, ряда маскированных или диффузионных), перплексия определяется иначе или неинформативна.

Применение

  • Мониторинг обучения: падение перплексии на валидации - признак прогресса.
  • Сравнение архитектур и оценка влияния размера модели (законы масштабирования формулируются через потери/перплексию).
  • Обнаружение сдвига домена: рост перплексии на новых данных сигнализирует, что текст «непривычен» модели.

См. также

Литература

  • Jelinek F., Mercer R. L., Bahl L. R., Baker J. K. Journal of the Acoustical Society of America. — 1977. — Т. 62.
  • Jurafsky D., Martin J. H. Speech and Language Processing. — 3-е изд. (черновик). — 2024.
Личные инструменты