Перплексия
Материал из MachineLearning.
| | Статья написана с использованием LLM Claude Opus 4.8 и проверена участником Iaroslav Lyakhov 20:17, 1 июля 2026 (MSD) |
|
Перплексия (англ. perplexity) - мера качества вероятностной языковой модели, показывающая, насколько хорошо модель предсказывает текст. Неформально перплексия - это среднее число равновероятных вариантов, между которыми модель «колеблется» на каждом шаге. Чем ниже перплексия, тем увереннее и точнее модель предсказывает следующий токен. Это стандартная метрика для сравнения языковых моделей.
Определение
Для последовательности перплексия определяется как экспонента от средней отрицательной логарифмической вероятности (кросс-энтропии):
Эквивалентно, , где
- кросс-энтропия в логарифме по основанию
. Таким образом, перплексия - это просто экспонента средней функции потерь (логарифмических потерь), которую модель и минимизирует при обучении по принципу минимизации эмпирического риска. Это делает перплексию естественной метрикой качества.
Интерпретация
- «Степень удивления». Перплексия 1 означает идеальное предсказание. Перплексия
примерно соответствует ситуации, когда на каждом шаге модель выбирает из
одинаково вероятных вариантов. Например, модель, для которой следующий символ равновероятен среди шести исходов (как бросок честной игральной кости), имеет перплексию 6.
- Верхняя граница. Для словаря размера
модель, дающая равномерное распределение, имеет перплексию
. Осмысленная модель должна быть значительно ниже.
- Пример. Хорошие современные модели на английских текстах достигают перплексии порядка единиц-десятков (в зависимости от токенизации и корпуса).
Ограничения
- Зависимость от токенизации и словаря. Перплексии двух моделей сравнимы, только если у них одинаковый токенизатор и тестовый набор. Модель с более дробной токенизацией может показывать иные значения.
- Не измеряет полезность. Низкая перплексия говорит о хорошем моделировании распределения текста, но не гарантирует фактическую точность, отсутствие галлюцинаций или полезность ответов. Поэтому для оценки прикладного качества используют отдельные бенчмарки.
- Неприменима к некоторым моделям. Для моделей, не задающих явного авторегрессионного распределения (например, ряда маскированных или диффузионных), перплексия определяется иначе или неинформативна.
Применение
- Мониторинг обучения: падение перплексии на валидации - признак прогресса.
- Сравнение архитектур и оценка влияния размера модели (законы масштабирования формулируются через потери/перплексию).
- Обнаружение сдвига домена: рост перплексии на новых данных сигнализирует, что текст «непривычен» модели.
См. также
Литература
- Jelinek F., Mercer R. L., Bahl L. R., Baker J. K. Journal of the Acoustical Society of America. — 1977. — Т. 62.
- Jurafsky D., Martin J. H. Speech and Language Processing. — 3-е изд. (черновик). — 2024.

