Перплексия

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Статья написана с использованием LLM Claude Opus 4.8 и проверена участником Iaroslav Lyakhov 21:37, 1 июля 2026 (MSD)

Содержание

1 Определение
2 Интерпретация
3 Ограничения
4 Применение
5 См. также
6 Литература

Перплексия (англ. perplexity) - мера качества вероятностной языковой модели, показывающая, насколько хорошо модель предсказывает текст. Неформально перплексия - это среднее число равновероятных вариантов, между которыми модель «колеблется» на каждом шаге. Чем ниже перплексия, тем увереннее и точнее модель предсказывает следующий токен. Это стандартная метрика для сравнения языковых моделей.

Определение

Для последовательности $W = w_1 w_2 \dots w_N$ перплексия определяется как экспонента от средней отрицательной логарифмической вероятности (кросс-энтропии):

$\mathrm{PPL}(W) = \exp\!\left(-\frac{1}{N}\sum_{i=1}^{N} \ln P(w_i \mid w_1,\dots,w_{i-1})\right)$

Эквивалентно, $\mathrm{PPL} = b^{H}$ , где $H$ - кросс-энтропия в логарифме по основанию $b$ . Таким образом, перплексия - это просто экспонента средней функции потерь (логарифмических потерь), которую модель и минимизирует при обучении по принципу минимизации эмпирического риска. Это делает перплексию естественной метрикой качества.

Интерпретация

«Степень удивления». Перплексия 1 означает идеальное предсказание. Перплексия $k$ примерно соответствует ситуации, когда на каждом шаге модель выбирает из $k$ одинаково вероятных вариантов. Например, модель, для которой следующий символ равновероятен среди шести исходов (как бросок честной игральной кости), имеет перплексию 6.
Верхняя граница. Для словаря размера $V$ модель, дающая равномерное распределение, имеет перплексию $V$ . Осмысленная модель должна быть значительно ниже.
Пример. Хорошие современные модели на английских текстах достигают перплексии порядка единиц-десятков (в зависимости от токенизации и корпуса).

Ограничения

Зависимость от токенизации и словаря. Перплексии двух моделей сравнимы, только если у них одинаковый токенизатор и тестовый набор. Модель с более дробной токенизацией может показывать иные значения.
Не измеряет полезность. Низкая перплексия говорит о хорошем моделировании распределения текста, но не гарантирует фактическую точность, отсутствие галлюцинаций или полезность ответов. Поэтому для оценки прикладного качества используют отдельные бенчмарки.
Неприменима к некоторым моделям. Для моделей, не задающих явного авторегрессионного распределения (например, ряда маскированных или диффузионных), перплексия определяется иначе или неинформативна.

Применение

Мониторинг обучения: падение перплексии на валидации - признак прогресса.
Сравнение архитектур и оценка влияния размера модели (законы масштабирования формулируются через потери/перплексию).
Обнаружение сдвига домена: рост перплексии на новых данных сигнализирует, что текст «непривычен» модели.

См. также

Литература

Jelinek F., Mercer R. L., Bahl L. R., Baker J. K. Journal of the Acoustical Society of America. — 1977. — Т. 62. — № S1. — С. S63.
Jurafsky D., Martin J. H. Speech and Language Processing. — 3-е изд. (черновик от 24 августа 2025). — 2025.

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D0%B5%D1%80%D0%BF%D0%BB%D0%B5%D0%BA%D1%81%D0%B8%D1%8F»

Категории: Машинное обучение | Анализ текстов

@@ Строка 1: / Строка 1: @@
-{{well|Статья написана с использованием LLM '''Claude Opus 4.8''' и проверена участником [[Участник:Iaroslav Lyakhov|Iaroslav Lyakhov]] 20:17, 1 июля 2026 (MSD)}}
+{{well|Статья написана с использованием LLM '''Claude Opus 4.8''' и проверена участником [[Участник:Iaroslav Lyakhov|Iaroslav Lyakhov]] 21:37, 1 июля 2026 (MSD)}}
 {{TOCright}}
@@ Строка 33: / Строка 33: @@
 == Литература ==
-* {{статья |автор=Jelinek F., Mercer R. L., Bahl L. R., Baker J. K. |часть=Perplexity - a measure of the difficulty of speech recognition tasks |заглавие=Journal of the Acoustical Society of America |том=62 |год=1977}}
+* {{статья |автор=Jelinek F., Mercer R. L., Bahl L. R., Baker J. K. |часть=Perplexity - a measure of the difficulty of speech recognition tasks |заглавие=Journal of the Acoustical Society of America |том=62 |номер=S1 |страницы=S63 |год=1977}}
-* {{книга |автор=Jurafsky D., Martin J. H. |заглавие=Speech and Language Processing |издание=3-е изд. (черновик) |год=2024 |ссылка=https://web.stanford.edu/~jurafsky/slp3/}}
+* {{книга |автор=Jurafsky D., Martin J. H. |заглавие=Speech and Language Processing |издание=3-е изд. (черновик от 24 августа 2025) |год=2025 |ссылка=https://web.stanford.edu/~jurafsky/slp3/}}
 [[Категория:Машинное обучение]]
 [[Категория:Анализ текстов]]

Перплексия

Материал из MachineLearning.

Текущая версия

Содержание

Определение

Интерпретация

Ограничения

Применение

См. также

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты