Перплексия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: {{well|Статья написана с использованием LLM '''Claude Opus 4.8''' и проверена участником ~~~~}} {{TOCright}} '''Перплексия''' ...)
 
Строка 1: Строка 1:
-
{{well|Статья написана с использованием LLM '''Claude Opus 4.8''' и проверена участником [[Участник:Iaroslav Lyakhov|Iaroslav Lyakhov]] 20:17, 1 июля 2026 (MSD)}}
+
{{well|Статья написана с использованием LLM '''Claude Opus 4.8''' и проверена участником [[Участник:Iaroslav Lyakhov|Iaroslav Lyakhov]] 21:37, 1 июля 2026 (MSD)}}
{{TOCright}}
{{TOCright}}
Строка 33: Строка 33:
== Литература ==
== Литература ==
-
* {{статья |автор=Jelinek F., Mercer R. L., Bahl L. R., Baker J. K. |часть=Perplexity - a measure of the difficulty of speech recognition tasks |заглавие=Journal of the Acoustical Society of America |том=62 |год=1977}}
+
* {{статья |автор=Jelinek F., Mercer R. L., Bahl L. R., Baker J. K. |часть=Perplexity - a measure of the difficulty of speech recognition tasks |заглавие=Journal of the Acoustical Society of America |том=62 |номер=S1 |страницы=S63 |год=1977}}
-
* {{книга |автор=Jurafsky D., Martin J. H. |заглавие=Speech and Language Processing |издание=3-е изд. (черновик) |год=2024 |ссылка=https://web.stanford.edu/~jurafsky/slp3/}}
+
* {{книга |автор=Jurafsky D., Martin J. H. |заглавие=Speech and Language Processing |издание=3-е изд. (черновик от 24 августа 2025) |год=2025 |ссылка=https://web.stanford.edu/~jurafsky/slp3/}}
[[Категория:Машинное обучение]]
[[Категория:Машинное обучение]]
[[Категория:Анализ текстов]]
[[Категория:Анализ текстов]]

Текущая версия

Статья написана с использованием LLM Claude Opus 4.8 и проверена участником Iaroslav Lyakhov 21:37, 1 июля 2026 (MSD)


Содержание

Перплексия (англ. perplexity) - мера качества вероятностной языковой модели, показывающая, насколько хорошо модель предсказывает текст. Неформально перплексия - это среднее число равновероятных вариантов, между которыми модель «колеблется» на каждом шаге. Чем ниже перплексия, тем увереннее и точнее модель предсказывает следующий токен. Это стандартная метрика для сравнения языковых моделей.

Определение

Для последовательности W = w_1 w_2 \dots w_N перплексия определяется как экспонента от средней отрицательной логарифмической вероятности (кросс-энтропии):

\mathrm{PPL}(W) = \exp\!\left(-\frac{1}{N}\sum_{i=1}^{N} \ln P(w_i \mid w_1,\dots,w_{i-1})\right)

Эквивалентно, \mathrm{PPL} = b^{H}, где H - кросс-энтропия в логарифме по основанию b. Таким образом, перплексия - это просто экспонента средней функции потерь (логарифмических потерь), которую модель и минимизирует при обучении по принципу минимизации эмпирического риска. Это делает перплексию естественной метрикой качества.

Интерпретация

  • «Степень удивления». Перплексия 1 означает идеальное предсказание. Перплексия k примерно соответствует ситуации, когда на каждом шаге модель выбирает из k одинаково вероятных вариантов. Например, модель, для которой следующий символ равновероятен среди шести исходов (как бросок честной игральной кости), имеет перплексию 6.
  • Верхняя граница. Для словаря размера V модель, дающая равномерное распределение, имеет перплексию V. Осмысленная модель должна быть значительно ниже.
  • Пример. Хорошие современные модели на английских текстах достигают перплексии порядка единиц-десятков (в зависимости от токенизации и корпуса).

Ограничения

  • Зависимость от токенизации и словаря. Перплексии двух моделей сравнимы, только если у них одинаковый токенизатор и тестовый набор. Модель с более дробной токенизацией может показывать иные значения.
  • Не измеряет полезность. Низкая перплексия говорит о хорошем моделировании распределения текста, но не гарантирует фактическую точность, отсутствие галлюцинаций или полезность ответов. Поэтому для оценки прикладного качества используют отдельные бенчмарки.
  • Неприменима к некоторым моделям. Для моделей, не задающих явного авторегрессионного распределения (например, ряда маскированных или диффузионных), перплексия определяется иначе или неинформативна.

Применение

  • Мониторинг обучения: падение перплексии на валидации - признак прогресса.
  • Сравнение архитектур и оценка влияния размера модели (законы масштабирования формулируются через потери/перплексию).
  • Обнаружение сдвига домена: рост перплексии на новых данных сигнализирует, что текст «непривычен» модели.

См. также

Литература

  • Jelinek F., Mercer R. L., Bahl L. R., Baker J. K. Journal of the Acoustical Society of America. — 1977. — Т. 62. — № S1. — С. S63.
  • Jurafsky D., Martin J. H. Speech and Language Processing. — 3-е изд. (черновик от 24 августа 2025). — 2025.
Личные инструменты