Галлюцинация

Материал из MachineLearning.

Версия от 13:27, 30 июня 2026; Liliia Davletova (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Статья написана с использованием LLM ChatGPT 5.5 и проверена участником Liliia Davletova


Содержание

Галлюцинация (машинное обучение)

Галлюцинация — явление, при котором генеративная модель, языковая модель или другая модель машинного обучения, предназначенная для генерации данных, производит правдоподобный, но фактически неверный, вымышленный или не соответствующий входным данным результат.

Термин получил широкое распространение после появления больших языковых моделей (LLM), однако аналогичные явления были известны значительно раньше в задачах машинного перевода, автоматического реферирования, генерации текста, генерации изображений и распознавание речи.

Определение

Единого общепринятого определения галлюцинации не существует. Наиболее распространённой считается трактовка, согласно которой галлюцинация — это генерация информации, которая:

  • отсутствует в исходных данных;
  • противоречит фактам;
  • не может быть подтверждена достоверными источниками;
  • представляется моделью как достоверная.

В обзоре Ji и соавторов (2023) галлюцинацией называется генерация текста, который является неверным относительно источника (unfaithful) либо лишённым смысла (nonsensical). В более поздних работах по большим языковым моделям особое внимание уделяется фактической достоверности ответа и его соответствию внешнему миру.

Почему возникают галлюцинации

Галлюцинации являются следствием вероятностной природы современных генеративных моделей. Большинство нейронных сетей обучаются предсказывать наиболее вероятное продолжение последовательности, а не проверять истинность утверждений.

Основные причины включают:

  • неполноту или ошибки обучающих данных;
  • ограниченную способность модели хранить знания;
  • отсутствие доступа к актуальной информации;
  • неоднозначность пользовательского запроса;
  • накопление ошибок при авторегрессионной генерации;
  • чрезмерную уверенность модели при отсутствии знаний;
  • недостаточную согласованность обучения с человеческими предпочтениями (RLHF).

Особенно часто галлюцинации возникают при ответах на вопросы о редких объектах, недавно произошедших событиях, длинных логических рассуждениях и задачах, требующих точного цитирования.

Типы галлюцинаций

В современной литературе используются различные классификации.

По отношению к входным данным

  • Внутренняя (intrinsic hallucination) — ответ противоречит предоставленному контексту.
  • Внешняя (extrinsic hallucination) — ответ не противоречит контексту, однако содержит неподтверждённые или вымышленные сведения.

Такая классификация первоначально использовалась для задач автоматического реферирования и затем была распространена на большие языковые модели.

По характеру ошибки

Различают:

  • вымышленные факты;
  • вымышленные ссылки на статьи;
  • несуществующие цитаты;
  • неверные даты;
  • ложные численные значения;
  • ошибочные причинно-следственные связи;
  • логические противоречия;
  • вымышленные имена людей, организаций и документов.

В мультимодальных моделях

Для мультимодальных моделей выделяют отдельный тип галлюцинаций, когда описание изображения содержит объекты, отсутствующие на изображении, либо неверно интерпретирует наблюдаемую сцену.

Примеры

Большие языковые модели

Наиболее известные примеры:

  • генерация несуществующих научных публикаций;
  • вымышленные судебные решения;
  • неверные биографические сведения;
  • ложные математические доказательства;
  • некорректные программные интерфейсы (API).

Машинный перевод

Система может добавить предложение, отсутствующее в оригинальном тексте, либо заменить неизвестное слово на семантически похожее.

Автоматическое реферирование

При реферировании статьи модель способна приписывать автору выводы, отсутствующие в исходной публикации.

Генерация изображений

Диффузионные модели иногда создают объекты, не соответствующие текстовому описанию, либо нарушают пространственные отношения между объектами.

Почему галлюцинации трудно устранить

Современные трансформеры не содержат явного механизма проверки истинности собственных утверждений.

Во время генерации модель оценивает вероятность следующего токена

\hat{x}_t=\arg\max_x P(x\mid x_1,\ldots,x_{t-1})

но не проверяет соответствие ответа фактам.

Поэтому даже очень высокая вероятность последовательности не означает её истинность.

Кроме того:

  • параметры модели содержат лишь статистическое представление обучающих данных;
  • знания быстро устаревают;
  • модель не умеет отличать отсутствие знаний от низкой уверенности без специальных методов обучения.

Методы уменьшения галлюцинаций

Современные исследования развиваются сразу по нескольким направлениям.

Retrieval-Augmented Generation (RAG)

Наиболее эффективным практическим подходом считается Retrieval-Augmented Generation.

Перед генерацией система извлекает документы из внешней базы знаний, после чего модель строит ответ на основе найденных источников.

Метод существенно снижает количество фактических ошибок, особенно в вопросно-ответных системах.

Дообучение

Используются:

Самопроверка

Исследуются методы:

  • Self-Consistency;
  • Chain-of-Verification;
  • Self-Refine;
  • Reflexion;
  • многократная генерация с голосованием;
  • проверка внешними моделями.

Использование инструментов

Современные LLM всё чаще получают доступ к:

  • поисковым системам;
  • базам знаний;
  • SQL-базам;
  • калькуляторам;
  • интерпретаторам кода;
  • специализированным научным базам данных.

В этом случае модель не пытается воспроизводить знания по памяти, а извлекает их во время генерации.

Оценка галлюцинаций

Единой универсальной метрики не существует.

Используются:

  • экспертная оценка;
  • автоматическая проверка фактологической корректности;
  • сравнение с базами знаний;
  • Question Answering Evaluation;
  • FactScore;
  • TruthfulQA;
  • HaluEval;
  • SelfCheckGPT;
  • семантическая энтропия.

В последние годы появляются специализированные бенчмарки для оценки фактической достоверности LLM.

Современные направления исследований

В настоящее время активно исследуются:

  • интерпретируемость механизмов возникновения галлюцинаций;
  • оценка неопределённости моделей;
  • обучение отказу от ответа при недостатке информации;
  • объединение LLM с поисковыми системами;
  • автоматическая проверка фактов;
  • агентные системы, использующие внешние инструменты;
  • уменьшение галлюцинаций в мультимодальных моделях;
  • оценка надёжности рассуждений (reasoning).

Обзорные статьи последних лет рассматривают галлюцинации как одну из центральных проблем современных генеративных моделей и один из главных факторов, ограничивающих их применение в медицине, юриспруденции, научных исследованиях и инженерной практике.

См. также

Литература

  • Ji Z., Lee N., Frieske R. и др. Survey of Hallucination in Natural Language Generation // ACM Computing Surveys. — 2023. — Т. 55. — № 12.
  • Huang L., Yu W., Ma W. и др. A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions // ACM Transactions on Information Systems. — 2025.
  • Lewis P., Perez E., Piktus A. и др. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // NeurIPS. — 2020.
  • Manakul P., Liusie A., Gales M. SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models // EMNLP. — 2023.
  • Farquhar S., Kossen J., Kuhn L. и др. Detecting Hallucinations in Large Language Models Using Semantic Entropy // Nature. — 2024.