Coconut (implicit reasoning)
Материал из MachineLearning.
| | Статья написана с использованием LLM OpenAI GPT-5 и проверена участником Ilia Prokofev 17:54, 16 июня 2026 (MSD) |
Coconut — подход к рассуждению больших языковых моделей, в котором промежуточные шаги reasoning выполняются не в дискретном пространстве слов, а в непрерывном латентном пространстве скрытых состояний модели. Название является сокращением от Chain of Continuous Thought. Подход был предложен в работе Training Large Language Models to Reason in a Continuous Latent Space (2024, версия arXiv; принята на COLM 2025).
В обычной схеме Chain-of-thoughts модель выражает промежуточные шаги рассуждения в естественном языке. Авторы Coconut ставят вопрос: обязательно ли reasoning должен происходить именно в языковом пространстве? Их ответ состоит в том, что часть промежуточного вычисления можно перенести в непрерывное пространство внутренних представлений модели, минуя декодирование промежуточных мыслей в текст.
Содержание |
Мотивация
В chain-of-thought prompting модель вынуждена на каждом шаге выбирать очередной токен естественного языка. Это удобно для интерпретации, но не обязательно оптимально с вычислительной точки зрения.
Авторы Coconut указывают на две проблемы языкового рассуждения.
- Многие токены нужны прежде всего для связности текста, а не для самого reasoning.
- Ранний выбор слов может преждевременно зафиксировать одну траекторию вывода, хотя полезно было бы сохранять несколько альтернативных направлений рассуждения.
Из этого возникает идея: использовать скрытое состояние модели как представление мысли и подавать его обратно в модель напрямую, без промежуточной вербализации.
Основная идея
Пусть входной запрос обозначен через . В обычной CoT-схеме модель генерирует последовательность текстовых шагов рассуждения:
где — промежуточные текстовые токены, а
— окончательный ответ.
В Coconut вместо текстового шага используется непрерывное скрытое состояние:
Здесь — last hidden state модели, интерпретируемый как continuous thought. Вместо декодирования
в слово авторы подают это состояние обратно в модель как следующий входной embedding.
Иначе говоря, модель выполняет часть reasoning не в пространстве токенов, а напрямую в пространстве скрытых представлений.
Формализация
Пусть трансформер на шаге получает контекст и строит скрытое состояние:
В стандартной autoregressive-схеме далее выбирается очередной токен:
после чего в контекст добавляется embedding этого токена.
В Coconut шаг reasoning устроен иначе: вместо выборки дискретного токена используется непосредственно скрытое состояние:
где — embedding, подаваемый на следующий шаг. Таким образом, новая мысль получается из предыдущего скрытого представления без обязательного перевода в естественный язык.
После нескольких continuous-thought steps модель возвращается к обычной языковой генерации и выдаёт финальный ответ.
Обучение
Авторы обучают Coconut поэтапно. Общая идея состоит в том, чтобы заменить часть chain-of-thought токенов на continuous thoughts и постепенно приучить модель к такому режиму вычисления.
На ранних этапах модель ещё видит обычные текстовые рассуждения. Затем некоторые сегменты reasoning-траектории заменяются латентными шагами. В результате обучение организовано как curriculum:
- сначала модель учится обычным chain-of-thought demonstration;
- затем часть промежуточных шагов начинает кодироваться в continuous latent states;
- далее число непрерывных шагов увеличивается.
Такой режим нужен потому, что полностью перейти к latent reasoning сразу трудно: модель должна научиться использовать скрытые состояния как содержательные носители промежуточного вывода, а не только как внутренние представления для следующего токена.
Почему это может работать лучше CoT
Главная интуиция статьи состоит в том, что continuous thought может кодировать более богатую и менее жёстко дискретизированную информацию, чем отдельная словесная формулировка.
Авторы подчёркивают, что в языковом CoT модель на каждом шаге вынуждена выбрать одну текстовую ветвь. В latent space возможно хранить суперпозицию нескольких перспективных продолжений. В статье это интерпретируется как возможность поведения, напоминающего breadth-first search, тогда как обычный chain-of-thought чаще рано коммитится к одной траектории.
Именно поэтому Coconut особенно интересен для задач, где успех зависит не только от линейного пошагового объяснения, но и от поиска по нескольким альтернативным планам.
Связь с Chain-of-thoughts
Coconut не отменяет Chain-of-thoughts, а скорее обобщает его. В CoT промежуточные шаги доступны наблюдателю и выражены текстом. В Coconut часть этих шагов скрыта в латентном пространстве.
Это даёт выигрыш в гибкости, но создаёт и новую проблему: reasoning становится менее интерпретируемым. Если в CoT можно прочитать промежуточные шаги, то в Coconut непрерывная мысль не обязана иметь прямой словесный эквивалент.
Поэтому Coconut интересен как компромисс между:
- интерпретируемым, но дискретным reasoning в естественном языке;
- более компактным и потенциально более мощным latent reasoning.
Экспериментальные результаты
Согласно abstract статьи, Coconut превосходит обычный CoT на логических задачах, где требуется значительный поиск при планировании, и даёт лучший компромисс между точностью и вычислительной эффективностью. Основной тезис авторов состоит в том, что latent reasoning особенно полезен там, где последовательное текстовое объяснение слишком рано фиксирует направление рассуждения.
Важный момент состоит в том, что Coconut оценивается не как универсальная замена chain-of-thoughts во всех задачах, а как специальный режим reasoning для задач, требующих substantial search.
Ограничения
У подхода есть и существенные ограничения.
- Continuous thoughts хуже интерпретируются человеком, чем текстовые цепочки рассуждений.
- Неочевидно, насколько хорошо latent reasoning переносится между архитектурами и доменами.
- Обучение требует специальной curriculum-схемы, а значит, усложняет post-training.
- В задачах, где важно объяснение в естественном языке, скрытое рассуждение само по себе не решает проблему коммуникации с пользователем.
Кроме того, остаётся открытым вопрос, действительно ли latent trajectory соответствует настоящему более сильному reasoning или лишь даёт более удобный способ внутренней аппроксимации некоторых вычислений.
Значение работы
Coconut важен как попытка выйти за пределы идеи, что reasoning LLM обязательно должен быть текстовым. Работа показывает, что chain-of-thought можно рассматривать не как единственно возможную форму промежуточного вывода, а как один из частных интерфейсов между внутренним вычислением модели и наблюдаемым ответом.
Это делает Coconut значимой точкой в более широком исследовательском направлении:
- reasoning beyond language;
- inference-time computation;
- search in latent space;
- переход от интерпретируемых текстовых рассуждений к более общим внутренним вычислительным траекториям.
Исторический контекст
Основной публикацией является работа:
- Hao S., Sukhbaatar S., Su D., Li X., Hu Z., Weston J., Tian Y. Training Large Language Models to Reason in a Continuous Latent Space. arXiv:2412.06769, 2024; принята на COLM 2025.
По смыслу Coconut тесно связан с исследованиями Chain-of-thoughts, self-consistency и другими методами reasoning-time computation, но отличается от них тем, что переносит часть вычисления из текстового пространства в пространство скрытых состояний.
См. также
- Chain-of-thoughts
- Большая языковая модель
- Group Relative Policy Optimization
- Self-Distillation Policy Optimization
Литература
- Hao S., Sukhbaatar S., Su D., Li X., Hu Z., Weston J., Tian Y. Training Large Language Models to Reason in a Continuous Latent Space. arXiv:2412.06769, 2024. https://arxiv.org/abs/2412.06769
- Wei J. et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903, 2022. https://arxiv.org/abs/2201.11903
- Wang X. et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171, 2022. https://arxiv.org/abs/2203.11171

