Агентный искусственный интеллект

Материал из MachineLearning.

Версия от 20:48, 30 июня 2026; Marina Aleksandrova (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Статья написана с использованием LLM GPT-5.4 и проверена участником Aleksandrova Marina 23:48, 30 июня 2026 (MSD)


Содержание

Агентный искусственный интеллект (англ. agentic artificial intelligence, agentic AI) — направление в искусственном интеллекте, связанное с созданием систем, которые способны не только отвечать на запросы, но и самостоятельно выбирать последовательность действий для достижения цели. В современных исследованиях под агентным ИИ чаще всего понимают системы на основе больших языковых моделей (англ. large language models, LLM), которые умеют планировать, использовать внешние инструменты, обращаться к памяти, взаимодействовать со средой и корректировать свои действия по результатам выполнения.[1]

Агентный ИИ отличается от обычной языковой модели тем, что модель используется не только для генерации текста, но и как управляющий компонент системы. Она может выбирать следующий шаг, вызывать функцию, выполнять код, искать информацию, обращаться к базе данных или управлять другим программным модулем. В этом смысле агентный ИИ соединяет возможности LLM с более ранними идеями интеллектуальных агентов, планирования и автономного принятия решений.

Определение

В классической теории искусственного интеллекта агентом называют систему, которая воспринимает состояние среды и воздействует на неё действиями, стремясь достичь некоторой цели. В случае LLM-агентов восприятие и действие часто имеют текстовую или программную форму: модель получает описание задачи, контекст и результаты предыдущих шагов, после чего выбирает дальнейшее действие.

Типичная агентная система включает:

  • языковую модель — компонент, отвечающий за интерпретацию задачи, рассуждение и выбор действий;
  • планировщик — механизм разбиения цели на промежуточные шаги;
  • инструменты — внешние функции, API, поисковые системы, интерпретаторы кода, базы данных;
  • память — хранение контекста, предыдущих действий, результатов и предпочтений пользователя;
  • контроль автономности — ограничения, проверки, журналирование действий и участие человека в критически важных решениях.

Агентность является не бинарным свойством, а степенью автономности системы. Простой чат-бот, отвечающий только текстом, обладает низкой агентностью; система, которая самостоятельно планирует несколько шагов, вызывает инструменты и проверяет результат, является более агентной.

Отличие от классических интеллектуальных агентов

Классические интеллектуальные агенты обычно строились на явно заданной модели среды, формальных правилах, функциях полезности, алгоритмах поиска или обучении с подкреплением. Их поведение часто ограничивалось заранее определённой областью задач.

LLM-агенты отличаются тем, что используют языковую модель как универсальный интерфейс к задачам, инструкциям и инструментам. Они могут работать с естественным языком, неструктурированными документами, кодом и описаниями процессов. Однако это преимущество сопровождается меньшей формальной надёжностью: языковая модель может ошибаться, галлюцинировать и строить некорректные планы.

Поэтому современные агентные системы обычно сочетают LLM с классическими инженерными средствами: валидацией входов и выходов, ограничением прав доступа, тестами, правилами безопасности и подтверждением действий человеком.

Основные подходы

ReAct

ReAct (англ. Reasoning and Acting) — подход, в котором языковая модель чередует рассуждения и действия. Модель сначала формулирует промежуточный вывод, затем выполняет действие во внешней среде, например обращается к поиску или базе знаний, после чего использует полученный результат для следующего шага.[1]

ReAct важен тем, что связывает текстовое рассуждение с практическим взаимодействием со средой. Это делает траекторию работы агента более понятной для пользователя и позволяет частично снижать ошибки, возникающие при рассуждении без доступа к внешним данным.

Использование инструментов

Использование инструментов (англ. tool use) означает, что агент может вызывать внешние функции: калькулятор, поисковую систему, интерпретатор кода, систему перевода, календарь, базу данных или специализированный API. В работе Toolformer была предложена схема, в которой языковая модель учится решать, когда вызывать инструмент, какие аргументы передавать и как учитывать результат вызова.[1]

В прикладных системах близкую роль играет function calling — механизм, при котором модель возвращает структурированный вызов функции с заданными аргументами. Это позволяет интегрировать LLM с программными системами, не полагаясь только на свободный текст.

Планирование

Планирование позволяет агенту разбивать сложную цель на последовательность промежуточных действий. Для этого используются разные подходы: цепочки рассуждений, поиск по вариантам, декомпозиция задачи, построение дерева решений и повторная проверка промежуточных результатов.

Один из известных подходов — Tree of Thoughts (англ. дерево мыслей), где модель рассматривает несколько возможных промежуточных шагов, оценивает их и выбирает дальнейшее направление решения.[1]

Reflection и самокоррекция

Reflection — подход, при котором агент анализирует результаты собственных действий и использует этот анализ в следующих попытках. В работе Reflexion языковые агенты сохраняют вербальную обратную связь в памяти и применяют её для улучшения дальнейшего поведения без изменения весов модели.[1]

Такая схема особенно полезна в задачах, где агент может пробовать решение, получать ошибку, анализировать её и затем исправлять следующий шаг: например, в программировании, играх, интерактивных средах и работе с API.

Workflow agents

Workflow agents — агенты, встроенные в заранее заданный рабочий процесс. Они менее автономны, чем полностью открытые агенты, но более управляемы. Обычно такой агент выполняет ограниченную последовательность действий: получает задачу, извлекает данные, вызывает нужные инструменты, проверяет результат и передаёт его пользователю или другой системе.

Этот подход часто используется в бизнес-автоматизации, обработке документов, аналитике, поддержке клиентов и корпоративных помощниках.

Многоагентные системы

Многоагентные системы (англ. multi-agent systems) используют несколько агентов с разными ролями. Например, один агент может планировать задачу, второй — писать код, третий — проверять результат, четвёртый — готовить документацию. В MetaGPT предложена схема, где роли агентов организуются по аналогии с процессом разработки программного продукта.[1]

Многоагентный подход может повышать модульность и управляемость, но создаёт новые риски: ошибки одного агента могут передаваться другим, а цепочки взаимодействий становятся труднее для проверки.

Память в агентных системах

Память позволяет агенту сохранять информацию о задаче, пользователе, предыдущих действиях и результатах. Обычно различают:

  • краткосрочную память — текущий контекст диалога или выполнения задачи;
  • долговременную память — внешнее хранилище документов, фактов, заметок или векторных представлений;
  • эпизодическую память — записи о прошлых попытках, ошибках и успешных стратегиях.

В работе Generative Agents была предложена архитектура, в которой агенты сохраняют наблюдения, извлекают релевантные воспоминания, формируют размышления и используют их для планирования поведения в симулированной социальной среде.[1]

Примеры применения

Программирование

В программировании агентные системы могут читать постановку задачи, писать код, запускать тесты, анализировать ошибки и предлагать исправления. В отличие от обычного автодополнения кода, агент выполняет цикл «план — действие — проверка — исправление». Такие системы применяются в прототипировании, генерации тестов, поиске ошибок и сопровождении кода.

Анализ данных

В анализе данных агент может загрузить таблицу, провести предварительную обработку, построить графики, выполнить статистические проверки, запустить код и сформировать отчёт. Важным преимуществом является автоматизация цепочки аналитических действий, а не только генерация текстового объяснения.

Поиск информации

Агентные поисковые системы могут формулировать несколько поисковых запросов, читать документы, сравнивать источники, уточнять гипотезы и составлять итоговый ответ. Это полезно в задачах, где одного поискового запроса недостаточно и требуется многошаговый сбор сведений.

Робототехника и воплощённые агенты

В робототехнике и виртуальных средах агентность связана с восприятием среды и выполнением действий. В проекте Voyager LLM использовалась как часть агента, который исследовал среду Minecraft, приобретал навыки и сохранял их в библиотеке для дальнейшего использования.[1]

Бизнес-автоматизация

В бизнесе агентные системы могут применяться для обработки заявок, подготовки писем, извлечения информации из документов, маршрутизации задач, заполнения форм и работы с корпоративными базами. На практике такие агенты обычно ограничиваются правами доступа, заранее заданными сценариями и подтверждением важных действий человеком.

Научные исследования

В научной работе агенты могут помогать в поиске литературы, анализе данных, подготовке кода для экспериментов, формулировании гипотез и составлении отчётов. Однако их результаты требуют экспертной проверки, поскольку модели могут ошибаться в фактах, ссылках и методологических выводах.

Контроль автономности

Контроль автономности — ключевой элемент агентного ИИ. Чем больше действий агент может выполнять самостоятельно, тем важнее ограничения и проверка. Основные механизмы контроля включают:

  • ограничение доступа к инструментам и данным;
  • выполнение кода в изолированной среде;
  • журналирование всех действий;
  • проверку аргументов вызова функций;
  • подтверждение человеком опасных или необратимых операций;
  • ограничение числа шагов и вычислительного бюджета;
  • тестирование результата перед применением.

В промышленных системах агентность часто намеренно ограничивают: агент может подготовить действие, но не выполнить его без подтверждения пользователя.

Оценивание агентных систем

Оценивание агентного ИИ сложнее, чем оценивание обычной языковой модели. Важно учитывать не только итоговый ответ, но и всю траекторию действий: план, выбор инструментов, корректность промежуточных шагов, устойчивость к ошибкам и безопасность.

Критерии оценки могут включать:

  • успешность выполнения задачи;
  • число шагов и вызовов инструментов;
  • стоимость вычислений;
  • устойчивость к сбоям;
  • способность исправлять ошибки;
  • безопасность действий;
  • воспроизводимость результата;
  • степень необходимого участия человека.

Для оценки LLM-агентов используются специальные бенчмарки. Например, AgentBench проверяет агентов в нескольких интерактивных средах и оценивает их способности к рассуждению и принятию решений в многошаговых задачах.[1]

Ограничения и риски

Галлюцинации

Галлюцинации — генерация правдоподобной, но неверной информации. В агентных системах они особенно опасны, потому что ошибка может стать основанием для дальнейшего действия: вызова инструмента, изменения файла, отправки сообщения или принятия решения.

Ошибки планирования

Агент может выбрать неправильный порядок действий, зациклиться, преждевременно завершить задачу или не заметить ошибку в промежуточном результате. Долгосрочное планирование остаётся одной из главных слабостей LLM-агентов.

Некорректное использование инструментов

Ошибки при использовании инструментов включают неправильные аргументы функции, неверную интерпретацию результата, лишние вызовы API или выполнение опасной операции. Поэтому инструменты в агентных системах должны иметь ограничения, проверки и уровни доступа.

Безопасность

Агентные системы подвержены атакам через подсказки, вредоносные документы, подмену внешних данных и манипуляции результатами инструментов. Особенно опасны случаи, когда агент имеет доступ к файловой системе, почте, платёжным операциям, корпоративным базам или внешним сервисам.

Выравнивание ИИ

Агентный ИИ связан с проблемой выравнивания ИИ, поскольку агент должен не только давать корректные ответы, но и выбирать действия, согласованные с намерениями пользователя, правилами безопасности и ограничениями среды. Ошибка выравнивания в агентной системе может иметь более серьёзные последствия, чем ошибка в обычном текстовом ответе.

Практическое значение

Агентный ИИ рассматривается как один из путей перехода от пассивных диалоговых моделей к системам, способным выполнять сложные рабочие задачи. Его значение связано с автоматизацией программирования, анализа данных, поиска информации, документооборота, научных исследований и взаимодействия с цифровыми сервисами.

В то же время практическое применение агентных систем требует осторожности. Наиболее надёжные реализации обычно сочетают возможности LLM с ограниченными рабочими процессами, проверяемыми инструментами, контролем доступа и участием человека в критически важных точках.

См. также

Примечания


Литература

  • Russell S., Norvig P. Artificial Intelligence: A Modern Approach. 4th ed. Pearson, 2020.
  • Wang L., Ma C., Feng X. et al. A Survey on Large Language Model based Autonomous Agents. arXiv:2308.11432, 2023.
  • Yao S., Zhao J., Yu D. et al. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629, 2022.
  • Schick T., Dwivedi-Yu J., Dessì R. et al. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761, 2023.
  • Yao S., Yu D., Zhao J. et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601, 2023.
  • Shinn N., Cassano F., Gopinath A. et al. Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366, 2023.
  • Park J. S., O’Brien J. C., Cai C. J. et al. Generative Agents: Interactive Simulacra of Human Behavior. arXiv:2304.03442, 2023.
  • Wang G., Xie Y., Jiang Y. et al. Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291, 2023.
  • Liu X., Yu H., Zhang H. et al. AgentBench: Evaluating LLMs as Agents. arXiv:2308.03688, 2023.
  • Hong S., Zheng X., Chen J. et al. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. arXiv:2308.00352, 2023.

Ссылки