Агентный искусственный интеллект
Материал из MachineLearning.
| | Статья написана с использованием LLM GPT-5.4 и проверена участником Aleksandrova Marina 23:48, 30 июня 2026 (MSD) |
|
Агентный искусственный интеллект (англ. agentic artificial intelligence, agentic AI) — направление в искусственном интеллекте, связанное с созданием систем, которые способны не только отвечать на запросы, но и самостоятельно выбирать последовательность действий для достижения цели. В современных исследованиях под агентным ИИ чаще всего понимают системы на основе больших языковых моделей (англ. large language models, LLM), которые умеют планировать, использовать внешние инструменты, обращаться к памяти, взаимодействовать со средой и корректировать свои действия по результатам выполнения.[1]
Агентный ИИ отличается от обычной языковой модели тем, что модель используется не только для генерации текста, но и как управляющий компонент системы. Она может выбирать следующий шаг, вызывать функцию, выполнять код, искать информацию, обращаться к базе данных или управлять другим программным модулем. В этом смысле агентный ИИ соединяет возможности LLM с более ранними идеями интеллектуальных агентов, планирования и автономного принятия решений.
Определение
В классической теории искусственного интеллекта агентом называют систему, которая воспринимает состояние среды и воздействует на неё действиями, стремясь достичь некоторой цели. В случае LLM-агентов восприятие и действие часто имеют текстовую или программную форму: модель получает описание задачи, контекст и результаты предыдущих шагов, после чего выбирает дальнейшее действие.
Типичная агентная система включает:
- языковую модель — компонент, отвечающий за интерпретацию задачи, рассуждение и выбор действий;
- планировщик — механизм разбиения цели на промежуточные шаги;
- инструменты — внешние функции, API, поисковые системы, интерпретаторы кода, базы данных;
- память — хранение контекста, предыдущих действий, результатов и предпочтений пользователя;
- контроль автономности — ограничения, проверки, журналирование действий и участие человека в критически важных решениях.
Агентность является не бинарным свойством, а степенью автономности системы. Простой чат-бот, отвечающий только текстом, обладает низкой агентностью; система, которая самостоятельно планирует несколько шагов, вызывает инструменты и проверяет результат, является более агентной.
Отличие от классических интеллектуальных агентов
Классические интеллектуальные агенты обычно строились на явно заданной модели среды, формальных правилах, функциях полезности, алгоритмах поиска или обучении с подкреплением. Их поведение часто ограничивалось заранее определённой областью задач.
LLM-агенты отличаются тем, что используют языковую модель как универсальный интерфейс к задачам, инструкциям и инструментам. Они могут работать с естественным языком, неструктурированными документами, кодом и описаниями процессов. Однако это преимущество сопровождается меньшей формальной надёжностью: языковая модель может ошибаться, галлюцинировать и строить некорректные планы.
Поэтому современные агентные системы обычно сочетают LLM с классическими инженерными средствами: валидацией входов и выходов, ограничением прав доступа, тестами, правилами безопасности и подтверждением действий человеком.
Основные подходы
ReAct
ReAct (англ. Reasoning and Acting) — подход, в котором языковая модель чередует рассуждения и действия. Модель сначала формулирует промежуточный вывод, затем выполняет действие во внешней среде, например обращается к поиску или базе знаний, после чего использует полученный результат для следующего шага.[1]
ReAct важен тем, что связывает текстовое рассуждение с практическим взаимодействием со средой. Это делает траекторию работы агента более понятной для пользователя и позволяет частично снижать ошибки, возникающие при рассуждении без доступа к внешним данным.
Использование инструментов
Использование инструментов (англ. tool use) означает, что агент может вызывать внешние функции: калькулятор, поисковую систему, интерпретатор кода, систему перевода, календарь, базу данных или специализированный API. В работе Toolformer была предложена схема, в которой языковая модель учится решать, когда вызывать инструмент, какие аргументы передавать и как учитывать результат вызова.[1]
В прикладных системах близкую роль играет function calling — механизм, при котором модель возвращает структурированный вызов функции с заданными аргументами. Это позволяет интегрировать LLM с программными системами, не полагаясь только на свободный текст.
Планирование
Планирование позволяет агенту разбивать сложную цель на последовательность промежуточных действий. Для этого используются разные подходы: цепочки рассуждений, поиск по вариантам, декомпозиция задачи, построение дерева решений и повторная проверка промежуточных результатов.
Один из известных подходов — Tree of Thoughts (англ. дерево мыслей), где модель рассматривает несколько возможных промежуточных шагов, оценивает их и выбирает дальнейшее направление решения.[1]
Reflection и самокоррекция
Reflection — подход, при котором агент анализирует результаты собственных действий и использует этот анализ в следующих попытках. В работе Reflexion языковые агенты сохраняют вербальную обратную связь в памяти и применяют её для улучшения дальнейшего поведения без изменения весов модели.[1]
Такая схема особенно полезна в задачах, где агент может пробовать решение, получать ошибку, анализировать её и затем исправлять следующий шаг: например, в программировании, играх, интерактивных средах и работе с API.
Workflow agents
Workflow agents — агенты, встроенные в заранее заданный рабочий процесс. Они менее автономны, чем полностью открытые агенты, но более управляемы. Обычно такой агент выполняет ограниченную последовательность действий: получает задачу, извлекает данные, вызывает нужные инструменты, проверяет результат и передаёт его пользователю или другой системе.
Этот подход часто используется в бизнес-автоматизации, обработке документов, аналитике, поддержке клиентов и корпоративных помощниках.
Многоагентные системы
Многоагентные системы (англ. multi-agent systems) используют несколько агентов с разными ролями. Например, один агент может планировать задачу, второй — писать код, третий — проверять результат, четвёртый — готовить документацию. В MetaGPT предложена схема, где роли агентов организуются по аналогии с процессом разработки программного продукта.[1]
Многоагентный подход может повышать модульность и управляемость, но создаёт новые риски: ошибки одного агента могут передаваться другим, а цепочки взаимодействий становятся труднее для проверки.
Память в агентных системах
Память позволяет агенту сохранять информацию о задаче, пользователе, предыдущих действиях и результатах. Обычно различают:
- краткосрочную память — текущий контекст диалога или выполнения задачи;
- долговременную память — внешнее хранилище документов, фактов, заметок или векторных представлений;
- эпизодическую память — записи о прошлых попытках, ошибках и успешных стратегиях.
В работе Generative Agents была предложена архитектура, в которой агенты сохраняют наблюдения, извлекают релевантные воспоминания, формируют размышления и используют их для планирования поведения в симулированной социальной среде.[1]
Примеры применения
Программирование
В программировании агентные системы могут читать постановку задачи, писать код, запускать тесты, анализировать ошибки и предлагать исправления. В отличие от обычного автодополнения кода, агент выполняет цикл «план — действие — проверка — исправление». Такие системы применяются в прототипировании, генерации тестов, поиске ошибок и сопровождении кода.
Анализ данных
В анализе данных агент может загрузить таблицу, провести предварительную обработку, построить графики, выполнить статистические проверки, запустить код и сформировать отчёт. Важным преимуществом является автоматизация цепочки аналитических действий, а не только генерация текстового объяснения.
Поиск информации
Агентные поисковые системы могут формулировать несколько поисковых запросов, читать документы, сравнивать источники, уточнять гипотезы и составлять итоговый ответ. Это полезно в задачах, где одного поискового запроса недостаточно и требуется многошаговый сбор сведений.
Робототехника и воплощённые агенты
В робототехнике и виртуальных средах агентность связана с восприятием среды и выполнением действий. В проекте Voyager LLM использовалась как часть агента, который исследовал среду Minecraft, приобретал навыки и сохранял их в библиотеке для дальнейшего использования.[1]
Бизнес-автоматизация
В бизнесе агентные системы могут применяться для обработки заявок, подготовки писем, извлечения информации из документов, маршрутизации задач, заполнения форм и работы с корпоративными базами. На практике такие агенты обычно ограничиваются правами доступа, заранее заданными сценариями и подтверждением важных действий человеком.
Научные исследования
В научной работе агенты могут помогать в поиске литературы, анализе данных, подготовке кода для экспериментов, формулировании гипотез и составлении отчётов. Однако их результаты требуют экспертной проверки, поскольку модели могут ошибаться в фактах, ссылках и методологических выводах.
Контроль автономности
Контроль автономности — ключевой элемент агентного ИИ. Чем больше действий агент может выполнять самостоятельно, тем важнее ограничения и проверка. Основные механизмы контроля включают:
- ограничение доступа к инструментам и данным;
- выполнение кода в изолированной среде;
- журналирование всех действий;
- проверку аргументов вызова функций;
- подтверждение человеком опасных или необратимых операций;
- ограничение числа шагов и вычислительного бюджета;
- тестирование результата перед применением.
В промышленных системах агентность часто намеренно ограничивают: агент может подготовить действие, но не выполнить его без подтверждения пользователя.
Оценивание агентных систем
Оценивание агентного ИИ сложнее, чем оценивание обычной языковой модели. Важно учитывать не только итоговый ответ, но и всю траекторию действий: план, выбор инструментов, корректность промежуточных шагов, устойчивость к ошибкам и безопасность.
Критерии оценки могут включать:
- успешность выполнения задачи;
- число шагов и вызовов инструментов;
- стоимость вычислений;
- устойчивость к сбоям;
- способность исправлять ошибки;
- безопасность действий;
- воспроизводимость результата;
- степень необходимого участия человека.
Для оценки LLM-агентов используются специальные бенчмарки. Например, AgentBench проверяет агентов в нескольких интерактивных средах и оценивает их способности к рассуждению и принятию решений в многошаговых задачах.[1]
Ограничения и риски
Галлюцинации
Галлюцинации — генерация правдоподобной, но неверной информации. В агентных системах они особенно опасны, потому что ошибка может стать основанием для дальнейшего действия: вызова инструмента, изменения файла, отправки сообщения или принятия решения.
Ошибки планирования
Агент может выбрать неправильный порядок действий, зациклиться, преждевременно завершить задачу или не заметить ошибку в промежуточном результате. Долгосрочное планирование остаётся одной из главных слабостей LLM-агентов.
Некорректное использование инструментов
Ошибки при использовании инструментов включают неправильные аргументы функции, неверную интерпретацию результата, лишние вызовы API или выполнение опасной операции. Поэтому инструменты в агентных системах должны иметь ограничения, проверки и уровни доступа.
Безопасность
Агентные системы подвержены атакам через подсказки, вредоносные документы, подмену внешних данных и манипуляции результатами инструментов. Особенно опасны случаи, когда агент имеет доступ к файловой системе, почте, платёжным операциям, корпоративным базам или внешним сервисам.
Выравнивание ИИ
Агентный ИИ связан с проблемой выравнивания ИИ, поскольку агент должен не только давать корректные ответы, но и выбирать действия, согласованные с намерениями пользователя, правилами безопасности и ограничениями среды. Ошибка выравнивания в агентной системе может иметь более серьёзные последствия, чем ошибка в обычном текстовом ответе.
Практическое значение
Агентный ИИ рассматривается как один из путей перехода от пассивных диалоговых моделей к системам, способным выполнять сложные рабочие задачи. Его значение связано с автоматизацией программирования, анализа данных, поиска информации, документооборота, научных исследований и взаимодействия с цифровыми сервисами.
В то же время практическое применение агентных систем требует осторожности. Наиболее надёжные реализации обычно сочетают возможности LLM с ограниченными рабочими процессами, проверяемыми инструментами, контролем доступа и участием человека в критически важных точках.
См. также
- Большая языковая модель
- Интеллектуальный агент
- Обучение с подкреплением
- Планирование в искусственном интеллекте
- Многоагентная система
- Chain-of-thought prompting
- ReAct
- Выравнивание ИИ
- Безопасность искусственного интеллекта
- Интерпретируемость моделей
Примечания
Литература
- Russell S., Norvig P. Artificial Intelligence: A Modern Approach. 4th ed. Pearson, 2020.
- Wang L., Ma C., Feng X. et al. A Survey on Large Language Model based Autonomous Agents. arXiv:2308.11432, 2023.
- Yao S., Zhao J., Yu D. et al. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629, 2022.
- Schick T., Dwivedi-Yu J., Dessì R. et al. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761, 2023.
- Yao S., Yu D., Zhao J. et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601, 2023.
- Shinn N., Cassano F., Gopinath A. et al. Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366, 2023.
- Park J. S., O’Brien J. C., Cai C. J. et al. Generative Agents: Interactive Simulacra of Human Behavior. arXiv:2304.03442, 2023.
- Wang G., Xie Y., Jiang Y. et al. Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291, 2023.
- Liu X., Yu H., Zhang H. et al. AgentBench: Evaluating LLMs as Agents. arXiv:2308.03688, 2023.
- Hong S., Zheng X., Chen J. et al. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. arXiv:2308.00352, 2023.
Ссылки
- A Survey on Large Language Model based Autonomous Agents
- ReAct: Synergizing Reasoning and Acting in Language Models
- Toolformer: Language Models Can Teach Themselves to Use Tools
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models
- Reflexion: Language Agents with Verbal Reinforcement Learning
- Generative Agents: Interactive Simulacra of Human Behavior
- Voyager: An Open-Ended Embodied Agent with Large Language Models
- AgentBench: Evaluating LLMs as Agents
- MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

