Почему один агент не масштабируется: основы MAS и три топологии управления
В 2024–2025 AI Agents вышли из лаборатории в продакшен. Но если отдать все задачи одному LLM, система рушится при масштабировании.
Потолок контекста: промежуточное состояние заполняет окно, качество рассуждений падает.
Размывание экспертизы: retrieval, код и аудит в одном агенте — всё посредственно.
Нет параллелизма: последовательное выполнение суммирует задержки.
Единая точка отказа: один сбой модели останавливает весь workflow.
Данные: Agent Bake-Off Google: 1 час → 10 минут (×6). AdaptOrch: 12–23 % на SWE-bench.
Мультиагентная система (MAS) — независимые агенты, сотрудничающие через протоколы и оркестрацию. Каждый агент: одна роль, инструменты, изоляция состояния, заменяемость.
| Топология | Плюсы | Минусы | Применение |
|---|---|---|---|
| Централизованная | Аудируемость | Узкое место оркестратора | Compliance |
| Децентрализованная | Устойчивость | Сложный debug | P2P-координация |
| Иерархическая | Баланс | Средняя сложность | Enterprise |
Шесть паттернов оркестрации: от последовательного пайплайна до гибрида
Эти шесть паттернов покрывают более 95 % продакшен-систем.
| Паттерн | Суть | Задержка | Сценарий |
|---|---|---|---|
| ① Последовательный пайплайн | Линейный A→B→C | Сумма | Контент, compliance |
| ② Parallel fan-out/in | Параллель + merge | Максимум | Multi-source research |
| ③ Supervisor-worker | Supervisor маршрутизирует | Динамика | Код-ассистенты |
| ④ Swarm | P2P + правила остановки | Непредсказуемо | Code review debate |
| ⑤ Blackboard | Общее пространство | Async | Долгие workflow |
| ⑥ Hybrid | Router + supervisor + parallel | Смешанная | Enterprise CMS |
Паттерн 1: LangGraph StateGraph. 2: Send API + reducer. 3: keyword fast path (<1 ms) + LLM. 4: AutoGen max_round=6. 5: blackboard по условию. 6: intent router → supervisor → parallel research + quality pipeline.
AdaptOrch: топология оркестрации важнее выбора модели.
LangGraph vs CrewAI vs AutoGen и двухслойные протоколы MCP + A2A
| Измерение | LangGraph | CrewAI | AutoGen |
|---|---|---|---|
| Парадигма | Граф состояний | Роли | Диалог |
| State | Нативно | Custom | Ограничено |
| HITL | interrupt() | Custom | Да |
| Продакшен | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
Стандарт 2026 — два слоя (Linux Foundation): MCP (вертикальный) — доступ к инструментам/API. A2A (горизонтальный) — Google апрель 2025, v1.0 2026, 50+ партнёров. Agent Card → skills → JSON-RPC 2.0 message/send.
Шесть шагов продакшена: персистентность, HITL, circuit breaker, observability
PostgreSQL checkpoints: PostgresSaver + thread_id.
Human-in-the-Loop: interrupt() перед рискованными действиями.
Circuit breaker: CLOSED/OPEN/HALF_OPEN, порог 5.
Token budget: TokenBudgetManager перед каждым вызовом.
Distributed tracing: OpenTelemetry correlation_id.
Handoff validation + LLM-as-Judge: schema, confidence <0.7, четыре измерения.
Метрики observability, четыре ловушки, дерево решений, тренды 2026
MAST (1642 traces): design 41,77 %, misalignment 36,94 %, verification 21,30 %. 57 % в проде, observability завершили 8 %.
Ловушка 1 — загрязнение контекста: галлюцинации становятся «фактами».
Ловушка 2 — бесконечные циклы: token costs ×100.
Ловушка 3 — over-engineering: оптимум 3–8 агентов.
Ловушка 4 — demo→prod: лимиты, injection, PII.
2026: federated orchestration, multimodal MAS, adaptive topology, EU AI Act.
Для 7×24 мультиагентной оркестрации: KVMNODE выделенный Mac Mini M4/M4 Pro. Цены, Заказ, Помощь.