Pourquoi un agent unique échoue à l'échelle : fondamentaux MAS et trois topologies
En 2024–2025, les AI Agents sont passés du labo à la production. Mais confier toutes les tâches à un seul LLM fait s'effondrer le système à l'échelle.
Plafond de contexte : l'état intermédiaire remplit la fenêtre et dégrade le raisonnement.
Dilution des compétences : retrieval, code et audit dans un seul agent — rien n'est excellent.
Pas de concurrence : l'exécution séquentielle additionne les latences.
Point de défaillance unique : un appel modèle raté arrête tout le flux.
Preuve : Agent Bake-Off Google : 1 h → 10 min (×6). AdaptOrch : 12–23 % sur SWE-bench.
Un système multi-agents (MAS) regroupe des agents indépendants collaborant via protocoles et orchestration définis. Chaque agent : responsabilité unique, outils dédiés, état isolé, remplaçable.
| Topologie | Avantages | Inconvénients | Usage |
|---|---|---|---|
| Centralisée | Auditable | Goulot orchestrateur | Conformité |
| Décentralisée | Résiliente | Debug difficile | Négociation P2P |
| Hiérarchique | Équilibre | Complexité modérée | Enterprise |
Six modèles d'orchestration : pipeline séquentiel à architecture hybride
Ces six modèles couvrent plus de 95 % des systèmes en production.
| Modèle | Idée | Latence | Cas d'usage |
|---|---|---|---|
| ① Pipeline séquentiel | Flux A→B→C | Somme | Contenu, conformité |
| ② Fan-out/fan-in parallèle | Workers + synthèse | Maximum | Recherche multi-sources |
| ③ Supervisor-worker | Supervisor route | Dynamique | Assistants code |
| ④ Swarm | P2P + règles d'arrêt | Imprévisible | Débat code review |
| ⑤ Blackboard | Espace partagé | Async | Workflows longs |
| ⑥ Hybride | Routeur + supervisor + parallèle | Mixte | Plateforme contenu |
Modèle 1 : LangGraph StateGraph. Modèle 2 : Send API + reducer. Modèle 3 : routage mot-clé (<1 ms) + LLM. Modèle 4 : AutoGen max_round=6. Modèle 5 : blackboard conditionnel. Modèle 6 : routeur d'intention → supervisor → recherche parallèle + pipeline qualité.
AdaptOrch : la topologie d'orchestration prime sur le choix du modèle.
LangGraph vs CrewAI vs AutoGen et protocoles MCP + A2A
| Dimension | LangGraph | CrewAI | AutoGen |
|---|---|---|---|
| Paradigme | Graphe d'états | Équipes par rôles | Conversation |
| État | Natif | Custom | Limité |
| HITL | interrupt() | Custom | Oui |
| Production | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
Standard 2026 à deux couches (Linux Foundation) : MCP (vertical) pour outils/API. A2A (horizontal) — Google avril 2025, v1.0 2026, 50+ partenaires. Agent Card → compétences → JSON-RPC 2.0 message/send.
Six étapes production : persistance, HITL, circuit breaker, observabilité
Checkpoints PostgreSQL : PostgresSaver + thread_id.
Human-in-the-Loop : interrupt() avant actions à haut risque.
Circuit breaker : CLOSED/OPEN/HALF_OPEN, seuil 5.
Budget tokens : TokenBudgetManager avant chaque appel.
Tracing distribué : correlation_id OpenTelemetry.
Validation handoff + LLM-as-Judge : schéma, confiance <0,7, quatre dimensions.
Métriques observabilité, quatre pièges, arbre de décision, tendances 2026
MAST (1642 traces) : design 41,77 %, désalignement 36,94 %, vérification 21,30 %. 57 % en prod, observabilité terminée : 8 %.
Piège 1 — pollution de contexte : hallucinations propagées comme faits.
Piège 2 — boucles infinies : coûts tokens explosifs.
Piège 3 — sur-ingénierie : zone optimale 3–8 agents.
Piège 4 — démo→production : limites, injection, PII.
2026 : orchestration fédérée, multi-agents multimodaux, topologie adaptative, EU AI Act.
Pour orchestration multi-agents 7×24 sur Apple Silicon : KVMNODE Mac Mini M4/M4 Pro dédié. Tarifs, Commander, Aide.