Adaptons cet article pour vous

Répondez à trois questions rapides et nous adapterons cet article à vos besoins.

or
|

Les workflows agentiques transforment la façon dont les entreprises construisent avec l'IA. Au lieu d'un simple échange prompt-réponse, les systèmes modernes orchestrent des dizaines — parfois des centaines — d'appels LLM par session utilisateur : planification, sélection d'outils, extraction de données, résumé, validation et réflexion.

C'est puissant. C'est aussi extraordinairement coûteux quand c'est mal fait.

L'approche par défaut — acheminer chaque appel via un modèle de pointe comme Claude Opus 4.6 ou GPT-5 — peut brûler les budgets à un rythme stupéfiant. Non pas parce que les modèles de pointe sont trop chers, mais parce que la plupart de ces appels n'ont pas besoin d'une intelligence de pointe. Un parseur JSON n'a pas besoin d'un doctorat. Un validateur de champs n'a pas besoin d'un philosophe.

Cet article présente le cadre de dimensionnement des modèles : une méthodologie structurée pour faire correspondre la capacité du modèle à la complexité de la tâche à chaque étape d'un workflow agentique. L'impact économique n'est pas marginal — c'est la différence entre un produit viable et un produit qui ne peut pas passer à l'échelle.


Le problème de la multiplication

Dans une architecture à appel unique traditionnelle, le coût du modèle est simple : une requête entrante, une réponse sortante. Si vous payez 5 USD par million de jetons d'entrée et 25 USD par million de jetons de sortie (tarification Claude Opus 4.6), un échange typique de 2 000 jetons coûte environ 0,06 USD.

Les workflows agentiques changent entièrement le calcul. Une seule session utilisateur peut impliquer :

  • 3 à 5 étapes de planification (décomposition de la tâche en sous-objectifs)
  • 5 à 15 appels d'outils (recherche, récupération, calcul)
  • 3 à 10 étapes d'extraction/analyse (structuration de données brutes en formats utilisables)
  • 2 à 5 passes de validation (vérification des résultats par rapport aux contraintes)
  • 1 à 3 boucles de réflexion (évaluation de la suffisance de la réponse)

Un workflow agentique modéré de 20 appels LLM par session, au même tarif Opus, coûte environ 1,20 USD par session. À 10 000 sessions quotidiennes, cela représente 12 000 USD par jour — soit 4,4 millions USD par an.

La question n'est pas de savoir si l'IA agentique fonctionne. Elle fonctionne. La question est de savoir si chacun de ces 20 appels nécessite un modèle à 5/25 USD par MTok.

La réponse, presque universellement, est non.


Le paysage des niveaux de modèles (mars 2026)

Pour comprendre le dimensionnement, il faut comprendre ce qui est disponible. Le paysage actuel des modèles se divise en quatre niveaux distincts :

Niveau 1 : Raisonnement de pointe

Ces modèles excellent dans le raisonnement complexe multi-étapes, le jugement nuancé et la résolution de problèmes inédits.

Modèle Entrée (USD) Sortie (USD) Force
Claude Opus 4.6 5,00/MTok 25,00/MTok Raisonnement profond, analyse complexe
GPT-5.4 Pro 30,00/MTok 180,00/MTok Capacité maximale

Niveau 2 : Performance équilibrée

Des modèles polyvalents robustes qui gèrent bien la plupart des tâches de production.

Modèle Entrée (USD) Sortie (USD) Force
Claude Sonnet 4.6 3,00/MTok 15,00/MTok Code, analyse, utilisation d'outils
GPT-5.4 2,50/MTok 15,00/MTok Raisonnement multi-étapes, planification
Gemini 3.1 Pro 2,00/MTok 12,00/MTok Raisonnement long contexte, fenêtre 1M
Magistral Medium 2,00/MTok 5,00/MTok Raisonnement spécialisé, multilingue
Qwen 3 Max 1,20/MTok 6,00/MTok Raisonnement robuste, écosystème open-weight

Niveau 3 : Optimisé en coût

Des modèles rapides et abordables, idéaux pour des tâches bien définies et plus ciblées.

Modèle Entrée (USD) Sortie (USD) Force
Claude Haiku 4.5 1,00/MTok 5,00/MTok Classification, extraction, routage
Mistral Large 3 0,50/MTok 1,50/MTok Généraliste, fournisseur européen
DeepSeek R1 0,45/MTok 2,15/MTok Raisonnement à prix budget
Qwen 3.5 Plus 0,40/MTok 2,40/MTok MoE équilibré, open-weight
Magistral Small 0,50/MTok 1,50/MTok Raisonnement léger, transparent
Gemini 3 Flash 0,50/MTok 3,00/MTok Inférence rapide, multimodal
GPT-5 mini 0,25/MTok 2,00/MTok Sortie structurée, validation
Gemini 3.1 Flash-Lite 0,25/MTok 1,50/MTok Tâches légères, multimodal
Llama 4 Maverick 0,15/MTok 0,60/MTok Open source, auto-hébergé

Niveau 4 : Ultra-efficient

Des modèles à coût minimal pour les opérations les plus simples.

Modèle Entrée (USD) Sortie (USD) Force
Qwen 3.5 Flash 0,10/MTok 0,40/MTok MoE rapide, open-weight
Mistral Small 3.2 0,06/MTok 0,18/MTok Rapide, auto-hébergé
GPT-5 nano 0,05/MTok 0,40/MTok Classification simple, formatage
Llama 4 Scout 0,08/MTok 0,30/MTok Analyse, extraction d'entités

L'écart de prix du Niveau 1 au Niveau 4 est énorme. Les jetons de sortie Claude Opus 4.6 coûtent 83 fois plus que ceux de Llama 4 Scout. Même au sein de la même famille de fournisseur, Claude Opus 4.6 coûte 5 fois plus que Haiku 4.5.


Le cadre de dimensionnement

Le cadre se compose de quatre étapes : Décomposer, Classifier, Assigner et Mesurer (DCAM).

Étape 1 : Décomposer le workflow

Décomposez votre workflow agentique en ses appels LLM atomiques. Chaque appel doit être catégorisé par sa fonction :

  • Routage — Décider quel outil ou sous-agent invoquer
  • Extraction — Extraire des données structurées d'entrées non structurées
  • Transformation — Convertir des données entre formats (JSON, SQL, résumés)
  • Validation — Vérifier les résultats par rapport aux schémas ou règles métier
  • Raisonnement — Tirer des conclusions, porter des jugements, synthétiser des informations
  • Génération — Produire du contenu en langage naturel destiné à l'utilisateur
  • Réflexion — Évaluer la qualité et décider de recommencer

Étape 2 : Classifier la complexité des tâches

Chaque type de tâche correspond à un niveau de complexité :

Complexité Description Exemples
Faible Déterministe ou quasi-déterministe ; le format de sortie est fixe et le raisonnement minimal Analyse JSON, validation de champs, classification d'intentions, extraction de mots-clés
Moyenne Nécessite de comprendre le contexte et d'appliquer des modèles appris, mais la tâche est bien délimitée Résumé, extraction d'entités de documents, génération SQL, complétion de code
Élevée Nécessite un raisonnement multi-étapes, un jugement en situation d'ambiguïté ou une synthèse créative Analyse de recherche, planification stratégique, architecture de code complexe, réponses client nuancées

Étape 3 : Assigner les niveaux de modèles

La règle d'assignation est directe :

Complexité de la tâche Niveau recommandé Justification
Faible Niveau 4 (Ultra-efficient) Ces tâches nécessitent de la reconnaissance de motifs, pas du raisonnement. Dépenser plus ici est du pur gaspillage.
Moyenne Niveau 3 (Optimisé en coût) Les modèles de classe Haiku gèrent le résumé, l'extraction et la génération structurée de manière fiable.
Élevée Niveau 2 (Équilibré) Les modèles de classe Sonnet couvrent la grande majorité des tâches de production complexes.
Critique Niveau 1 (Pointe) Réservez les modèles de pointe aux tâches où les échecs de qualité ont des conséquences disproportionnées.

L'insight clé — confirmé par les recherches de NVIDIA sur les petits modèles de langage pour l'IA agentique — est que la plupart des appels d'agents sont de complexité Faible ou Moyenne. Dans une session d'agent typique de 20 appels, seuls 2 à 4 appels nécessitent véritablement un raisonnement de Niveau 1 ou 2. Le reste est du routage, de l'analyse, de la validation et de l'extraction.

Étape 4 : Mesurer et itérer

Déployez avec vos assignations de niveaux initiales, puis mesurez :

  • Métriques de qualité par étape — Le modèle de niveau inférieur atteint-il une précision acceptable pour chaque tâche ?
  • Coût par session — Quel est le coût mixte à travers tous les niveaux ?
  • Latence par étape — Les modèles plus petits sont souvent plus rapides, ce qui améliore l'expérience utilisateur
  • Taux d'échec — Certaines étapes échouent-elles de manière disproportionnée avec le modèle assigné ?

Ajustez les assignations de niveaux en fonction des données. Certaines tâches que vous pensiez Moyennes fonctionneront bien au niveau Faible. Certaines que vous avez classées Faibles nécessiteront peut-être le niveau Moyen. Le cadre est itératif, pas prescriptif.


L'économie : un exemple concret

Considérons un agent d'analyse de documents qui traite des contrats téléchargés. Le workflow comprend 18 appels LLM par document :

Avant le dimensionnement (tout en Opus 4.6)

Étape Appels Moy. jetons Coût/appel Total
Découpage du document 1 2 000 ent. / 500 sort. 0,0225 0,0225
Classification des sections 6 1 000 ent. / 100 sort. 0,0075 0,0450
Extraction de clauses 4 1 500 ent. / 300 sort. 0,0150 0,0600
Évaluation des risques 3 2 000 ent. / 800 sort. 0,0300 0,0900
Génération du résumé 2 3 000 ent. / 1 000 sort. 0,0400 0,0800
Validation de qualité 2 1 500 ent. / 200 sort. 0,0125 0,0250
Total par document 18 0,3225 USD

À 1 000 documents par jour : 322,50 USD/jour — 117 712 USD/an

Après le dimensionnement (par niveaux)

Étape Niveau Modèle Appels Coût/appel Total
Découpage du document 4 GPT-5 nano 1 0,0003 0,0003
Classification des sections 4 GPT-5 nano 6 0,0001 0,0006
Extraction de clauses 3 Haiku 4.5 4 0,0030 0,0120
Évaluation des risques 1 Opus 4.6 3 0,0300 0,0900
Génération du résumé 2 Sonnet 4.6 2 0,0240 0,0480
Validation de qualité 3 Haiku 4.5 2 0,0025 0,0050
Total par document 18 0,1559 USD

À 1 000 documents par jour : 155,90 USD/jour — 56 904 USD/an

Économies annuelles : 60 808 USD (52 %)

Et c'est un exemple conservateur. Quand les modèles de Niveau 4 gèrent la majorité des appels — comme c'est le cas dans de nombreux workflows réels — des économies de 60 à 90 % sont atteignables. Les recherches sur le routage de modèles montrent que l'acheminement intelligent de 90 % des requêtes vers des modèles économiques avec seulement 10 % vers des modèles de pointe peut réduire les coûts de 86 % sans dégradation significative de la qualité.


La connexion carbone

Les économies de coûts liées au dimensionnement ne sont pas purement financières. Dans notre article compagnon, Comment mesurer l'empreinte carbone de vos dépenses en API LLM, nous avons établi un cadre pour convertir les dépenses en jetons en estimations de gCO₂e en utilisant le PUE des centres de données, les facteurs d'émission du réseau et les plages d'énergie par jeton.

La connexion est directe : les jetons moins chers provenant de modèles plus petits consomment aussi moins d'énergie par inférence. Les recherches de NVIDIA démontrent que faire tourner un modèle de 1 à 3 milliards de paramètres est 10 à 30 fois moins cher en calcul (FLOPs, énergie, heures-GPU) que faire tourner un modèle de 70 à 175 milliards de paramètres. Cela signifie que dimensionner correctement votre sélection de modèles ne réduit pas seulement votre facture API — cela réduit proportionnellement l'empreinte carbone de vos opérations IA.

Pour une organisation traitant 1 000 documents par jour :

  • Configuration tout-Opus : ~117K USD/an en coûts API, avec une consommation d'énergie proportionnellement plus élevée due à l'utilisation de GPU de pointe
  • Configuration dimensionnée : ~57K USD/an, avec la majorité de l'inférence fonctionnant sur des modèles plus petits et plus économes en énergie

Les incitations environnementales et financières sont parfaitement alignées. Chaque dollar économisé grâce au dimensionnement représente de l'énergie réelle non consommée et des émissions réelles non produites.


Modèles d'implémentation

Modèle 1 : Routage statique

L'approche la plus simple. Codez en dur quel modèle gère quelle étape au moment du développement.

Avantages : Pas de surcharge de routage, comportement déterministe, facile à déboguer Inconvénients : Ne s'adapte pas aux cas limites, nécessite un réglage manuel

Idéal pour : Les workflows bien compris avec des profils de tâches stables.

Modèle 2 : Escalade basée sur la confiance

Commencez chaque appel au niveau le moins cher viable. Si la confiance de sortie du modèle tombe en dessous d'un seuil, escaladez au niveau supérieur.

Avantages : Optimise automatiquement le compromis coût-qualité, gère les cas limites Inconvénients : Nécessite des signaux de confiance fiables, ajoute de la latence pour les appels escaladés

Idéal pour : Les systèmes à haut volume où même de petites économies par appel se cumulent.

Modèle 3 : Modèle routeur

Utilisez un modèle léger dédié (Niveau 4) comme classificateur qui examine chaque tâche entrante et la dirige vers le niveau approprié.

Avantages : Adaptatif, apprend des schémas, centralise la logique de routage Inconvénients : Ajoute un appel LLM supplémentaire par tâche, les erreurs du routeur se propagent en cascade

Idéal pour : Les systèmes multi-agents complexes avec des types de tâches divers.

Modèle 4 : Analyse hors ligne et optimisation par lots

Journalisez tous les appels d'agents en production, puis analysez périodiquement quels appels pourraient être rétrogradés vers des niveaux moins chers sans perte de qualité. Appliquez l'API Batch (50 % de réduction chez la plupart des fournisseurs) pour les opérations non sensibles au temps.

Avantages : Piloté par les données, pas de complexité à l'exécution, capture les optimisations de longue traîne Inconvénients : Nécessite une infrastructure de journalisation, les changements sont différés

Idéal pour : Les systèmes matures optimisant pour une réduction maximale des coûts.


Erreurs courantes

Erreur 1 : Utiliser le modèle de pointe par défaut pour tout

C'est l'erreur la plus coûteuse et la plus courante. Les équipes d'ingénierie prototypent souvent avec le modèle le plus capable et ne reviennent jamais sur cette décision. Ce qui fonctionne dans un prototype devient un coût de production de 4M USD/an.

Erreur 2 : Optimiser uniquement sur le prix du jeton

Le prix du jeton est une variable. La latence, le débit et la qualité par dollar comptent tout autant. Un modèle qui coûte 2 fois plus cher mais complète les tâches deux fois plus vite peut être le bon choix pour les étapes sensibles à la latence.

Erreur 3 : Ignorer l'API Batch

Pour toute étape qui n'est pas orientée utilisateur et non sensible au temps — validation en arrière-plan, extraction par lots, audits de qualité — l'API Batch réduit les coûts de 50 %. Combiné au dimensionnement, cela crée des économies cumulatives.

Erreur 4 : Traiter toutes les étapes de l'agent de la même façon

Une décision de routage et une évaluation des risques sont des tâches fondamentalement différentes. Le cadre existe précisément pour rendre cette distinction explicite plutôt qu'implicite.


La liste de vérification du cadre

Utilisez cette liste de vérification lors de la conception ou de l'audit de tout workflow agentique :

  1. Cartographiez chaque appel LLM dans votre pipeline d'agent (la plupart des équipes sous-estiment de 30 à 50 %)
  2. Classifiez chaque appel en complexité Faible, Moyenne, Élevée ou Critique
  3. Assignez un niveau initial en utilisant la matrice DCAM
  4. Déployez et mesurez la qualité, le coût et la latence par étape
  5. Itérez mensuellement — les capacités des modèles s'améliorent, les prix baissent ; vos assignations de niveaux doivent évoluer
  6. Calculez votre impact carbone en utilisant les facteurs d'émission normalisés par coût (voir notre cadre de comptabilité carbone)
  7. Rapportez les deux métriques — les CFO se soucient des dollars, les conseils d'administration se soucient de plus en plus des émissions

Conclusion

Le cadre de dimensionnement des modèles ne consiste pas à choisir des modèles moins bons. Il consiste à choisir des modèles appropriés. Les recherches de NVIDIA confirment ce que l'expérience en production enseigne déjà : les petits modèles de langage ne sont pas juste des alternatives moins chères — ils sont souvent mieux adaptés aux tâches étroites et bien définies qui constituent la majorité des workflows agentiques.

Les entreprises qui réussiront à l'ère agentique ne sont pas celles qui dépensent le plus en IA. Ce sont celles qui dépensent le plus intelligemment — en faisant correspondre la capacité du modèle à la complexité de la tâche à chaque étape, en mesurant les résultats et en itérant sans relâche.

Les mathématiques sont claires. Un workflow agentique de 20 étapes où 15 étapes utilisent des modèles de Niveau 3–4 et 5 étapes utilisent des modèles de Niveau 1–2 coûtera une fraction de celui qui fait tout tourner sur Opus. Et cette fraction ? Elle se multiplie linéairement avec chaque session utilisateur supplémentaire, chaque agent supplémentaire, chaque workflow supplémentaire.

Dimensionnez vos modèles correctement. Votre budget — et la planète — vous en remercieront.