Exemple concret
Mon agent répète le même CLAUDE.md de 4000 tokens à chaque appel. Avec cache, je paie 10% du coût habituel sur la partie cachée.
Pourquoi ça compte
Sur un agent en boucle, le prompt caching divise les coûts par 5 à 10. C'est l'optimisation la plus rentable du marché.
Tu le vois dans OpenAI, Anthropic, Gemini, Claude Code et les agents qui renvoient souvent les mêmes gros documents.
À ne pas confondre
Token : Un token est un petit morceau de texte que l'IA compte pour mesurer ce qu'elle lit, écrit et facture.
Clé API : Une clé API est un mot de passe technique qui autorise un outil à appeler un service d'IA en ton nom.
Erreurs fréquentes
- Oublier que le cache a une durée de vie (souvent 5 minutes).
- Casser le cache en modifiant la moindre virgule du début du prompt.
- Croire que le cache marche aussi sur la sortie (faux, juste sur l'entrée).
Mini-checklist
- Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
- Je le relie à un cas concret : Mon agent répète le même CLAUDE.md de 4000 tokens à chaque appel. Avec cache, je paie 10% du coût habituel sur la partie cachée.
- Je garde en tête le piège principal : Oublier que le cache a une durée de vie (souvent 5 minutes).
Questions rapides
C'est quoi Prompt caching en IA ?
Le prompt caching réutilise une partie stable du contexte pour aller plus vite et payer moins.
Où vais-je croiser Prompt caching ?
Tu le vois dans OpenAI, Anthropic, Gemini, Claude Code et les agents qui renvoient souvent les mêmes gros documents.
Quel mot lire après Prompt caching ?
Commence par Token, Clé API, Fenêtre de contexte.