Prompt caching : définition IA simple

Exemple concret

Mon agent répète le même CLAUDE.md de 4000 tokens à chaque appel. Avec cache, je paie 10% du coût habituel sur la partie cachée.

Sur un agent en boucle, le prompt caching divise les coûts par 5 à 10. C'est l'optimisation la plus rentable du marché.

Tu le vois dans OpenAI, Anthropic, Gemini, Claude Code et les agents qui renvoient souvent les mêmes gros documents.

Token : Un token est un petit morceau de texte que l'IA compte pour mesurer ce qu'elle lit, écrit et facture.

Clé API : Une clé API est un mot de passe technique qui autorise un outil à appeler un service d'IA en ton nom.

Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
Je le relie à un cas concret : Mon agent répète le même CLAUDE.md de 4000 tokens à chaque appel. Avec cache, je paie 10% du coût habituel sur la partie cachée.
Je garde en tête le piège principal : Oublier que le cache a une durée de vie (souvent 5 minutes).

C'est quoi Prompt caching en IA ?

Le prompt caching réutilise une partie stable du contexte pour aller plus vite et payer moins.

Où vais-je croiser Prompt caching ?

Tu le vois dans OpenAI, Anthropic, Gemini, Claude Code et les agents qui renvoient souvent les mêmes gros documents.

Quel mot lire après Prompt caching ?

Commence par Token, Clé API, Fenêtre de contexte.