Exemple concret
Quand je tape une question dans Claude, je fais de l'inférence. L'entraînement a déjà eu lieu il y a des mois.
Pourquoi ça compte
Tu paies en inférence chaque fois que tu utilises un modèle. Comprendre ce coût, c'est piloter ton usage IA.
C'est ce que tu paies à chaque appel API ou message traité par un modèle hébergé.
À ne pas confondre
Latence : La latence est le délai total ressenti entre ta demande et la réponse.
Token : Un token est un petit morceau de texte que l'IA compte pour mesurer ce qu'elle lit, écrit et facture.
Erreurs fréquentes
- Confondre temps d'entraînement et temps d'inférence.
- Penser qu'un modèle apprend de tes prompts en inférence (faux pour la plupart).
- Oublier que l'inférence coûte plus cher sur les modèles de raisonnement.
Mini-checklist
- Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
- Je le relie à un cas concret : Quand je tape une question dans Claude, je fais de l'inférence. L'entraînement a déjà eu lieu il y a des mois.
- Je garde en tête le piège principal : Confondre temps d'entraînement et temps d'inférence.
Questions rapides
C'est quoi Inférence en IA ?
L'inférence est le moment où le modèle produit une réponse à partir de ta demande.
Où vais-je croiser Inférence ?
C'est ce que tu paies à chaque appel API ou message traité par un modèle hébergé.
Quel mot lire après Inférence ?
Commence par Latence, Token, Modèle IA.