Inférence : définition IA simple

Exemple concret

Quand je tape une question dans Claude, je fais de l'inférence. L'entraînement a déjà eu lieu il y a des mois.

Pourquoi ça compte

Tu paies en inférence chaque fois que tu utilises un modèle. Comprendre ce coût, c'est piloter ton usage IA.

C'est ce que tu paies à chaque appel API ou message traité par un modèle hébergé.

À ne pas confondre

Latence : La latence est le délai total ressenti entre ta demande et la réponse.

Token : Un token est un petit morceau de texte que l'IA compte pour mesurer ce qu'elle lit, écrit et facture.

Erreurs fréquentes

Confondre temps d'entraînement et temps d'inférence.
Penser qu'un modèle apprend de tes prompts en inférence (faux pour la plupart).
Oublier que l'inférence coûte plus cher sur les modèles de raisonnement.

Mini-checklist

Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
Je le relie à un cas concret : Quand je tape une question dans Claude, je fais de l'inférence. L'entraînement a déjà eu lieu il y a des mois.
Je garde en tête le piège principal : Confondre temps d'entraînement et temps d'inférence.

Questions rapides

C'est quoi Inférence en IA ?

L'inférence est le moment où un modèle d'IA produit une réponse à partir d'une demande, par opposition à l'entraînement. C'est ce que tu paies à chaque appel API, plus coûteux sur les modèles de raisonnement.

Où vais-je croiser Inférence ?

C'est ce que tu paies à chaque appel API ou message traité par un modèle hébergé.

Quel mot lire après Inférence ?

Commence par Latence, Token, Modèle IA.

Inférence

Inférence, en clair