Inférence : définition IA simple

Exemple concret

Quand je tape une question dans Claude, je fais de l'inférence. L'entraînement a déjà eu lieu il y a des mois.

Tu paies en inférence chaque fois que tu utilises un modèle. Comprendre ce coût, c'est piloter ton usage IA.

C'est ce que tu paies à chaque appel API ou message traité par un modèle hébergé.

Latence : La latence est le délai total ressenti entre ta demande et la réponse.

Token : Un token est un petit morceau de texte que l'IA compte pour mesurer ce qu'elle lit, écrit et facture.

Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
Je le relie à un cas concret : Quand je tape une question dans Claude, je fais de l'inférence. L'entraînement a déjà eu lieu il y a des mois.
Je garde en tête le piège principal : Confondre temps d'entraînement et temps d'inférence.

C'est quoi Inférence en IA ?

L'inférence est le moment où le modèle produit une réponse à partir de ta demande.

Où vais-je croiser Inférence ?

C'est ce que tu paies à chaque appel API ou message traité par un modèle hébergé.

Quel mot lire après Inférence ?

Commence par Latence, Token, Modèle IA.