Latence : définition IA simple

Exemple concret

Quand je tape une question à Claude, il met 800 ms avant le premier mot. Cette attente, c'est la latence.

La latence décide si une expérience est utilisable. Sur un agent vocal, 2 secondes c'est mort.

Tu la vois dans les interfaces chat, agents vocaux et automatisations en temps réel.

Streaming : Le streaming affiche la réponse au fur et à mesure que le modèle la génère.

TTFT : La TTFT mesure le temps entre l'envoi de la demande et l'apparition du premier token.

Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
Je le relie à un cas concret : Quand je tape une question à Claude, il met 800 ms avant le premier mot. Cette attente, c'est la latence.
Je garde en tête le piège principal : Confondre latence (premier mot) et durée totale (réponse complète).

C'est quoi Latence en IA ?

La latence est le délai total ressenti entre ta demande et la réponse.

Où vais-je croiser Latence ?

Tu la vois dans les interfaces chat, agents vocaux et automatisations en temps réel.

Quel mot lire après Latence ?

Commence par Streaming, TTFT, TPS.