Exemple concret
Quand je tape une question à Claude, il met 800 ms avant le premier mot. Cette attente, c'est la latence.
Pourquoi ça compte
La latence décide si une expérience est utilisable. Sur un agent vocal, 2 secondes c'est mort.
Tu la vois dans les interfaces chat, agents vocaux et automatisations en temps réel.
À ne pas confondre
Streaming : Le streaming affiche la réponse au fur et à mesure que le modèle la génère.
TTFT : La TTFT mesure le temps entre l'envoi de la demande et l'apparition du premier token.
Erreurs fréquentes
- Confondre latence (premier mot) et durée totale (réponse complète).
- Croire qu'un gros modèle est toujours plus lent (selon le provider, faux).
- Oublier que le streaming réduit la latence perçue, pas la latence réelle.
Mini-checklist
- Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
- Je le relie à un cas concret : Quand je tape une question à Claude, il met 800 ms avant le premier mot. Cette attente, c'est la latence.
- Je garde en tête le piège principal : Confondre latence (premier mot) et durée totale (réponse complète).
Questions rapides
C'est quoi Latence en IA ?
La latence est le délai total ressenti entre ta demande et la réponse.
Où vais-je croiser Latence ?
Tu la vois dans les interfaces chat, agents vocaux et automatisations en temps réel.
Quel mot lire après Latence ?
Commence par Streaming, TTFT, TPS.