Latence : définition IA simple

Exemple concret

Quand je tape une question à Claude, il met 800 ms avant le premier mot. Cette attente, c'est la latence.

Pourquoi ça compte

La latence décide si une expérience est utilisable. Sur un agent vocal, 2 secondes c'est mort.

Tu la vois dans les interfaces chat, agents vocaux et automatisations en temps réel.

À ne pas confondre

Streaming : Le streaming affiche la réponse au fur et à mesure que le modèle la génère.

TTFT : La TTFT mesure le temps entre l'envoi de la demande et l'apparition du premier token.

Erreurs fréquentes

Confondre latence (premier mot) et durée totale (réponse complète).
Croire qu'un gros modèle est toujours plus lent (selon le provider, faux).
Oublier que le streaming réduit la latence perçue, pas la latence réelle.

Mini-checklist

Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
Je le relie à un cas concret : Quand je tape une question à Claude, il met 800 ms avant le premier mot. Cette attente, c'est la latence.
Je garde en tête le piège principal : Confondre latence (premier mot) et durée totale (réponse complète).

Questions rapides

C'est quoi Latence en IA ?

La latence en IA est le délai ressenti entre l'envoi d'une demande et le début de la réponse. Critique pour les chats, agents vocaux et automatisations en temps réel, elle se distingue de la durée totale de génération de la réponse.

Où vais-je croiser Latence ?

Tu la vois dans les interfaces chat, agents vocaux et automatisations en temps réel.

Quel mot lire après Latence ?

Commence par Streaming, TTFT, TPS.

Latence

Latence, en clair