← Retour au glossaire A-Z
Glossaire IA · P1

Latence

La latence est le délai total ressenti entre ta demande et la réponse.

Performance Lecture 4 min Mis à jour le 2026-05-22
— Définition

Latence, en clair

La latence est le délai total ressenti entre ta demande et la réponse.

Présenter la latence comme le temps entre ta question et la première réponse, pas la longueur totale.

Exemple concret

Quand je tape une question à Claude, il met 800 ms avant le premier mot. Cette attente, c'est la latence.

Pourquoi ça compte

La latence décide si une expérience est utilisable. Sur un agent vocal, 2 secondes c'est mort.

Tu la vois dans les interfaces chat, agents vocaux et automatisations en temps réel.

À ne pas confondre

Streaming : Le streaming affiche la réponse au fur et à mesure que le modèle la génère.

TTFT : La TTFT mesure le temps entre l'envoi de la demande et l'apparition du premier token.

Erreurs fréquentes

  • Confondre latence (premier mot) et durée totale (réponse complète).
  • Croire qu'un gros modèle est toujours plus lent (selon le provider, faux).
  • Oublier que le streaming réduit la latence perçue, pas la latence réelle.

Mini-checklist

  • Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
  • Je le relie à un cas concret : Quand je tape une question à Claude, il met 800 ms avant le premier mot. Cette attente, c'est la latence.
  • Je garde en tête le piège principal : Confondre latence (premier mot) et durée totale (réponse complète).

Questions rapides

C'est quoi Latence en IA ?

La latence est le délai total ressenti entre ta demande et la réponse.

Où vais-je croiser Latence ?

Tu la vois dans les interfaces chat, agents vocaux et automatisations en temps réel.

Quel mot lire après Latence ?

Commence par Streaming, TTFT, TPS.

Tu veux continuer dans l'ordre ?

Reviens au glossaire complet, cherche un mot, puis ouvre seulement les pages qui méritent plus qu'une définition courte.

Ouvrir le glossaire IA