Exemple concret
Quand Claude écrit, tu vois les mots apparaître un par un : c'est du streaming. Sans, tu attendrais 10 secondes en silence.
Pourquoi ça compte
Le streaming réduit la latence perçue. Sur un agent vocal, c'est même la condition sine qua non.
Tu le vois dans les interfaces chat où les mots apparaissent progressivement.
À ne pas confondre
Latence : La latence est le délai total ressenti entre ta demande et la réponse.
TTFT : La TTFT mesure le temps entre l'envoi de la demande et l'apparition du premier token.
Erreurs fréquentes
- Ne pas activer le streaming sur les interfaces utilisateur (UX cassée).
- Activer le streaming sur un endpoint batch (inutile).
- Oublier que le streaming complique le parsing du JSON en sortie.
Mini-checklist
- Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
- Je le relie à un cas concret : Quand Claude écrit, tu vois les mots apparaître un par un : c'est du streaming. Sans, tu attendrais 10 secondes en silence.
- Je garde en tête le piège principal : Ne pas activer le streaming sur les interfaces utilisateur (UX cassée).
Questions rapides
C'est quoi Streaming en IA ?
Le streaming affiche la réponse au fur et à mesure que le modèle la génère.
Où vais-je croiser Streaming ?
Tu le vois dans les interfaces chat où les mots apparaissent progressivement.
Quel mot lire après Streaming ?
Commence par Latence, TTFT, TPS.