Débutant Inférence S

Streaming

Mode de transmission qui affiche les tokens générés au fur et à mesure, donnant l'impression d'une réponse en temps réel.

Définition complète

Le streaming LLM utilise Server-Sent Events (SSE) ou WebSockets pour envoyer chaque token généré au client dès qu'il est disponible, plutôt que d'attendre la complétion totale. Cette technique améliore considérablement l'expérience utilisateur : la latence perçue est réduite car l'utilisateur commence à lire la réponse presque immédiatement. Techniquement, les APIs compatibles OpenAI renvoient des objets JSON partiels (deltas) séparés par des lignes vides. Côté client, les bibliothèques comme openai-python et les frameworks web gèrent le parsing du flux SSE. Le streaming est activé par le paramètre `stream: true` dans la plupart des APIs. Il complique légèrement la gestion des erreurs et la mesure de la longueur totale, mais est devenu le mode par défaut pour les interfaces de chat.