Intermédiaire Inférence L

Latence

Temps écoulé entre l'envoi d'un prompt et la réception du premier token de réponse (TTFT).

Définition complète

La latence dans le contexte des LLM se mesure principalement via le TTFT (Time To First Token), c'est-à-dire le délai avant que l'utilisateur commence à voir la réponse s'afficher. Elle dépend de la taille du modèle, de la longueur du prompt (calcul du KV cache), de l'infrastructure matérielle et de la charge du serveur. Le TPS (Tokens Per Second) mesure la vitesse de génération une fois démarrée. Ces deux métriques sont indépendantes : un serveur peut avoir un TTFT faible et un TPS bas. La latence est critique pour les applications interactives et le streaming. Des optimisations comme le batching continu, le speculative decoding et les puces Groq LPU visent à réduire la latence. Pour les API cloud, la latence varie typiquement de 200ms à quelques secondes selon le modèle.

Définition complète

Termes associés