Avancé Inférence K

KV Cache

Mécanisme de mise en cache des clés et valeurs d'attention pour éviter de recalculer les tokens déjà traités.

Définition complète

Le KV cache (Key-Value cache) stocke en mémoire les matrices de clés (K) et valeurs (V) calculées par l'attention pour tous les tokens déjà traités dans la séquence, évitant leur recalcul à chaque nouveau token généré. Sans KV cache, l'inférence autoregressive serait quadratiquement plus lente. Il est la principale raison pour laquelle les contextes longs consomment plus de VRAM : un contexte de 128k tokens nécessite un KV cache proportionnellement plus grand. Les techniques de compression du KV cache (quantisation du cache, sliding window attention, Multi-Query Attention) visent à réduire son empreinte mémoire. Le « prompt caching » proposé par Anthropic et OpenAI permet de réutiliser le KV cache d'un préfixe commun entre plusieurs requêtes, réduisant la latence et les coûts.