Débutant Architecture C

Contexte (Context Window)

Nombre maximal de tokens qu'un LLM peut traiter simultanément en entrée et en sortie lors d'une inférence.

Définition complète

La fenêtre de contexte définit la « mémoire de travail » d'un LLM : tout ce qu'il peut « voir » à la fois - historique de conversation, documents, instructions système et réponse en cours de génération. Exprimée en tokens, elle varie de 4 096 tokens pour les anciens modèles à plus de 1 million pour Gemini 1.5. Un contexte plus long permet de traiter des documents entiers ou des conversations longues, mais augmente la VRAM nécessaire et le temps de calcul. La « lost in the middle » problem montre que les LLM ont du mal à exploiter les informations situées au milieu d'un contexte très long. Des techniques comme le RAG permettent de contourner les limites de contexte en ne fournissant que les passages pertinents.