Débutant Architecture C

Contexte (Context Window)

Nombre maximal de tokens qu'un LLM peut traiter simultanément en entrée et en sortie lors d'une inférence.

Définition complète

La fenêtre de contexte définit la « mémoire de travail » d'un LLM : tout ce qu'il peut « voir » à la fois - historique de conversation, documents, instructions système et réponse en cours de génération. Exprimée en tokens, elle varie de 4 096 tokens pour les anciens modèles à plus de 1 million pour Gemini 1.5. Un contexte plus long permet de traiter des documents entiers ou des conversations longues, mais augmente la VRAM nécessaire et le temps de calcul. La « lost in the middle » problem montre que les LLM ont du mal à exploiter les informations situées au milieu d'un contexte très long. Des techniques comme le RAG permettent de contourner les limites de contexte en ne fournissant que les passages pertinents.

Définition complète

Termes associés