Token
Unité de base du traitement textuel dans un LLM : fragment de mot, mot entier ou signe de ponctuation.
Définition complète
Un token est la plus petite unité de texte qu'un LLM traite. Selon le tokenizer, un mot peut correspondre à 1 à 3 tokens (les mots rares ou mots français en général sont souvent 2 tokens), les espaces et la ponctuation sont des tokens séparés. En anglais, la règle approximative est 1 token ≈ 0,75 mot. Les LLM sont entraînés et facturés au token : une page de texte correspond environ à 500 tokens. La fenêtre de contexte, la VRAM requise et les coûts API sont tous exprimés en tokens. Le tokenizer (BPE, SentencePiece, Tiktoken) convertit le texte brut en séquence d'identifiants numériques (token IDs) avant d'entrer dans le modèle. Les tokens sont aussi la sortie du modèle : le LLM génère des IDs de tokens reconvertis en texte par le détokenizer.