Tokenisation
Processus de découpage du texte en tokens selon un vocabulaire appris, avant toute opération du LLM.
Définition complète
La tokenisation est le prétraitement qui convertit une chaîne de texte en une séquence d'identifiants entiers (token IDs) via un vocabulaire de taille fixe (32 000 à 200 000 entrées selon les modèles). L'algorithme le plus courant est le Byte-Pair Encoding (BPE) : il apprend à fusionner les paires de bytes les plus fréquentes dans le corpus d'entraînement, créant un vocabulaire de sous-mots. Le tokenizer est spécifique à chaque modèle et son vocabulaire doit être distribué avec le modèle. La tokenisation influe sur les performances : un mauvais tokenizer pour une langue crée trop de tokens par mot (ex : les langues agglutinantes), réduisant l'espace de contexte effectif. TikToken (OpenAI), SentencePiece (Google) et les tokenizers Hugging Face sont les implémentations les plus répandues.