Intermédiaire Inférence T

Top-p (Nucleus Sampling)

Paramètre de sampling ne conservant que les tokens dont les probabilités cumulées dépassent un seuil p, filtrant les options improbables.

Définition complète

Le top-p, ou nucleus sampling, est une méthode de sampling adaptative qui, à chaque étape, ne considère que le plus petit ensemble de tokens dont les probabilités cumulées somment à au moins p (ex : 0.9 = 90%). Contrairement au top-k qui fixe un nombre absolu de candidats, top-p s'adapte dynamiquement : quand le modèle est très confiant (un seul token probable à 99%), seul ce token est candidat ; quand l'incertitude est forte, de nombreux tokens sont candidats. Top-p 0.9 ou 0.95 est la valeur standard pour les chatbots. Il est généralement combiné avec la température, appliquée sur les logits avant le filtrage top-p. Des valeurs de top-p proches de 1.0 sont très permissives ; des valeurs proches de 0 tendent vers le greedy decoding.