Top-k
Paramètre de sampling limitant le choix du prochain token aux k tokens les plus probables selon le modèle.
Définition complète
Le top-k sampling restreint la distribution de probabilité aux k tokens les plus probables à chaque étape de génération, annulant la probabilité de tous les autres avant de normaliser et de tirer aléatoirement. Une valeur k=1 correspond au greedy decoding (toujours le plus probable) ; k=50 permet une certaine créativité tout en évitant les tokens très improbables. Top-k est simple mais rigide : si le modèle est très incertain (probabilités étalées), k=50 peut inclure des tokens médiocres ; si très confiant, k=50 inclut des tokens inutilement improbables. C'est pourquoi top-p lui est souvent préféré ou combiné avec lui. Les LLM locaux via Ollama et llama.cpp exposent top-k comme paramètre ajustable ; la valeur par défaut est souvent 40.