Perplexité (PPL)
Métrique mesurant la capacité d'un LLM à prédire un texte de test ; une perplexité basse indique un meilleur modèle.
Définition complète
La perplexité est une métrique d'évaluation intrinsèque des LLM qui mesure l'incertitude moyenne du modèle sur chaque token d'un corpus de test : elle est l'exponentielle de la log-vraisemblance négative par token. Une perplexité de 10 signifie que le modèle est, en moyenne, aussi incertain qu'il le serait face à 10 choix équiprobables. Une valeur plus basse est meilleure. La perplexité est utilisée pour comparer des modèles sur un corpus donné, évaluer l'impact de la quantisation (les formats Q4 ont une perplexité légèrement supérieure à FP16) et mesurer la qualité de la tokenisation. Ses limites : elle ne mesure pas la cohérence factuelle ni la capacité à suivre des instructions. Sur WikiText-2 ou Penn Treebank, les LLM modernes atteignent des perplexités de 5 à 15.