Intermédiaire Entraînement B

Benchmark

Ensemble de tests standardisés permettant de mesurer et comparer les capacités des LLM de manière objective.

Définition complète

Un benchmark LLM est un protocole d'évaluation reproductible composé de jeux de données et de métriques définies, permettant de comparer les modèles sur des tâches précises. Les benchmarks les plus connus incluent MMLU (connaissances générales), HumanEval (code), GSM8K (mathématiques), HellaSwag (raisonnement) et MATH. Les résultats de benchmarks sont souvent reportés sur des leaderboards comme LMSYS Chatbot Arena ou Open LLM Leaderboard. Il faut interpréter ces scores avec précaution : un modèle peut être entraîné à « mémoriser » les benchmarks (data contamination), gonflant artificiellement ses scores. Les benchmarks ne capturent pas toujours les usages réels comme le suivi d'instructions longues ou la cohérence conversationnelle.