BLEU Score
Métrique automatique mesurant la similarité entre un texte généré et des références humaines, utilisée en traduction.
Définition complète
Le BLEU (Bilingual Evaluation Understudy) score mesure le chevauchement de n-grammes entre une sortie générée et un ou plusieurs textes de référence, sur une échelle de 0 à 1 (ou 0 à 100). Initialement conçu pour la traduction automatique, il est aussi utilisé pour évaluer la génération de texte en général. Ses limites sont bien connues : il ne capture pas la sémantique, peut pénaliser des paraphrases correctes et favorise les textes courts. Des métriques plus modernes comme ROUGE (pour le résumé), BERTScore (basé sur les embeddings) ou METEOR lui sont souvent préférées pour les LLM contemporains. Malgré ses faiblesses, le BLEU reste une référence historique incontournable dans les publications académiques.