Comment évaluer un LLM local ?

Comparer des LLMs nécessite de croiser plusieurs métriques : les benchmarks académiques (MMLU, HumanEval, GSM8K), les performances réelles sur vos cas d'usage concrets, et les contraintes pratiques (taille du modèle, vitesse d'inférence, longueur de contexte). Les benchmarks académiques donnent une indication mais ne reflètent pas toujours les performances en conditions réelles. Pour une évaluation fiable, testez toujours les modèles sur 10-20 prompts représentatifs de votre usage avant de faire votre choix.

Llama 3.2 : le polyvalent de Meta

Llama 3.2 de Meta est disponible en versions 1B, 3B, 11B (vision) et 90B. Les versions 3B et 8B (Llama 3.1) offrent d'excellentes performances pour leur taille, notamment en anglais et de plus en plus en multilingue. Le contexte de 128k tokens est un avantage majeur pour les usages documentaires. Llama 3.2 excelle en génération de texte, résumé et questions-réponses. Sa licence permissive permet un usage commercial sous certaines conditions.

Mistral : le champion européen

Mistral AI propose Mistral 7B Instruct et Mixtral 8x7B (MoE), deux modèles reconnus pour leur excellence en français et en code. Mistral 7B est particulièrement compact et rapide tout en offrant des performances comparables à des modèles bien plus grands. Mixtral 8x7B utilise une architecture Mixture of Experts qui active seulement 2 des 8 experts par token, combinant efficacité et performance. Pour les utilisateurs francophones, Mistral reste souvent le meilleur choix pour la qualité du français généré.

Qwen 2.5 et Gemma 2 : les outsiders de choix

Qwen 2.5 de Alibaba s'est imposé comme une surprise en 2024-2025, avec des versions de 0.5B à 72B offrant des performances remarquables, notamment en code avec Qwen2.5-Coder. Ses benchmarks dépassent souvent Llama et Mistral à taille équivalente. Gemma 2 de Google est compact, rapide et très bien instruit, particulièrement efficace pour les tâches de raisonnement et de classification. Phi-3 de Microsoft cible les machines à faible RAM avec un modèle 3.8B aux performances surprenantes.

Recommandations par cas d'usage

Pour la génération de texte en français : Mistral 7B ou Llama 3.2 8B. Pour le code : Qwen2.5-Coder 7B ou 14B, ou Deepseek-Coder V2. Pour le raisonnement et les mathématiques : Qwen2.5 72B ou Deepseek R1 Distill. Pour les machines avec peu de RAM (4-8 Go) : Llama 3.2 3B, Phi-3 Mini ou Gemma 2 2B. Pour les usages vision (analyse d'images) : Llava 1.6 ou Llama 3.2 11B Vision.

Étapes pratiques

  1. Définir vos critères

    Listez vos cas d'usage principaux (code, texte, RAG, multilingue) et vos contraintes matérielles (RAM, VRAM disponibles).

  2. Télécharger les candidats

    Installez 2-3 modèles candidats avec Ollama pour les comparer directement.

    {step.code}
  3. Créer un jeu de tests

    Préparez 10-15 prompts représentatifs de vos usages : questions de connaissance, tâches de génération, code, etc.

  4. Comparer les réponses

    Testez chaque prompt sur chaque modèle et évaluez la qualité, la précision et le style des réponses.

    {step.code}
  5. Mesurer les performances

    Notez la vitesse d'inférence (tokens/s) et la consommation mémoire pour chaque modèle.

    {step.code}