L'avantage de la mémoire unifiée

Les puces Apple Silicon utilisent une architecture de mémoire unifiée où le CPU et le GPU partagent le même pool de RAM. Contrairement aux PC où la VRAM du GPU est limitée (8-24 Go typiquement), un Mac M2 Ultra avec 192 Go de RAM peut utiliser l'intégralité de cette mémoire pour un LLM. Cette architecture est idéale pour les LLMs : un modèle Llama 3 70B quantisé Q4 (environ 42 Go) tourne parfaitement sur un Mac Studio M2 Ultra avec 64 Go de RAM. llama.cpp exploite nativement Metal, le framework GPU d'Apple, pour accélérer l'inférence.

Performances selon la génération de puce

M1 (8/16 Go) : idéal pour les modèles 7B Q4, lent en 13B. M1 Pro/Max (16-64 Go) : excellent pour 7B-13B, 30B possible en Q4 avec 32+ Go. M2 (8/24 Go) : similaire à M1 mais ~20% plus rapide. M2 Pro/Max (16-96 Go) : 30B en Q4 confortable. M3/M4 base (8/16/24 Go) : meilleur rapport perf/prix, GPU plus rapide que M1 Pro. M3/M4 Pro (18-48 Go) : sweet spot 2025 pour les LLMs. M3/M4 Max (36-128 Go) : les 70B deviennent accessibles. M2/M3 Ultra (64-192 Go) : aucune limitation pratique pour les LLMs locaux.

Installer et configurer Ollama sur Mac

Ollama est nativement optimisé pour Apple Silicon et utilise Metal automatiquement. L'installation via le DMG ou Homebrew prend moins de 2 minutes. La variable d'environnement OLLAMA_NUM_GPU permet de forcer l'utilisation du GPU Metal. Pour les modèles qui tiennent entièrement en mémoire, l'offloading est total et les performances sont maximales. Sur M3/M4, les débits atteignent 30-50 tokens/s pour un modèle 7B Q4, ce qui rend la conversation fluide.

Modèles recommandés par configuration

Mac Mini M4 8 Go : Llama 3.2 3B Q8, Phi-3 Mini, Gemma 2 2B. Mac Mini M4 16/24 Go : Llama 3.2 8B Q8, Mistral 7B Q8, Qwen2.5 7B. MacBook Pro M3 Pro 18-36 Go : Llama 3.1 8B Q8, Qwen2.5 14B Q4, Mistral Small. Mac Studio M4 Max 48 Go : Qwen2.5 32B Q4, DeepSeek R1 Distill 32B. Mac Studio/Pro M2/M3 Ultra 64+ Go : Llama 3.1 70B Q4, Qwen2.5 72B Q4.

Étapes pratiques

  1. Installer Ollama sur Mac

    Téléchargez Ollama depuis ollama.com/download/mac ou via Homebrew.

    {step.code}
  2. Vérifier la détection du GPU Metal

    Confirmez qu'Ollama utilise bien le GPU Metal de votre puce Apple.

    {step.code}
  3. Choisir le bon modèle pour votre RAM

    Calculez l'espace mémoire disponible. Laissez au moins 3-4 Go pour macOS. Avec 16 Go de RAM : 16 - 4 (macOS) = 12 Go disponibles pour le LLM.

    {step.code}
  4. Optimiser les paramètres Ollama

    Ajustez la durée de garde en mémoire et le nombre de threads pour optimiser les performances sur Mac.

    {step.code}
  5. Tester les performances

    Mesurez le débit tokens/s pour votre modèle. Sur M3/M4, visez 30+ t/s pour un 7B.

    {step.code}