Pourquoi la VRAM est le facteur #1

Pour les LLMs locaux, la VRAM (mémoire vidéo embarquée sur le GPU) est bien plus importante que la puissance de calcul brute. Plus vous avez de VRAM, plus vous pouvez charger de couches du modèle sur le GPU, et plus l'inférence est rapide. Avec 8 Go de VRAM, vous pouvez faire tourner confortablement des modèles 7B quantisés. Avec 16 Go, les modèles 13-14B deviennent accessibles, et avec 24 Go, vous entrez dans le territoire des modèles 30-34B. La VRAM ne peut pas être augmentée après achat : sur-estimez plutôt vos besoins.

NVIDIA vs AMD : l'état en 2025

NVIDIA domine le marché des LLMs locaux grâce à l'écosystème CUDA mature, supporté nativement par tous les outils (Ollama, llama.cpp, llama.cpp). Les RTX 40xx offrent d'excellentes performances avec les architectures Ampere/Ada Lovelace. AMD a fait des progrès significatifs avec ROCm, mais le support reste plus complexe à configurer, particulièrement sur Windows. Pour une expérience plug-and-play sans friction, NVIDIA reste le choix sûr en 2025. AMD devient viable pour les utilisateurs Linux avancés avec les RX 7900 XTX (24 Go) à un prix attractif.

Comparatif des GPU NVIDIA par gamme de prix

RTX 4060 (8 Go VRAM, ~300€) : modèles jusqu'à 7B, bon rapport prix/performance pour débuter. RTX 4060 Ti 16 Go (600€) : la meilleure option mid-range en 2025, couvre les modèles 13B. RTX 4070 Super (12 Go, ~600€) : rapide mais VRAM insuffisante pour les modèles 13B en full GPU. RTX 4080 Super (16 Go, ~1000€) : modèles 13B confortables, 30B avec split. RTX 4090 (24 Go, ~1800€) : le roi du local, couvre jusqu'aux modèles 30B en pleine qualité. Pour le meilleur rapport VRAM/€, la RTX 4060 Ti 16 Go est souvent citée comme le sweet spot 2025.

Alternative : l'occasion et le professionnel

Le marché de l'occasion offre d'excellentes opportunités : RTX 3090 (24 Go) à 600-700€, RTX 3080 Ti (12 Go) à 400-500€. Les GPU professionnels NVIDIA comme les A4000 (16 Go) ou A5000 (24 Go) apparaissent sur eBay à des prix intéressants et offrent la même VRAM que les RTX. La RTX 3090 d'occasion reste l'un des meilleurs achats possible : 24 Go de VRAM pour moins cher qu'une RTX 4080 neuve. Attention aux GPUs mineurs usagés : préférez les modèles gaming qui ont moins subi de stress continu.

Apple Silicon comme alternative GPU

Les Mac avec puces M1 Pro/Max, M2/M3/M4 Pro/Max offrent une mémoire unifiée partagée entre CPU et GPU, ce qui est idéal pour les LLMs. Un M3 Max avec 128 Go de RAM peut faire tourner des modèles de 70B quantisés ! La vitesse d'inférence via Metal est bonne, parfois meilleure qu'un PC avec RTX 4080 pour les grands modèles. Le coût d'entrée est plus élevé (Mac Mini M4 Pro à 1600€) mais vous obtenez aussi un excellent ordinateur polyvalent. Pour les LLMs locaux uniquement, un PC avec RTX 4090 sera souvent plus rapide et moins cher.

Étapes pratiques

  1. Évaluer vos besoins

    Déterminez la taille des modèles que vous souhaitez faire tourner. 7B → 8 Go VRAM minimum. 13-14B → 12-16 Go. 30-34B → 24 Go. 70B → plusieurs GPU ou Apple Silicon haut de gamme.

  2. Fixer votre budget

    Orientations budget 2025 : < 400€ → RTX 4060 8 Go (neuf) ou RTX 3080 10 Go (occasion). 400-700€ → RTX 4060 Ti 16 Go ou RTX 3090 24 Go (occasion). 700-1200€ → RTX 4080 Super 16 Go. 1200€+ → RTX 4090 24 Go.

  3. Vérifier la compatibilité de votre PC

    Assurez-vous que votre alimentation peut supporter le nouveau GPU (RTX 4090 : 450W TDP, prévoir 850W+), que le slot PCIe 4.0 x16 est disponible, et que le boîtier accepte la longueur de la carte.

  4. Tester après installation

    Une fois le GPU installé, vérifiez que les drivers NVIDIA sont bien chargés et que Ollama le détecte.

    {step.code}