Quel GPU pour faire tourner des LLMs en local ?
Guide 2025

La VRAM de votre carte graphique détermine quels modèles vous pouvez faire tourner et à quelle qualité. Ce guide compare les 8 meilleurs GPU pour l'inférence LLM locale, de l'entrée de gamme au haut de gamme.

Mis à jour : juin 2025 8 GPU comparés NVIDIA & AMD

Pourquoi la VRAM est la métrique clé pour les LLMs

Contrairement aux jeux vidéo où la VRAM stocke des textures, pour un LLM elle doit contenir l'intégralité des poids du modèle. Si votre GPU n'a pas assez de VRAM pour charger le modèle en entier, celui-ci déborde sur la RAM système via PCIe - ce qui divise les performances par 5 à 20x.

Comment les poids d'un modèle occupent la VRAM

Un modèle LLM est constitué de milliards de paramètres (weights). En précision FP16 (16 bits), chaque paramètre occupe 2 octets. Un modèle 7B pèse donc environ 14 Go en FP16. La quantification permet de réduire cette empreinte en compressant les poids : Q4 (4 bits par paramètre) divise la taille par ~4, Q8 (8 bits) par ~2.

VRAM vs RAM système : la différence de vitesse

La bande passante mémoire d'un GPU haut de gamme atteint 1 000 Go/s, contre 50–80 Go/s pour la RAM DDR5. C'est cette bande passante qui détermine la vitesse de génération de tokens : plus elle est élevée, plus le modèle "lit" ses poids vite, et plus les tokens s'affichent rapidement à l'écran.

Règle d'or : visez toujours à charger le modèle entièrement en VRAM. Un modèle 100% GPU tourne 10 à 20 fois plus vite qu'un modèle en CPU offload partiel.

Quantification : Q4 vs Q8, quel impact ?

La quantification Q4 réduit la précision des poids à 4 bits, ce qui divise la VRAM nécessaire par environ 4 par rapport au FP16, avec une perte de qualité modérée (5–10% sur les benchmarks). Q8 est un bon compromis : moitié moins de VRAM que FP16 pour une qualité quasi identique (<2% de dégradation mesurable).

Tableau : VRAM requise par modèle

Quantité de VRAM GPU nécessaire pour charger entièrement le modèle. Les valeurs incluent une marge de ~1 Go pour le contexte et les activations.

Modèle Paramètres VRAM Q4 (4-bit) VRAM Q8 (8-bit) Recommandation
Llama 3.2 3B 3B 3 Go 4 Go N'importe quel GPU moderne
Mistral 7B 7B 5 Go 9 Go RTX 3060 12 Go (Q4), RTX 4070 (Q8)
Llama 3.1 8B 8B 5 Go 9 Go RTX 3060 12 Go (Q4), RTX 4070 (Q8)
Phi-4 14B 9 Go 15 Go RTX 4070 12 Go (Q4), RTX 4080 Super (Q8)
Llama 3.3 70B 70B 40 Go 70 Go RTX 4090 (Q4 partiel), multi-GPU ou mini-PC 128 Go

* Les valeurs Q4 correspondent à GGUF Q4_K_M, format llama.cpp. VRAM Q8 correspond à Q8_0. Pour les modèles 70B en Q4, même la RTX 4090 (24 Go) doit faire du CPU offload partiel - il faut deux RTX 4090 ou un setup multi-GPU pour une inférence 100% GPU.

Comparatif des 8 meilleurs GPU pour LLM

Classement par score LLM, qui tient compte de la VRAM, de la bande passante mémoire et des performances réelles d'inférence.

GPU VRAM Prix indicatif Score LLM Modèles compatibles (exemples)
NVIDIA GeForce RTX 4090
24 Go ~1800 €
10/10
Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8 +4
NVIDIA GeForce RTX 4080 Super
16 Go ~1000 €
8/10
Llama 3.1 8B Q8Mistral 7B Q8Mixtral 8x7B Q2 +4
NVIDIA GeForce RTX 4070 Ti Super
16 Go ~800 €
8/10
Llama 3.1 8B Q8Mistral 7B Q8Qwen 2.5 14B Q6 +3
NVIDIA GeForce RTX 3090
24 Go ~800 €
8/10
Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8 +4
AMD Radeon RX 7900 XTX
24 Go ~900 €
8/10
Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8 +4
NVIDIA GeForce RTX 4070
12 Go ~600 €
7/10
Llama 3.1 8B Q4Mistral 7B Q8Gemma 2 9B Q4 +3
NVIDIA GeForce RTX 4060 Ti 16GB
16 Go ~500 €
7/10
Llama 3.1 8B Q8Mistral 7B Q8Qwen 2.5 14B Q4 +3
NVIDIA GeForce RTX 3060 12GB
12 Go ~300 €
6/10
Llama 3.1 8B Q4Mistral 7B Q4Gemma 2 9B Q2 +3

Fiches détaillées par GPU

Analyse complète de chaque carte graphique : spécifications, points forts, limitations et verdict pour l'usage LLM.

NVIDIA Haut de gamme

GeForce RTX 4090

10 /10
Score LLM
VRAM 24 Go
Prix ~1800 €
Architecture Ada Lovelace
API CUDA

La RTX 4090 est le GPU ultime pour faire tourner des LLM en local, avec ses 24 Go de VRAM GDDR6X qui permettent de charger des modèles 70B quantifiés sans compromis. Grâce à l'architecture Ada Lovelace et la bande passante mémoire de 1 008 Go/s, c'est la référence absolue pour l'inférence LLM sur GPU NVIDIA.

Points forts

  • 24 Go VRAM - charge presque tous les modèles courants
  • Bande passante mémoire record : 1 008 Go/s
  • Support CUDA mature et ecosystème llama.cpp/Ollama optimisé
  • Meilleure vitesse de génération de tokens du marché grand public

Limitations

  • Prix très élevé (~1 800 €)
  • Consommation électrique importante (450W TDP)

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8Mixtral 8x7B Q4Qwen 2.5 72B Q2DeepSeek 33B Q4Code Llama 34B Q4
NVIDIA Meilleur rapport qualité/prix

GeForce RTX 4080 Super

8 /10
Score LLM
VRAM 16 Go
Prix ~1000 €
Architecture Ada Lovelace
API CUDA

La RTX 4080 Super offre 16 Go de VRAM GDDR6X avec une bande passante de 736 Go/s, ce qui en fait un excellent GPU pour LLM capable de faire tourner des modèles 13B en Q8 et des 70B en quantification aggressive. Un excellent compromis entre la 4090 et les cartes mid-range pour l'inférence locale.

Points forts

  • 16 Go VRAM suffisant pour la majorité des modèles 7B–13B en haute qualité
  • Excellent ratio performances/prix versus la 4090
  • Architecture Ada Lovelace avec Tensor Cores de 4e génération
  • Support complet CUDA, ROCm et des frameworks LLM majeurs

Limitations

  • 16 Go limitant pour les modèles 34B+ sans quantification forte
  • Toujours onéreuse pour le grand public (~1 000 €)

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 8B Q8Mistral 7B Q8Mixtral 8x7B Q2Qwen 2.5 14B Q8DeepSeek Coder 6.7B Q8Code Llama 13B Q8Gemma 2 9B Q8
NVIDIA Meilleur rapport qualité/prix

GeForce RTX 4070 Ti Super

8 /10
Score LLM
VRAM 16 Go
Prix ~800 €
Architecture Ada Lovelace
API CUDA

La RTX 4070 Ti Super propose 16 Go de VRAM à un prix plus accessible que la 4080 Super, avec une bande passante de 672 Go/s idéale pour l'inférence de modèles LLM de taille intermédiaire. C'est l'un des meilleurs GPU pour LLM en local si vous cherchez 16 Go de VRAM sans dépasser 800 €.

Points forts

  • 16 Go VRAM au meilleur prix du segment
  • Bande passante 672 Go/s très solide pour l'inférence
  • TDP raisonnable à 285W
  • Excellente disponibilité et support driver NVIDIA

Limitations

  • Légèrement moins rapide que la 4080 Super pour les grands modèles
  • 16 Go restent insuffisants pour les modèles 70B non quantifiés

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 8B Q8Mistral 7B Q8Qwen 2.5 14B Q6Code Llama 13B Q8Gemma 2 9B Q8Phi-3 Medium Q8
NVIDIA Meilleur rapport qualité/prix

GeForce RTX 3090

8 /10
Score LLM
VRAM 24 Go
Prix ~800 €
Architecture Ampere
API CUDA

La RTX 3090 reconditionnée est une pépite pour faire tourner des LLM en local avec 24 Go de VRAM à moindre coût, offrant la même capacité mémoire que la 4090 pour deux fois moins cher. Idéale pour les utilisateurs cherchant à maximiser la VRAM disponible pour l'inférence LLM sans casser leur budget.

Points forts

  • 24 Go VRAM - même capacité que la RTX 4090
  • Prix reconditionné très attractif (~800 €)
  • Excellent pour faire tourner des modèles 30B+ quantifiés
  • Architecture Ampere toujours compétitive pour l'inférence

Limitations

  • Architecture plus ancienne, moins efficace énergétiquement (350W TDP)
  • Bande passante inférieure à la 4090 (936 Go/s vs 1 008 Go/s)

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8Mixtral 8x7B Q4Code Llama 34B Q4DeepSeek 33B Q4Qwen 2.5 32B Q4
AMD Haut de gamme

Radeon RX 7900 XTX

8 /10
Score LLM
VRAM 24 Go
Prix ~900 €
Architecture RDNA 3
API ROCm / HIP

La RX 7900 XTX d'AMD propose 24 Go de VRAM GDDR6 avec une bande passante de 960 Go/s et le support ROCm pour l'inférence LLM sur GPU AMD. Une alternative sérieuse à la RTX 4090 pour les GPU pour LLM, notamment grâce à son excellent support via llama.cpp et Ollama.

Points forts

  • 24 Go VRAM GDDR6 à prix compétitif vs NVIDIA
  • Bande passante 960 Go/s très performante
  • Support ROCm en progression constante pour LLM
  • Excellent support via llama.cpp avec backend ROCm/HIP

Limitations

  • Écosystème ROCm moins mature que CUDA pour certains frameworks
  • Compatibilité parfois limitée avec certains outils Python ML

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8Mixtral 8x7B Q4DeepSeek 33B Q4Qwen 2.5 32B Q4Code Llama 34B Q4
NVIDIA Meilleur rapport qualité/prix

GeForce RTX 4070

7 /10
Score LLM
VRAM 12 Go
Prix ~600 €
Architecture Ada Lovelace
API CUDA

La RTX 4070 avec 12 Go de VRAM GDDR6X est un excellent GPU pour débuter avec les LLM en local, capable de faire tourner des modèles 7B en qualité maximale et des 13B quantifiés. Son rapport performance/prix en fait l'une des références pour l'inférence LLM dans la catégorie mid-range.

Points forts

  • 12 Go VRAM suffisant pour les modèles 7B en pleine qualité
  • Très bon rapport performances/prix à ~600 €
  • Faible consommation électrique (200W TDP)
  • Compatible avec tous les frameworks LLM populaires (Ollama, LM Studio)

Limitations

  • 12 Go limitant pour les modèles 13B+ en haute qualité
  • Bande passante inférieure aux cartes haut de gamme

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 8B Q4Mistral 7B Q8Gemma 2 9B Q4Phi-3 Medium Q4Code Llama 7B Q8Qwen 2.5 7B Q8
NVIDIA Meilleur rapport qualité/prix

GeForce RTX 4060 Ti 16GB

7 /10
Score LLM
VRAM 16 Go
Prix ~500 €
Architecture Ada Lovelace
API CUDA

La RTX 4060 Ti 16 Go est l'option la plus abordable pour disposer de 16 Go de VRAM sur GPU NVIDIA Ada Lovelace, parfaite pour faire tourner des modèles LLM 13B en qualité élevée. C'est le meilleur choix budget pour accéder aux 16 Go de VRAM indispensables aux modèles LLM intermédiaires.

Points forts

  • 16 Go VRAM au prix le plus bas du marché NVIDIA
  • Faible consommation (165W TDP) - silencieux en inférence
  • Idéale pour un PC de bureau dédié aux LLM
  • Support complet CUDA 8.9

Limitations

  • Bande passante mémoire limitée (288 Go/s) - génération de tokens plus lente
  • Moins performante que les cartes haut de gamme pour les gros modèles

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 8B Q8Mistral 7B Q8Qwen 2.5 14B Q4Code Llama 13B Q4Gemma 2 9B Q8Phi-3 Medium Q8
NVIDIA Entrée de gamme

GeForce RTX 3060 12GB

6 /10
Score LLM
VRAM 12 Go
Prix ~300 €
Architecture Ampere
API CUDA

La RTX 3060 12 Go est le GPU idéal pour débuter avec les LLM en local à petit budget, offrant 12 Go de VRAM pour faire tourner des modèles Mistral 7B et Llama 3.1 8B en bonne qualité. C'est la porte d'entrée recommandée pour l'inférence LLM locale sans se ruiner.

Points forts

  • Meilleure option budget pour débuter avec les LLM en local
  • 12 Go VRAM suffisants pour les modèles 7B en bonne qualité
  • Large disponibilité neuf et reconditionné
  • Faible consommation (170W TDP)

Limitations

  • Architecture Ampere ancienne, moins efficace que Ada
  • Bande passante limitée (360 Go/s) - génération de tokens modeste

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 8B Q4Mistral 7B Q4Gemma 2 9B Q2Phi-3 Mini Q8Code Llama 7B Q4Qwen 2.5 7B Q4

NVIDIA vs AMD : CUDA vs ROCm pour les LLMs

Le choix entre NVIDIA et AMD dépasse le simple rapport performances/prix - l'écosystème logiciel joue un rôle crucial pour l'inférence LLM.

CUDA : l'écosystème de référence

CUDA (Compute Unified Device Architecture) est la plateforme de calcul GPU de NVIDIA, disponible depuis 2007. C'est sur CUDA que reposent la majorité des frameworks d'IA : PyTorch, TensorFlow, llama.cpp, Ollama, LM Studio, vLLM, exllama2...

Avantages CUDA pour les LLM

  • Support universel : 100% des frameworks LLM supportent CUDA nativement
  • Optimisations poussées : FlashAttention, CUDA Graphs, Tensor Cores dédiés à l'inférence
  • Maturité : plus de 15 ans d'optimisations cumulées
  • Quantification rapide : exllama2 et AWQ exclusivement CUDA pour l'instant
  • Driver stable : installation simple sur Windows et Linux
Recommandé pour tous ceux qui veulent la meilleure compatibilité logicielle sans friction.

ROCm : une alternative viable en 2025

ROCm (Radeon Open Compute) est la réponse open-source d'AMD à CUDA. Après des années de retard, ROCm a considérablement progressé avec les RX 7000 et atteint en 2025 un niveau de compatibilité acceptable pour l'inférence LLM.

ROCm et les LLM en pratique

  • llama.cpp : support ROCm/HIP complet, performances proches de CUDA pour l'inférence
  • Ollama : support ROCm depuis la version 0.1.9 sur Linux
  • LM Studio : support ROCm ajouté en 2024, stable sur Linux
  • Windows : plus laborieux - ROCm reste principalement Linux
  • exllama2 / AWQ : pas encore de port ROCm mature
Excellent rapport VRAM/prix, mais réservez-le à des utilisateurs Linux confortables avec la configuration manuelle.

Tableau récapitulatif NVIDIA vs AMD pour les LLM

Critère NVIDIA (CUDA) AMD (ROCm)
Compatibilité frameworks Universelle Partielle (en progrès)
Support Windows Natif Limité
Support Linux Natif Bon (RX 7000)
llama.cpp / Ollama Optimal Fonctionnel
exllama2 / AWQ Oui Non
Rapport VRAM/prix Moyen Excellent
Facilité d'installation Facile Modérée

Multi-GPU : ça vaut le coup pour les LLM ?

Combiner deux GPU permet d'additionner leur VRAM - deux RTX 4090 donnent 48 Go de VRAM effective, suffisant pour faire tourner un Llama 70B en Q4 entièrement sur GPU. Mais ce n'est pas sans compromis.

Comment fonctionne le multi-GPU pour les LLM

La plupart des frameworks LLM (llama.cpp, Ollama, vLLM) supportent le tensor parallelism sur plusieurs GPU : les couches du modèle sont réparties entre les GPU, qui communiquent via PCIe ou NVLink. En pratique, llama.cpp utilise le paramètre --n-gpu-layers et la détection automatique multi-GPU.

Le goulot d'étranglement : la bande passante PCIe

Entre deux GPU sans NVLink (la norme sur les cartes grand public), toute la communication passe par le bus PCIe 4.0 ou 5.0, qui offre ~32 Go/s en x16 - soit 30 fois moins que la bande passante VRAM interne. Selon la structure du modèle et la taille du contexte, cela peut réduire significativement le débit de tokens.

NVLink : réservé aux Quadro / A-series

NVLink offre une bande passante inter-GPU de 600 Go/s sur les cartes professionnelles (A100, H100), mais les RTX grand public 4090 ne supportent pas NVLink depuis la génération Ampere. Pour un vrai multi-GPU haute performance, il faut passer sur du matériel professionnel (A6000 Ada, deux A100 80 Go...) avec un budget 5 à 10 fois plus élevé.

Verdict multi-GPU grand public

Ça vaut le coup si...

  • Vous avez déjà une RTX 4090 et voulez accéder aux modèles 70B
  • Vous faites de l'inférence batch (plusieurs requêtes parallèles)
  • Vous utilisez principalement des modèles 13B–34B quantifiés
  • Vous avez déjà une carte mère avec deux slots PCIe x16

Pas optimal si...

  • Vous voulez la meilleure vitesse de génération sur un seul modèle
  • Votre utilisation est interactive (chat, codage en temps réel)
  • La consommation électrique et la chaleur vous préoccupent
  • Budget disponible : mieux vaut une seule RTX 4090 qu'un multi-GPU mal optimisé

FAQ - Questions fréquentes sur les GPU pour LLM

Quelle VRAM minimum pour faire tourner un LLM correctement ?

Le minimum viable est 8 Go de VRAM pour faire tourner Mistral 7B en Q4 avec un petit contexte. Mais 12 Go vous donnent une marge confortable pour les modèles 7B en Q8 et les 13B en Q4. Pour une expérience agréable au quotidien sur les modèles récents (Llama 3.1 8B, Mistral 7B en qualité maximale), visez 16 Go.

RTX 4090 vs RTX 3090 : laquelle choisir pour les LLM ?

Les deux offrent 24 Go de VRAM, mais la RTX 4090 est environ 30% plus rapide en inférence grâce à sa bande passante supérieure (1 008 Go/s vs 936 Go/s) et à l'architecture Ada Lovelace plus efficace. Si le budget est serré, une RTX 3090 reconditionnée à ~800 € est un excellent choix : même VRAM, performances très correctes. Si vous pouvez dépenser 1 800 €, la 4090 justifie son prix par sa vitesse de génération de tokens nettement supérieure.

Peut-on utiliser un GPU AMD (RX 7900 XTX) pour les LLM sous Windows ?

Techniquement oui, mais avec des limitations. Ollama supporte ROCm sur Windows depuis fin 2024, et llama.cpp compile avec le backend HIP (ROCm). Cependant, le support Windows reste moins stable qu'en Linux, et certains frameworks (exllama2, AWQ) ne fonctionnent pas. Pour une utilisation sans friction, Linux est fortement recommandé avec un GPU AMD. Sous Windows, un GPU NVIDIA reste le choix le plus simple.

La RTX 4060 Ti 16 Go est-elle vraiment compétitive malgré sa bande passante limitée ?

C'est le compromis de la RTX 4060 Ti 16 Go : ses 16 Go de VRAM à 500 € sont attractifs, mais sa bande passante mémoire de seulement 288 Go/s (contre 672 Go/s pour la 4070 Ti Super) se traduit par une génération de tokens environ 2x plus lente sur les mêmes modèles. Pour un usage interactif (chat), le débit reste acceptable - 30–40 tok/s sur Mistral 7B Q4. Pour du batch processing ou des sessions intensives, investissez dans la 4070 Ti Super ou la 4080 Super.

Peut-on faire tourner Llama 3.3 70B sur un seul GPU grand public ?

Pas entièrement sur GPU. Llama 3.3 70B en Q4_K_M pèse environ 40 Go - au-delà des 24 Go maximum d'une RTX 4090. En pratique, avec une RTX 4090, vous pouvez charger ~60–65% des couches sur GPU et laisser le reste en RAM système : les performances chutent à 5–15 tok/s selon la configuration CPU. Pour un 70B 100% GPU, il faut soit deux RTX 4090 (48 Go), soit un Mac Mini M4 Pro 48 Go (via mémoire unifiée), soit un ASUS Ascent GX10 128 Go.

GPU dédié ou Apple Silicon (Mac) : que choisir pour les LLM en local ?

Apple Silicon (M4 Pro, M4 Max) utilise de la mémoire unifiée partagée entre CPU et GPU : le GPU accède à toute la RAM sans copie, ce qui permet de faire tourner des modèles 70B en Q4 avec 48–64 Go de mémoire. La bande passante atteint 273–400 Go/s, compétitive face à une RTX 4070. L'avantage du Mac est l'intégration (compact, silencieux, pas de carte mère dédiée) et le support natif via mlx-lm et Ollama Metal. La limite : pas d'upgrade mémoire possible et un prix premium. Pour un PC sous Windows ou Linux, une RTX 4090 reste plus rapide sur les grands modèles. Les deux options sont excellentes selon votre écosystème préféré.

Pas sûr de quel GPU choisir ?

Scannez votre machine et obtenez une recommandation personnalisée selon votre matériel actuel et vos modèles cibles.

Scanner ma machine gratuitement →