Quel GPU pour faire tourner des LLMs en local ?
Guide 2025

La VRAM de votre carte graphique détermine quels modèles vous pouvez faire tourner et à quelle qualité. Ce guide compare les 8 meilleurs GPU pour l'inférence LLM locale, de l'entrée de gamme au haut de gamme.

Mis à jour : juin 2025 8 GPU comparés NVIDIA & AMD

Pourquoi la VRAM est la métrique clé pour les LLMs

Contrairement aux jeux vidéo où la VRAM stocke des textures, pour un LLM elle doit contenir l'intégralité des poids du modèle. Si votre GPU n'a pas assez de VRAM pour charger le modèle en entier, celui-ci déborde sur la RAM système via PCIe - ce qui divise les performances par 5 à 20x.

Comment les poids d'un modèle occupent la VRAM

Un modèle LLM est constitué de milliards de paramètres (weights). En précision FP16 (16 bits), chaque paramètre occupe 2 octets. Un modèle 7B pèse donc environ 14 Go en FP16. La quantification permet de réduire cette empreinte en compressant les poids : Q4 (4 bits par paramètre) divise la taille par ~4, Q8 (8 bits) par ~2.

VRAM vs RAM système : la différence de vitesse

La bande passante mémoire d'un GPU haut de gamme atteint 1 000 Go/s, contre 50–80 Go/s pour la RAM DDR5. C'est cette bande passante qui détermine la vitesse de génération de tokens : plus elle est élevée, plus le modèle "lit" ses poids vite, et plus les tokens s'affichent rapidement à l'écran.

Règle d'or : visez toujours à charger le modèle entièrement en VRAM. Un modèle 100% GPU tourne 10 à 20 fois plus vite qu'un modèle en CPU offload partiel.

Quantification : Q4 vs Q8, quel impact ?

La quantification Q4 réduit la précision des poids à 4 bits, ce qui divise la VRAM nécessaire par environ 4 par rapport au FP16, avec une perte de qualité modérée (5–10% sur les benchmarks). Q8 est un bon compromis : moitié moins de VRAM que FP16 pour une qualité quasi identique (<2% de dégradation mesurable).

Tableau : VRAM requise par modèle

Quantité de VRAM GPU nécessaire pour charger entièrement le modèle. Les valeurs incluent une marge de ~1 Go pour le contexte et les activations.

Modèle	Paramètres	VRAM Q4 (4-bit)	VRAM Q8 (8-bit)	Recommandation
Llama 3.2 3B	3B	3 Go	4 Go	N'importe quel GPU moderne
Mistral 7B	7B	5 Go	9 Go	RTX 3060 12 Go (Q4), RTX 4070 (Q8)
Llama 3.1 8B	8B	5 Go	9 Go	RTX 3060 12 Go (Q4), RTX 4070 (Q8)
Phi-4	14B	9 Go	15 Go	RTX 4070 12 Go (Q4), RTX 4080 Super (Q8)
Llama 3.3 70B	70B	40 Go	70 Go	RTX 4090 (Q4 partiel), multi-GPU ou mini-PC 128 Go

* Les valeurs Q4 correspondent à GGUF Q4_K_M, format llama.cpp. VRAM Q8 correspond à Q8_0. Pour les modèles 70B en Q4, même la RTX 4090 (24 Go) doit faire du CPU offload partiel - il faut deux RTX 4090 ou un setup multi-GPU pour une inférence 100% GPU.

Comparatif des 8 meilleurs GPU pour LLM

Classement par score LLM, qui tient compte de la VRAM, de la bande passante mémoire et des performances réelles d'inférence.

GPU	VRAM	Prix indicatif	Score LLM	Modèles compatibles (exemples)
NVIDIA GeForce RTX 4090	24 Go	~1800 €	10/10	Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8 +4
NVIDIA GeForce RTX 4080 Super	16 Go	~1000 €	8/10	Llama 3.1 8B Q8Mistral 7B Q8Mixtral 8x7B Q2 +4
NVIDIA GeForce RTX 4070 Ti Super	16 Go	~800 €	8/10	Llama 3.1 8B Q8Mistral 7B Q8Qwen 2.5 14B Q6 +3
NVIDIA GeForce RTX 3090	24 Go	~800 €	8/10	Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8 +4
AMD Radeon RX 7900 XTX	24 Go	~900 €	8/10	Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8 +4
NVIDIA GeForce RTX 4070	12 Go	~600 €	7/10	Llama 3.1 8B Q4Mistral 7B Q8Gemma 2 9B Q4 +3
NVIDIA GeForce RTX 4060 Ti 16GB	16 Go	~500 €	7/10	Llama 3.1 8B Q8Mistral 7B Q8Qwen 2.5 14B Q4 +3
NVIDIA GeForce RTX 3060 12GB	12 Go	~300 €	6/10	Llama 3.1 8B Q4Mistral 7B Q4Gemma 2 9B Q2 +3

Fiches détaillées par GPU

Analyse complète de chaque carte graphique : spécifications, points forts, limitations et verdict pour l'usage LLM.

NVIDIA Haut de gamme

GeForce RTX 4090

10 /10

Score LLM

VRAM 24 Go

Prix ~1800 €

Architecture Ada Lovelace

API CUDA

La RTX 4090 est le GPU ultime pour faire tourner des LLM en local, avec ses 24 Go de VRAM GDDR6X qui permettent de charger des modèles 70B quantifiés sans compromis. Grâce à l'architecture Ada Lovelace et la bande passante mémoire de 1 008 Go/s, c'est la référence absolue pour l'inférence LLM sur GPU NVIDIA.

Points forts

24 Go VRAM - charge presque tous les modèles courants
Bande passante mémoire record : 1 008 Go/s
Support CUDA mature et ecosystème llama.cpp/Ollama optimisé
Meilleure vitesse de génération de tokens du marché grand public

Limitations

Prix très élevé (~1 800 €)
Consommation électrique importante (450W TDP)

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8Mixtral 8x7B Q4Qwen 2.5 72B Q2DeepSeek 33B Q4Code Llama 34B Q4

Voir sur Amazon Lien affilié - sans surcoût pour vous

NVIDIA Meilleur rapport qualité/prix

GeForce RTX 4080 Super

8 /10

Score LLM

VRAM 16 Go

Prix ~1000 €

Architecture Ada Lovelace

API CUDA

La RTX 4080 Super offre 16 Go de VRAM GDDR6X avec une bande passante de 736 Go/s, ce qui en fait un excellent GPU pour LLM capable de faire tourner des modèles 13B en Q8 et des 70B en quantification aggressive. Un excellent compromis entre la 4090 et les cartes mid-range pour l'inférence locale.

Points forts

16 Go VRAM suffisant pour la majorité des modèles 7B–13B en haute qualité
Excellent ratio performances/prix versus la 4090
Architecture Ada Lovelace avec Tensor Cores de 4e génération
Support complet CUDA, ROCm et des frameworks LLM majeurs

Limitations

16 Go limitant pour les modèles 34B+ sans quantification forte
Toujours onéreuse pour le grand public (~1 000 €)

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 8B Q8Mistral 7B Q8Mixtral 8x7B Q2Qwen 2.5 14B Q8DeepSeek Coder 6.7B Q8Code Llama 13B Q8Gemma 2 9B Q8

Voir sur Amazon Lien affilié - sans surcoût pour vous

NVIDIA Meilleur rapport qualité/prix

GeForce RTX 4070 Ti Super

8 /10

Score LLM

VRAM 16 Go

Prix ~800 €

Architecture Ada Lovelace

API CUDA

La RTX 4070 Ti Super propose 16 Go de VRAM à un prix plus accessible que la 4080 Super, avec une bande passante de 672 Go/s idéale pour l'inférence de modèles LLM de taille intermédiaire. C'est l'un des meilleurs GPU pour LLM en local si vous cherchez 16 Go de VRAM sans dépasser 800 €.

Points forts

16 Go VRAM au meilleur prix du segment
Bande passante 672 Go/s très solide pour l'inférence
TDP raisonnable à 285W
Excellente disponibilité et support driver NVIDIA

Limitations

Légèrement moins rapide que la 4080 Super pour les grands modèles
16 Go restent insuffisants pour les modèles 70B non quantifiés

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 8B Q8Mistral 7B Q8Qwen 2.5 14B Q6Code Llama 13B Q8Gemma 2 9B Q8Phi-3 Medium Q8

Voir sur Amazon Lien affilié - sans surcoût pour vous

NVIDIA Meilleur rapport qualité/prix

GeForce RTX 3090

8 /10

Score LLM

VRAM 24 Go

Prix ~800 €

Architecture Ampere

API CUDA

La RTX 3090 reconditionnée est une pépite pour faire tourner des LLM en local avec 24 Go de VRAM à moindre coût, offrant la même capacité mémoire que la 4090 pour deux fois moins cher. Idéale pour les utilisateurs cherchant à maximiser la VRAM disponible pour l'inférence LLM sans casser leur budget.

Points forts

24 Go VRAM - même capacité que la RTX 4090
Prix reconditionné très attractif (~800 €)
Excellent pour faire tourner des modèles 30B+ quantifiés
Architecture Ampere toujours compétitive pour l'inférence

Limitations

Architecture plus ancienne, moins efficace énergétiquement (350W TDP)
Bande passante inférieure à la 4090 (936 Go/s vs 1 008 Go/s)

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8Mixtral 8x7B Q4Code Llama 34B Q4DeepSeek 33B Q4Qwen 2.5 32B Q4

Voir sur Amazon Lien affilié - sans surcoût pour vous

AMD Haut de gamme

Radeon RX 7900 XTX

8 /10

Score LLM

VRAM 24 Go

Prix ~900 €

Architecture RDNA 3

API ROCm / HIP

La RX 7900 XTX d'AMD propose 24 Go de VRAM GDDR6 avec une bande passante de 960 Go/s et le support ROCm pour l'inférence LLM sur GPU AMD. Une alternative sérieuse à la RTX 4090 pour les GPU pour LLM, notamment grâce à son excellent support via llama.cpp et Ollama.

Points forts

24 Go VRAM GDDR6 à prix compétitif vs NVIDIA
Bande passante 960 Go/s très performante
Support ROCm en progression constante pour LLM
Excellent support via llama.cpp avec backend ROCm/HIP

Limitations

Écosystème ROCm moins mature que CUDA pour certains frameworks
Compatibilité parfois limitée avec certains outils Python ML

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 70B Q2Llama 3.1 8B Q8Mistral 7B Q8Mixtral 8x7B Q4DeepSeek 33B Q4Qwen 2.5 32B Q4Code Llama 34B Q4

Voir sur Amazon Lien affilié - sans surcoût pour vous

NVIDIA Meilleur rapport qualité/prix

GeForce RTX 4070

7 /10

Score LLM

VRAM 12 Go

Prix ~600 €

Architecture Ada Lovelace

API CUDA

La RTX 4070 avec 12 Go de VRAM GDDR6X est un excellent GPU pour débuter avec les LLM en local, capable de faire tourner des modèles 7B en qualité maximale et des 13B quantifiés. Son rapport performance/prix en fait l'une des références pour l'inférence LLM dans la catégorie mid-range.

Points forts

12 Go VRAM suffisant pour les modèles 7B en pleine qualité
Très bon rapport performances/prix à ~600 €
Faible consommation électrique (200W TDP)
Compatible avec tous les frameworks LLM populaires (Ollama, LM Studio)

Limitations

12 Go limitant pour les modèles 13B+ en haute qualité
Bande passante inférieure aux cartes haut de gamme

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 8B Q4Mistral 7B Q8Gemma 2 9B Q4Phi-3 Medium Q4Code Llama 7B Q8Qwen 2.5 7B Q8

Voir sur Amazon Lien affilié - sans surcoût pour vous

NVIDIA Meilleur rapport qualité/prix

GeForce RTX 4060 Ti 16GB

7 /10

Score LLM

VRAM 16 Go

Prix ~500 €

Architecture Ada Lovelace

API CUDA

La RTX 4060 Ti 16 Go est l'option la plus abordable pour disposer de 16 Go de VRAM sur GPU NVIDIA Ada Lovelace, parfaite pour faire tourner des modèles LLM 13B en qualité élevée. C'est le meilleur choix budget pour accéder aux 16 Go de VRAM indispensables aux modèles LLM intermédiaires.

Points forts

16 Go VRAM au prix le plus bas du marché NVIDIA
Faible consommation (165W TDP) - silencieux en inférence
Idéale pour un PC de bureau dédié aux LLM
Support complet CUDA 8.9

Limitations

Bande passante mémoire limitée (288 Go/s) - génération de tokens plus lente
Moins performante que les cartes haut de gamme pour les gros modèles

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 8B Q8Mistral 7B Q8Qwen 2.5 14B Q4Code Llama 13B Q4Gemma 2 9B Q8Phi-3 Medium Q8

Voir sur Amazon Lien affilié - sans surcoût pour vous

NVIDIA Entrée de gamme

GeForce RTX 3060 12GB

6 /10

Score LLM

VRAM 12 Go

Prix ~300 €

Architecture Ampere

API CUDA

La RTX 3060 12 Go est le GPU idéal pour débuter avec les LLM en local à petit budget, offrant 12 Go de VRAM pour faire tourner des modèles Mistral 7B et Llama 3.1 8B en bonne qualité. C'est la porte d'entrée recommandée pour l'inférence LLM locale sans se ruiner.

Points forts

Meilleure option budget pour débuter avec les LLM en local
12 Go VRAM suffisants pour les modèles 7B en bonne qualité
Large disponibilité neuf et reconditionné
Faible consommation (170W TDP)

Limitations

Architecture Ampere ancienne, moins efficace que Ada
Bande passante limitée (360 Go/s) - génération de tokens modeste

Modèles LLM compatibles (GPU uniquement)

Llama 3.1 8B Q4Mistral 7B Q4Gemma 2 9B Q2Phi-3 Mini Q8Code Llama 7B Q4Qwen 2.5 7B Q4

Voir sur Amazon Lien affilié - sans surcoût pour vous

NVIDIA vs AMD : CUDA vs ROCm pour les LLMs

Le choix entre NVIDIA et AMD dépasse le simple rapport performances/prix - l'écosystème logiciel joue un rôle crucial pour l'inférence LLM.

NVIDIA

CUDA : l'écosystème de référence

CUDA (Compute Unified Device Architecture) est la plateforme de calcul GPU de NVIDIA, disponible depuis 2007. C'est sur CUDA que reposent la majorité des frameworks d'IA : PyTorch, TensorFlow, llama.cpp, Ollama, LM Studio, vLLM, exllama2...

Avantages CUDA pour les LLM

Support universel : 100% des frameworks LLM supportent CUDA nativement
Optimisations poussées : FlashAttention, CUDA Graphs, Tensor Cores dédiés à l'inférence
Maturité : plus de 15 ans d'optimisations cumulées
Quantification rapide : exllama2 et AWQ exclusivement CUDA pour l'instant
Driver stable : installation simple sur Windows et Linux

Recommandé pour tous ceux qui veulent la meilleure compatibilité logicielle sans friction.

AMD

ROCm : une alternative viable en 2025

ROCm (Radeon Open Compute) est la réponse open-source d'AMD à CUDA. Après des années de retard, ROCm a considérablement progressé avec les RX 7000 et atteint en 2025 un niveau de compatibilité acceptable pour l'inférence LLM.

ROCm et les LLM en pratique

llama.cpp : support ROCm/HIP complet, performances proches de CUDA pour l'inférence
Ollama : support ROCm depuis la version 0.1.9 sur Linux
LM Studio : support ROCm ajouté en 2024, stable sur Linux
Windows : plus laborieux - ROCm reste principalement Linux
exllama2 / AWQ : pas encore de port ROCm mature

Excellent rapport VRAM/prix, mais réservez-le à des utilisateurs Linux confortables avec la configuration manuelle.

Tableau récapitulatif NVIDIA vs AMD pour les LLM

Critère	NVIDIA (CUDA)	AMD (ROCm)
Compatibilité frameworks	Universelle	Partielle (en progrès)
Support Windows	Natif	Limité
Support Linux	Natif	Bon (RX 7000)
llama.cpp / Ollama	Optimal	Fonctionnel
exllama2 / AWQ	Oui	Non
Rapport VRAM/prix	Moyen	Excellent
Facilité d'installation	Facile	Modérée

Multi-GPU : ça vaut le coup pour les LLM ?

Combiner deux GPU permet d'additionner leur VRAM - deux RTX 4090 donnent 48 Go de VRAM effective, suffisant pour faire tourner un Llama 70B en Q4 entièrement sur GPU. Mais ce n'est pas sans compromis.

Comment fonctionne le multi-GPU pour les LLM

La plupart des frameworks LLM (llama.cpp, Ollama, vLLM) supportent le tensor parallelism sur plusieurs GPU : les couches du modèle sont réparties entre les GPU, qui communiquent via PCIe ou NVLink. En pratique, llama.cpp utilise le paramètre --n-gpu-layers et la détection automatique multi-GPU.

Le goulot d'étranglement : la bande passante PCIe

Entre deux GPU sans NVLink (la norme sur les cartes grand public), toute la communication passe par le bus PCIe 4.0 ou 5.0, qui offre ~32 Go/s en x16 - soit 30 fois moins que la bande passante VRAM interne. Selon la structure du modèle et la taille du contexte, cela peut réduire significativement le débit de tokens.

NVLink : réservé aux Quadro / A-series

NVLink offre une bande passante inter-GPU de 600 Go/s sur les cartes professionnelles (A100, H100), mais les RTX grand public 4090 ne supportent pas NVLink depuis la génération Ampere. Pour un vrai multi-GPU haute performance, il faut passer sur du matériel professionnel (A6000 Ada, deux A100 80 Go...) avec un budget 5 à 10 fois plus élevé.

Verdict multi-GPU grand public

Ça vaut le coup si...

Vous avez déjà une RTX 4090 et voulez accéder aux modèles 70B
Vous faites de l'inférence batch (plusieurs requêtes parallèles)
Vous utilisez principalement des modèles 13B–34B quantifiés
Vous avez déjà une carte mère avec deux slots PCIe x16

Pas optimal si...

Vous voulez la meilleure vitesse de génération sur un seul modèle
Votre utilisation est interactive (chat, codage en temps réel)
La consommation électrique et la chaleur vous préoccupent
Budget disponible : mieux vaut une seule RTX 4090 qu'un multi-GPU mal optimisé

FAQ - Questions fréquentes sur les GPU pour LLM

Quelle VRAM minimum pour faire tourner un LLM correctement ?

Le minimum viable est 8 Go de VRAM pour faire tourner Mistral 7B en Q4 avec un petit contexte. Mais 12 Go vous donnent une marge confortable pour les modèles 7B en Q8 et les 13B en Q4. Pour une expérience agréable au quotidien sur les modèles récents (Llama 3.1 8B, Mistral 7B en qualité maximale), visez 16 Go.

RTX 4090 vs RTX 3090 : laquelle choisir pour les LLM ?

Les deux offrent 24 Go de VRAM, mais la RTX 4090 est environ 30% plus rapide en inférence grâce à sa bande passante supérieure (1 008 Go/s vs 936 Go/s) et à l'architecture Ada Lovelace plus efficace. Si le budget est serré, une RTX 3090 reconditionnée à ~800 € est un excellent choix : même VRAM, performances très correctes. Si vous pouvez dépenser 1 800 €, la 4090 justifie son prix par sa vitesse de génération de tokens nettement supérieure.

Peut-on utiliser un GPU AMD (RX 7900 XTX) pour les LLM sous Windows ?

Techniquement oui, mais avec des limitations. Ollama supporte ROCm sur Windows depuis fin 2024, et llama.cpp compile avec le backend HIP (ROCm). Cependant, le support Windows reste moins stable qu'en Linux, et certains frameworks (exllama2, AWQ) ne fonctionnent pas. Pour une utilisation sans friction, Linux est fortement recommandé avec un GPU AMD. Sous Windows, un GPU NVIDIA reste le choix le plus simple.

La RTX 4060 Ti 16 Go est-elle vraiment compétitive malgré sa bande passante limitée ?

C'est le compromis de la RTX 4060 Ti 16 Go : ses 16 Go de VRAM à 500 € sont attractifs, mais sa bande passante mémoire de seulement 288 Go/s (contre 672 Go/s pour la 4070 Ti Super) se traduit par une génération de tokens environ 2x plus lente sur les mêmes modèles. Pour un usage interactif (chat), le débit reste acceptable - 30–40 tok/s sur Mistral 7B Q4. Pour du batch processing ou des sessions intensives, investissez dans la 4070 Ti Super ou la 4080 Super.

Peut-on faire tourner Llama 3.3 70B sur un seul GPU grand public ?

Pas entièrement sur GPU. Llama 3.3 70B en Q4_K_M pèse environ 40 Go - au-delà des 24 Go maximum d'une RTX 4090. En pratique, avec une RTX 4090, vous pouvez charger ~60–65% des couches sur GPU et laisser le reste en RAM système : les performances chutent à 5–15 tok/s selon la configuration CPU. Pour un 70B 100% GPU, il faut soit deux RTX 4090 (48 Go), soit un Mac Mini M4 Pro 48 Go (via mémoire unifiée), soit un ASUS Ascent GX10 128 Go.

GPU dédié ou Apple Silicon (Mac) : que choisir pour les LLM en local ?

Apple Silicon (M4 Pro, M4 Max) utilise de la mémoire unifiée partagée entre CPU et GPU : le GPU accède à toute la RAM sans copie, ce qui permet de faire tourner des modèles 70B en Q4 avec 48–64 Go de mémoire. La bande passante atteint 273–400 Go/s, compétitive face à une RTX 4070. L'avantage du Mac est l'intégration (compact, silencieux, pas de carte mère dédiée) et le support natif via mlx-lm et Ollama Metal. La limite : pas d'upgrade mémoire possible et un prix premium. Pour un PC sous Windows ou Linux, une RTX 4090 reste plus rapide sur les grands modèles. Les deux options sont excellentes selon votre écosystème préféré.

Pas sûr de quel GPU choisir ?

Scannez votre machine et obtenez une recommandation personnalisée selon votre matériel actuel et vos modèles cibles.

Scanner ma machine gratuitement →

Quel GPU pour faire tourner des LLMs en local ?Guide 2025

Pourquoi la VRAM est la métrique clé pour les LLMs

Comment les poids d'un modèle occupent la VRAM

VRAM vs RAM système : la différence de vitesse

Quantification : Q4 vs Q8, quel impact ?

En résumé

Vitesse de génération typique

Tableau : VRAM requise par modèle

Comparatif des 8 meilleurs GPU pour LLM

Fiches détaillées par GPU

GeForce RTX 4090

Points forts

Limitations

Modèles LLM compatibles (GPU uniquement)

GeForce RTX 4080 Super

Points forts

Limitations

Modèles LLM compatibles (GPU uniquement)

GeForce RTX 4070 Ti Super

Points forts

Limitations

Modèles LLM compatibles (GPU uniquement)

GeForce RTX 3090

Points forts

Limitations

Modèles LLM compatibles (GPU uniquement)

Radeon RX 7900 XTX

Points forts

Limitations

Modèles LLM compatibles (GPU uniquement)

GeForce RTX 4070

Points forts

Limitations

Modèles LLM compatibles (GPU uniquement)

GeForce RTX 4060 Ti 16GB

Points forts

Limitations

Modèles LLM compatibles (GPU uniquement)

GeForce RTX 3060 12GB

Points forts

Limitations

Modèles LLM compatibles (GPU uniquement)

NVIDIA vs AMD : CUDA vs ROCm pour les LLMs

CUDA : l'écosystème de référence

Avantages CUDA pour les LLM

ROCm : une alternative viable en 2025

ROCm et les LLM en pratique

Tableau récapitulatif NVIDIA vs AMD pour les LLM

Multi-GPU : ça vaut le coup pour les LLM ?

Comment fonctionne le multi-GPU pour les LLM

Le goulot d'étranglement : la bande passante PCIe

NVLink : réservé aux Quadro / A-series

Verdict multi-GPU grand public

Ça vaut le coup si...

Pas optimal si...

Configurations multi-GPU courantes

Attention à la carte mère

FAQ - Questions fréquentes sur les GPU pour LLM

Pas sûr de quel GPU choisir ?

Quel GPU pour faire tourner des LLMs en local ?
Guide 2025