Débutant Hardware V

VRAM

Mémoire vidéo dédiée d'un GPU, facteur limitant pour la taille des LLM qu'on peut charger et inférer.

Définition complète

La VRAM (Video Random Access Memory) est la mémoire embarquée sur la carte graphique, distincte de la RAM système. Pour les LLM, elle doit contenir les poids du modèle, le KV cache de la génération en cours et les activations intermédiaires. La règle empirique : en FP16, il faut ~2 Go de VRAM par milliard de paramètres ; en Q4, ~0.5 Go/B. Un GPU RTX 4090 (24 Go) peut charger un modèle 7B en FP16 avec de la marge ou un 34B en Q4. Un A100 (80 Go) ou H100 (80 Go) est nécessaire pour les modèles 70B en FP16. Quand le modèle ne tient pas en VRAM, llama.cpp peut utiliser un « GPU offloading » hybride : les couches sont réparties entre GPU et CPU/RAM, dégradant les performances. La VRAM est souvent le goulot d'étranglement n°1 pour le déploiement local de LLM.