Qu'est-ce que la quantisation ?
La quantisation est une technique qui réduit la précision numérique des poids d'un réseau de neurones pour diminuer sa taille mémoire et accélérer l'inférence. Un modèle en fp16 (16 bits par poids) peut être compressé en Q4 (environ 4 bits par poids), divisant ainsi sa taille par 4. Cette compression introduit une légère perte de qualité, mais pour la plupart des usages pratiques, les modèles Q4 et Q5 offrent des résultats très proches des modèles non quantisés. Le format GGUF, utilisé par llama.cpp, Ollama et LM Studio, est le standard principal pour les modèles quantisés locaux.
La nomenclature GGUF expliquée
Le nom d'un fichier GGUF indique sa méthode de quantisation : Q suivi d'un chiffre représente le nombre de bits, K indique une méthode de quantisation améliorée par k-means, et la lettre finale (S, M, L) indique la taille relative au sein d'une même famille. Ainsi, Q4_K_M signifie 4 bits, méthode K-means, taille Medium. Q8_0 représente 8 bits avec la méthode de base, tandis que Q5_K_S est 5 bits K-means Small. Les variantes _K_ sont généralement supérieures aux variantes sans K pour une même taille de bit.
Comparaison des principales quantisations
Q2_K est la plus agressive (fichier très petit, qualité sensiblement réduite) et n'est recommandée que pour les machines avec très peu de RAM. Q4_K_M est la quantisation de référence : excellent compromis taille/qualité, recommandée pour la grande majorité des usages. Q5_K_M offre une meilleure fidélité au modèle original pour une taille modérément plus grande. Q8_0 donne une qualité presque identique au modèle fp16 mais double la taille par rapport à Q4. IQ quantisations (IQ1, IQ2, IQ3) sont des variantes encore plus compressées utilisant des techniques de quantisation par importance.
Quel format selon votre RAM/VRAM ?
Pour les GPU avec 4 Go de VRAM, Q4_K_M d'un modèle 7B (environ 4,1 Go) est souvent le maximum utilisable entièrement en GPU. Avec 8 Go de VRAM, vous pouvez faire tourner Q5_K_M ou Q8_0 d'un modèle 7B, ou Q4_K_M d'un 13B. Avec 16 Go de VRAM (RTX 4080/4090, M2 Max), les modèles 13B en Q8_0 ou 30B en Q4_K_M deviennent accessibles. Sur CPU uniquement, la RAM système est votre seule limite, mais les performances seront significativement réduites.
Recommandations pratiques
Pour une utilisation quotidienne de génération de texte, Q4_K_M représente la meilleure valeur : fichier compact, chargement rapide, qualité suffisante. Pour du code ou des tâches de raisonnement exigeantes, montez en Q5_K_M ou Q8_0 si votre VRAM le permet. Évitez Q2_K et Q3_K_S sauf contrainte matérielle absolue, car la dégradation de qualité devient perceptible. Pour comparer objectivement, des benchmarks comme MMLU ou HellaSwag montrent que la différence entre Q4 et Q8 est généralement inférieure à 2-3%.
Étapes pratiques
-
Évaluer votre RAM/VRAM disponible
Avant de choisir, mesurez votre VRAM GPU et votre RAM système disponible. La règle de base : taille_modèle × 1.1 ≈ RAM nécessaire.
{step.code} -
Calculer la taille selon la quantisation
Estimez la taille du modèle selon le nombre de paramètres et la quantisation. Pour un modèle 7B : Q4_K_M ≈ 4,1 Go ; Q5_K_M ≈ 4,8 Go ; Q8_0 ≈ 7,7 Go.
-
Choisir la quantisation recommandée
Utilisez ce tableau de référence : 4 Go VRAM → Q4_K_S (7B) ; 8 Go VRAM → Q4_K_M (13B) ou Q8_0 (7B) ; 16 Go VRAM → Q5_K_M (30B) ou Q8_0 (13B).
-
Télécharger et tester le modèle
Téléchargez le modèle choisi et mesurez les performances (tokens/seconde) pour vérifier que l'inférence est fluide.
{step.code} -
Comparer la qualité
Si la qualité vous semble insuffisante, essayez la quantisation supérieure (ex: passer de Q4_K_M à Q5_K_M) et comparez sur vos cas d'usage concrets.