Intermédiaire Format Q

Quantisation (Q4_K_M, Q5_K_M, Q8_0)

Technique de compression réduisant la précision des poids d'un LLM (ex : de 16 bits à 4 bits) pour économiser mémoire et calcul.

Définition complète

La quantisation consiste à représenter les poids flottants d'un LLM (FP32 ou FP16) avec moins de bits, réduisant l'empreinte mémoire et accélérant l'inférence au prix d'une légère perte de précision. Les formats GGUF utilisent une nomenclature standardisée : Q4_K_M (4 bits, taille M avec mixture de quantisation k), Q5_K_M (5 bits), Q8_0 (8 bits, peu de perte). Le suffixe K_M indique une quantisation adaptative par groupe qui minimise la perte. Q8_0 est quasi-identique à FP16 en qualité mais deux fois plus compact ; Q4_K_M offre le meilleur compromis taille/qualité pour la plupart des usages. La règle approximative : Q4 divise par 4 la taille du modèle par rapport à FP16. Des formats plus agressifs (IQ2, IQ3) permettent d'aller encore plus loin en taille pour les machines à ressources limitées.

Définition complète

Termes associés