Avancé Format I

IQ2/IQ3 (Quantisation)

Niveaux de quantisation extrêmement bas (2-3 bits) utilisant des tables de correspondance pour minimiser la perte de qualité.

Définition complète

Les quantisations IQ2 et IQ3 (Importance Quantization) sont des méthodes de compression avancées développées pour llama.cpp permettant de réduire les poids à seulement 2 ou 3 bits par paramètre. Contrairement aux quantisations Q4 ou Q8 simples, elles utilisent des tables de correspondance (codebooks) et tiennent compte de l'importance relative de chaque couche du modèle pour minimiser la dégradation des performances. Un modèle en IQ2_XS est environ 4x plus petit qu'en Q8_0, permettant de faire tourner des modèles très grands (70B, 405B) sur du matériel grand public avec peu de RAM. La dégradation de qualité existe mais est surprenamment faible grâce aux techniques d'importance weighting. Ces formats sont disponibles en GGUF sur Hugging Face.

Définition complète

Termes associés