Intermédiaire Entraînement Q

QLoRA

Technique combinant la quantisation 4-bit d'un LLM de base avec LoRA pour permettre le fine-tuning sur GPU grand public.

Définition complète

QLoRA (Quantized Low-Rank Adaptation) est une méthode introduite par Tim Dettmers et al. en 2023 qui rend possible le fine-tuning de LLM de 65 milliards de paramètres sur un seul GPU de 48 Go (ou un 7B sur un GPU de 16 Go). Elle combine trois innovations : la quantisation NF4 (Normal Float 4-bit) du modèle de base, les adaptateurs LoRA pour les couches entraînables, et le « double quantization » pour réduire davantage l'empreinte. QLoRA utilise aussi le « paged optimizers » de NVIDIA pour gérer les pics mémoire. La qualité du fine-tuning QLoRA est proche de celle du full fine-tuning FP16 sur la plupart des tâches. C'est la méthode de référence pour le fine-tuning personnel ou en entreprise sans infrastructure cloud coûteuse.