LoRA (Low-Rank Adaptation)
Technique de fine-tuning efficace qui n'entraîne que quelques matrices de bas rang au lieu de tous les poids du modèle.
Définition complète
LoRA (Low-Rank Adaptation) est une méthode PEFT (Parameter-Efficient Fine-Tuning) qui congèle les poids originaux du modèle et injecte des matrices de décomposition de bas rang (A et B, où A×B approxime la mise à jour du poids). Au lieu de modifier des milliards de paramètres, LoRA n'entraîne que quelques millions de paramètres supplémentaires, réduisant drastiquement la mémoire GPU et le temps d'entraînement. Le rang r (typiquement 4 à 128) contrôle le compromis entre expressivité et efficacité. Les adaptateurs LoRA sont de petits fichiers (quelques centaines de Mo) qui se greffent sur le modèle de base, permettant plusieurs spécialisations avec un seul modèle de base. QLoRA combine LoRA avec la quantisation du modèle de base pour rendre le fine-tuning accessible sur des GPU grand public.