Avancé Entraînement K

Knowledge Distillation

Voir Distillation - transfert de connaissances d'un grand modèle vers un modèle plus petit.

Définition complète

La Knowledge Distillation (distillation de connaissances) est le terme anglais pour ce qu'on appelle en français la distillation de modèle. Ce processus consiste à entraîner un modèle compact (student) à reproduire les probabilités de sortie d'un modèle plus grand (teacher), capturant ainsi des nuances que l'apprentissage supervisé classique sur labels durs ne pourrait pas transmettre. Dans le contexte des LLM, la distillation peut être « blanche » (accès aux logits du teacher) ou « noire » (uniquement les réponses générées). Les séquences de raisonnement (chain-of-thought) générées par un grand modèle constituent un signal de distillation particulièrement riche. Des modèles comme Phi-2, Phi-3 (Microsoft) sont des exemples notables de petits modèles très performants grâce à une distillation soignée sur des données de haute qualité.