Avancé Entraînement D

Distillation (Knowledge Distillation)

Technique d'entraînement où un petit modèle apprend à imiter les sorties d'un grand modèle pour être plus léger.

Définition complète

La distillation de connaissances est une méthode où un modèle « élève » (student) est entraîné à reproduire le comportement d'un modèle « enseignant » (teacher) plus grand, en utilisant les probabilités de sortie softmax du teacher plutôt que des labels durs. Le modèle student ainsi obtenu est beaucoup plus compact tout en conservant une grande partie des capacités du teacher. Cette technique est à la base de modèles comme DistilBERT (50 % plus petit que BERT pour 97 % de ses performances). Pour les LLM, la distillation peut se faire sur les logits ou via la génération de données synthétiques : le teacher génère des exemples que le student apprend à imiter. DeepSeek-R1 a notamment produit des versions distillées sur Llama et Qwen.