MoE (Mixture of Experts)
Architecture où seul un sous-ensemble de paramètres est activé pour chaque token, rendant les grands modèles plus efficaces.
Définition complète
L'architecture Mixture of Experts divise le réseau de neurones en plusieurs « experts » spécialisés (généralement des FFN - Feed-Forward Networks) et un mécanisme de routage qui sélectionne dynamiquement les experts les plus pertinents pour chaque token. Seuls 1 à 4 experts sur des dizaines sont activés pour chaque token, ce qui réduit le coût computationnel par rapport à un modèle dense de même taille totale. Mixtral 8x7B (Mistral) utilise 8 experts de 7B avec 2 actifs à la fois : il a 47B de paramètres totaux mais n'en utilise que ~13B par token. DeepSeek-V2, GPT-4 (présumé) et Gemini utilisent aussi une architecture MoE. L'inconvénient est que les modèles MoE nécessitent plus de VRAM totale pour charger tous les experts, même si le calcul par token est réduit.