Avancé Architecture M

MoE (Mixture of Experts)

Architecture où seul un sous-ensemble de paramètres est activé pour chaque token, rendant les grands modèles plus efficaces.

Définition complète

L'architecture Mixture of Experts divise le réseau de neurones en plusieurs « experts » spécialisés (généralement des FFN - Feed-Forward Networks) et un mécanisme de routage qui sélectionne dynamiquement les experts les plus pertinents pour chaque token. Seuls 1 à 4 experts sur des dizaines sont activés pour chaque token, ce qui réduit le coût computationnel par rapport à un modèle dense de même taille totale. Mixtral 8x7B (Mistral) utilise 8 experts de 7B avec 2 actifs à la fois : il a 47B de paramètres totaux mais n'en utilise que ~13B par token. DeepSeek-V2, GPT-4 (présumé) et Gemini utilisent aussi une architecture MoE. L'inconvénient est que les modèles MoE nécessitent plus de VRAM totale pour charger tous les experts, même si le calcul par token est réduit.

Définition complète

Termes associés