Avancé Architecture T

Transformers

Architecture de réseau de neurones basée sur l'attention, fondement de tous les LLM modernes depuis 2017.

Définition complète

L'architecture Transformer, introduite dans « Attention is All You Need » (Vaswani et al., 2017), est le fondement de pratiquement tous les LLM modernes. Elle repose sur le mécanisme d'attention multi-têtes qui permet à chaque token de pondérer son importance par rapport à tous les autres, suivi de couches Feed-Forward Network. L'encodeur traite l'entrée, le décodeur génère la sortie (architecture originale encodeur-décodeur). Les LLM modernes sont presque tous des « decoder-only transformers » (GPT, LLaMA, Mistral) qui n'ont qu'un décodeur. Par rapport aux RNN précédents, les Transformers sont entièrement parallélisables et traitent mieux les longues dépendances. Le mot « Transformers » désigne aussi la bibliothèque Python de Hugging Face qui implémente des centaines de modèles dans une API unifiée.