Avancé Architecture A

Attention (Mécanisme d'attention)

Mécanisme central des Transformers permettant au modèle de pondérer l'importance de chaque token par rapport aux autres.

Définition complète

Le mécanisme d'attention, introduit dans l'article « Attention is All You Need » (2017), permet à un modèle de calculer pour chaque token sa relation pondérée avec tous les autres tokens de la séquence. L'attention multi-têtes (multi-head attention) exécute plusieurs opérations d'attention en parallèle, capturant différents types de relations syntaxiques et sémantiques. L'attention est la principale raison pour laquelle les Transformers surpassent les architectures RNN sur les longues séquences. Le coût computationnel de l'attention est quadratique par rapport à la longueur de la séquence, ce qui explique les recherches sur l'attention linéarisée (FlashAttention, Mamba). La matrice d'attention peut être visualisée pour interpréter ce sur quoi le modèle « se concentre ».