Nœud (Node)
Dans les clusters d'entraînement IA, serveur physique équipé de plusieurs GPU interconnectés par NVLink ou InfiniBand.
Définition complète
Dans le contexte de l'entraînement des LLM à grande échelle, un nœud désigne un serveur physique équipé de 4 à 8 GPU haute performance (H100, A100) reliés entre eux par NVLink (interconnexion ultra-rapide de NVIDIA). L'entraînement de grands modèles nécessite des centaines de nœuds connectés en clusters via des réseaux InfiniBand à très haute bande passante. Le parallélisme entre nœuds peut être de type données (data parallelism), modèle (model parallelism) ou pipeline (pipeline parallelism). La coordination entre nœuds utilise des bibliothèques comme NCCL (NVIDIA) ou DeepSpeed (Microsoft). Le coût d'un cluster d'entraînement (des millions d'euros) explique la concentration de la recherche sur les LLM dans quelques grandes entreprises.