Intermédiaire Hardware U

Unified Memory (Mémoire Unifiée Apple Silicon)

Architecture mémoire des puces Apple M où CPU et GPU partagent le même pool de RAM, idéale pour les LLM locaux.

Définition complète

Sur les puces Apple Silicon (M1, M2, M3, M4), la mémoire unifiée (Unified Memory Architecture, UMA) est un pool de RAM haute bande passante partagé entre le CPU et le GPU (et le NPU). Contrairement aux GPU NVIDIA qui ont une VRAM séparée du CPU, le GPU Apple accède directement à la RAM système sans transferts coûteux. Cela signifie qu'un MacBook Pro M4 Max avec 128 Go de RAM peut faire tourner des LLM de 70B en GGUF qui nécessiteraient normalement plusieurs GPU coûteux. Les performances sont remarquables : llama.cpp avec accélération Metal atteint 30-60 tokens/s sur un modèle 7B, et les modèles plus grands (30B, 70B) tournent à 5-15 tokens/s selon le niveau de quantisation. La bande passante mémoire (300-400 GB/s sur M2 Ultra) est le facteur limitant pour l'inférence LLM.

Définition complète

Termes associés