WebGPU
API web standard donnant accès à l'accélération GPU depuis le navigateur, permettant l'inférence LLM côté client.
Définition complète
WebGPU est la nouvelle API de programmation GPU pour le web, standardisée par le W3C et disponible dans les navigateurs modernes (Chrome 113+, Firefox, Safari). Contrairement à WebGL (conçu pour le rendu 3D), WebGPU expose un accès bas niveau aux shaders de calcul (compute shaders), permettant d'exécuter des workloads d'IA directement dans le navigateur. Des frameworks comme WebLLM (MLC-LLM), Transformers.js (Hugging Face) et llama.cpp compilé en WebAssembly utilisent WebGPU pour inférer des LLM entièrement côté client, sans serveur. Les cas d'usage incluent des chatbots privés (données ne quittant jamais le navigateur), des applications offline-first et des extensions de navigateur IA. Les limitations actuelles sont la taille maximale des modèles (limitée par la VRAM du GPU intégré) et la vitesse inférieure à un backend natif.