Groq
Entreprise fabriquant des puces LPU spécialisées permettant une inférence LLM extrêmement rapide (des centaines de tokens/s).
Définition complète
Groq (sans 'e', à ne pas confondre avec Grok d'xAI) est une startup américaine qui a développé le LPU (Language Processing Unit), une puce dédiée à l'inférence de LLM optimisée pour la latence. Contrairement aux GPU qui traitent de nombreuses requêtes en parallèle, le LPU est conçu pour minimiser le temps de génération d'une seule séquence. L'API Groq peut générer plus de 800 tokens par seconde sur des modèles comme Llama 3, contre 40-60 tokens/s sur les GPU classiques. Cette vitesse transforme l'expérience utilisateur en rendant les réponses quasi-instantanées. Groq est disponible via une API cloud (GroqCloud) et est souvent utilisé comme backend pour des applications nécessitant une faible latence. Les modèles disponibles incluent Llama 3, Mixtral et Gemma.