Intermédiaire Inférence L

llama.cpp

Bibliothèque C++ permettant d'exécuter des LLM localement sur CPU et GPU avec une empreinte mémoire minimale.

Définition complète

llama.cpp est un projet open-source de Georgi Gerganov permettant d'inférer des LLM (initialement LLaMA de Meta, maintenant des dizaines d'architectures) avec une implémentation C++ bas niveau sans dépendances lourdes. Il supporte CPU (x86, ARM), GPU NVIDIA (via CUDA), AMD (ROCm), Apple Silicon (Metal) et même des accélérations mixtes CPU+GPU. La quantisation GGUF est son format natif. C'est le moteur sous-jacent de nombreux outils populaires : Ollama, LM Studio, jan.ai, GPT4All. Il expose un serveur HTTP compatible API OpenAI permettant de l'intégrer à n'importe quel client LLM. Ses performances sur Apple Silicon sont particulièrement remarquables grâce à l'accélération Metal et la mémoire unifiée.

Définition complète

Termes associés