Installer un LLM en local
Guide complet
Faites tourner une IA puissante directement sur votre machine - sans abonnement, sans connexion internet, sans envoyer vos données à un tiers. Ce guide couvre tout, des prérequis matériels au choix du bon outil.
Pourquoi faire tourner un LLM en local ?
Confidentialité totale
Vos données ne quittent jamais votre machine. Idéal pour les documents sensibles, le code propriétaire ou simplement pour ne rien envoyer à des serveurs tiers.
Zéro coût marginal
Une fois le modèle téléchargé, chaque requête ne coûte rien. Fini les factures au token : autant de questions que vous voulez, sans limite.
Utilisation hors ligne
En avion, en déplacement, dans un environnement air-gappé - votre LLM reste disponible sans connexion internet.
Contrôle complet
Choisissez le modèle exact, ajustez les paramètres, fine-tunez sur vos données, exposez une API locale - tout reste sous votre contrôle.
Ce qu'il vous faut
Les LLMs sont gourmands en mémoire vive (RAM) et en VRAM (mémoire GPU). Voici les minimums recommandés selon la taille du modèle.
Prérequis RAM (CPU inference)
| Taille du modèle | RAM minimum | RAM recommandée | Exemple de modèle |
|---|---|---|---|
| 1–4 milliards de paramètres | 4 Go | 8 Go | Phi-3.5 Mini, Gemma 2 2B |
| 7–9 milliards de paramètres | 8 Go | 16 Go | Mistral 7B, Llama 3.1 8B |
| 12–14 milliards de paramètres | 16 Go | 32 Go | Phi-4, Qwen 2.5 14B |
| 32–70 milliards de paramètres | 32 Go | 64 Go+ | Llama 3.3 70B, Qwen 2.5 72B |
Prérequis GPU (VRAM)
| VRAM disponible | Modèles adaptés | Vitesse typique |
|---|---|---|
| 4–6 Go (ex. RTX 3060) | Modèles 4B quantisés (Q4) | 30–60 tokens/s |
| 8 Go (ex. RTX 3070/4060) | Modèles 7–8B quantisés | 40–80 tokens/s |
| 16 Go (ex. RTX 3080/4080) | Modèles 13–14B quantisés | 50–100 tokens/s |
| 24 Go (ex. RTX 3090/4090) | Modèles jusqu'à 33B | 60–120 tokens/s |
| Mac Apple Silicon (Metal) | Mémoire unifiée - très efficace | Selon puce (M1–M4) |
Pas de GPU dédié ? Pas de problème - Ollama et llama.cpp fonctionnent en CPU-only. La génération sera plus lente mais tout à fait fonctionnelle pour des modèles 7–8B.
Choisir son outil
Trois outils dominent l'écosystème local. Voici lequel correspond à votre profil.
Le plus simple, pour débutants
Ollama installe et gère vos modèles en une seule commande. Il expose une API REST locale compatible OpenAI, fonctionne en arrière-plan comme un service, et supporte macOS, Windows et Linux nativement.
- Installation en une commande
- Bibliothèque de modèles intégrée
- API OpenAI-compatible
- GPU automatique (NVIDIA, AMD, Apple Metal)
Interface graphique, idéal pour explorer
LM Studio offre une interface visuelle complète pour télécharger des modèles depuis Hugging Face, les tester en chat, et activer un serveur local. Parfait si vous préférez une interface à la ligne de commande.
- Interface graphique intuitive
- Accès direct à Hugging Face
- Chat intégré pour tester
- Serveur local activable en un clic
Maximum contrôle et performance
Le moteur d'inférence sur lequel reposent Ollama et LM Studio. Utiliser llama.cpp directement donne accès à toutes les options de quantisation, à des backends spécialisés (CUDA, Metal, Vulkan) et aux performances maximales.
- Performances optimales
- Contrôle total des paramètres
- Support de tous les backends GPU
- Idéal pour l'intégration et la prod
Comparatif : Ollama vs LM Studio vs llama.cpp
| Critère | Ollama | LM Studio | llama.cpp |
|---|---|---|---|
| Difficulté | Facile | Facile | Avancé |
| Interface | CLI + API REST | GUI complète | CLI uniquement |
| Gestion des modèles | Registre intégré | Hugging Face intégré | Manuelle (GGUF) |
| API locale | OpenAI-compatible | OpenAI-compatible | Serveur optionnel |
| Performances | Excellentes | Très bonnes | Maximales |
| GPU support | Auto (NVIDIA, AMD, Metal) | Auto (NVIDIA, AMD, Metal) | Manuel (tous backends) |
| macOS | Oui | Oui | Oui |
| Windows | Oui | Oui | Oui (compilation) |
| Linux | Oui | Non | Oui |
| Idéal pour | Développeurs, débutants | Explorateurs, non-tech | Experts, production |
Matériel compatible
Votre machine est-elle prête pour l'IA locale ? Le scanner analyse votre RAM, VRAM et processeur pour vous recommander les modèles qui tourneront chez vous.
MacBook / Mac
L'Apple Silicon (M1, M2, M3, M4) est exceptionnel pour l'IA locale. La mémoire unifiée permet de charger des modèles 7B–13B dans les 16 Go standards avec d'excellentes performances.
PC Windows / Linux
Avec une carte NVIDIA RTX ou AMD RX récente (8+ Go de VRAM), vous pouvez faire tourner des modèles 7–13B en pleine vitesse GPU. Sans GPU dédié, le mode CPU fonctionne avec 16 Go de RAM.
Serveur / NAS
Un serveur maison (Proxmox, Ubuntu Server) avec beaucoup de RAM peut faire tourner des modèles 70B en mode CPU multithread. Idéal pour une IA locale partagée sur le réseau local.
Pas sûr de ce que votre machine peut faire tourner ?
Le scanner analyse votre configuration et vous recommande les modèles compatibles en temps réel.
Choisir son premier modèle
Quelle quantité de RAM avez-vous ? C'est le critère principal pour choisir votre premier modèle local.
Privilégiez des modèles compacts mais capables. Quantisés en Q4, ils tiennent en 2–4 Go et restent étonnamment bons pour la plupart des tâches.
Vous pouvez faire tourner les modèles les plus populaires du moment. Cette plage offre le meilleur rapport qualité/performance pour les usages quotidiens.
L'accès aux modèles 14B ouvre une qualité nettement supérieure, proche de GPT-3.5 sur de nombreuses tâches. Le sweet spot pour les usages professionnels.
Bienvenue dans le territoire des grands modèles. La qualité rivalise avec Claude Haiku et GPT-4o Mini sur de nombreuses tâches. Idéal pour un usage serveur partagé.
llama.cpp - Prise en main rapide
llama.cpp est le moteur sous-jacent d'Ollama et LM Studio. L'utiliser directement donne accès aux performances maximales et à toutes les options avancées.
Installer via Homebrew (macOS/Linux)
brew install llama.cpp Sur Windows, téléchargez les binaires précompilés depuis GitHub Releases.
Télécharger un modèle GGUF
huggingface-cli download bartowski/Llama-3.1-8B-Instruct-GGUF \
--include "Llama-3.1-8B-Instruct-Q4_K_M.gguf" \
--local-dir ./models Lancer en mode interactif
llama-cli -m ./models/Llama-3.1-8B-Instruct-Q4_K_M.gguf \
-ngl 99 -c 4096 --conversation -ngl 99 décharge toutes les couches sur le GPU. Retirez ce flag pour un mode CPU pur.
Démarrer un serveur local (API OpenAI-compatible)
llama-server -m ./models/Llama-3.1-8B-Instruct-Q4_K_M.gguf \
--port 8080 -ngl 99 Le serveur tourne sur http://localhost:8080 avec les endpoints /v1/chat/completions et /v1/completions.