Installer un LLM en local
Guide complet

Faites tourner une IA puissante directement sur votre machine - sans abonnement, sans connexion internet, sans envoyer vos données à un tiers. Ce guide couvre tout, des prérequis matériels au choix du bon outil.

Pourquoi faire tourner un LLM en local ?

Confidentialité totale

Vos données ne quittent jamais votre machine. Idéal pour les documents sensibles, le code propriétaire ou simplement pour ne rien envoyer à des serveurs tiers.

Zéro coût marginal

Une fois le modèle téléchargé, chaque requête ne coûte rien. Fini les factures au token : autant de questions que vous voulez, sans limite.

Utilisation hors ligne

En avion, en déplacement, dans un environnement air-gappé - votre LLM reste disponible sans connexion internet.

Contrôle complet

Choisissez le modèle exact, ajustez les paramètres, fine-tunez sur vos données, exposez une API locale - tout reste sous votre contrôle.

Ce qu'il vous faut

Les LLMs sont gourmands en mémoire vive (RAM) et en VRAM (mémoire GPU). Voici les minimums recommandés selon la taille du modèle.

Prérequis RAM (CPU inference)

Taille du modèle RAM minimum RAM recommandée Exemple de modèle
1–4 milliards de paramètres 4 Go 8 Go Phi-3.5 Mini, Gemma 2 2B
7–9 milliards de paramètres 8 Go 16 Go Mistral 7B, Llama 3.1 8B
12–14 milliards de paramètres 16 Go 32 Go Phi-4, Qwen 2.5 14B
32–70 milliards de paramètres 32 Go 64 Go+ Llama 3.3 70B, Qwen 2.5 72B

Prérequis GPU (VRAM)

VRAM disponible Modèles adaptés Vitesse typique
4–6 Go (ex. RTX 3060) Modèles 4B quantisés (Q4) 30–60 tokens/s
8 Go (ex. RTX 3070/4060) Modèles 7–8B quantisés 40–80 tokens/s
16 Go (ex. RTX 3080/4080) Modèles 13–14B quantisés 50–100 tokens/s
24 Go (ex. RTX 3090/4090) Modèles jusqu'à 33B 60–120 tokens/s
Mac Apple Silicon (Metal) Mémoire unifiée - très efficace Selon puce (M1–M4)

Pas de GPU dédié ? Pas de problème - Ollama et llama.cpp fonctionnent en CPU-only. La génération sera plus lente mais tout à fait fonctionnelle pour des modèles 7–8B.

Choisir son outil

Trois outils dominent l'écosystème local. Voici lequel correspond à votre profil.

LM Studio

Interface graphique, idéal pour explorer

LM Studio offre une interface visuelle complète pour télécharger des modèles depuis Hugging Face, les tester en chat, et activer un serveur local. Parfait si vous préférez une interface à la ligne de commande.

  • Interface graphique intuitive
  • Accès direct à Hugging Face
  • Chat intégré pour tester
  • Serveur local activable en un clic
Guide LM Studio complet
llama.cpp

Maximum contrôle et performance

Le moteur d'inférence sur lequel reposent Ollama et LM Studio. Utiliser llama.cpp directement donne accès à toutes les options de quantisation, à des backends spécialisés (CUDA, Metal, Vulkan) et aux performances maximales.

  • Performances optimales
  • Contrôle total des paramètres
  • Support de tous les backends GPU
  • Idéal pour l'intégration et la prod
Section llama.cpp

Comparatif : Ollama vs LM Studio vs llama.cpp

Critère Ollama LM Studio llama.cpp
Difficulté Facile Facile Avancé
Interface CLI + API REST GUI complète CLI uniquement
Gestion des modèles Registre intégré Hugging Face intégré Manuelle (GGUF)
API locale OpenAI-compatible OpenAI-compatible Serveur optionnel
Performances Excellentes Très bonnes Maximales
GPU support Auto (NVIDIA, AMD, Metal) Auto (NVIDIA, AMD, Metal) Manuel (tous backends)
macOS Oui Oui Oui
Windows Oui Oui Oui (compilation)
Linux Oui Non Oui
Idéal pour Développeurs, débutants Explorateurs, non-tech Experts, production

Matériel compatible

Votre machine est-elle prête pour l'IA locale ? Le scanner analyse votre RAM, VRAM et processeur pour vous recommander les modèles qui tourneront chez vous.

MacBook / Mac

L'Apple Silicon (M1, M2, M3, M4) est exceptionnel pour l'IA locale. La mémoire unifiée permet de charger des modèles 7B–13B dans les 16 Go standards avec d'excellentes performances.

PC Windows / Linux

Avec une carte NVIDIA RTX ou AMD RX récente (8+ Go de VRAM), vous pouvez faire tourner des modèles 7–13B en pleine vitesse GPU. Sans GPU dédié, le mode CPU fonctionne avec 16 Go de RAM.

Serveur / NAS

Un serveur maison (Proxmox, Ubuntu Server) avec beaucoup de RAM peut faire tourner des modèles 70B en mode CPU multithread. Idéal pour une IA locale partagée sur le réseau local.

Pas sûr de ce que votre machine peut faire tourner ?

Le scanner analyse votre configuration et vous recommande les modèles compatibles en temps réel.

Scanner ma machine

Choisir son premier modèle

Quelle quantité de RAM avez-vous ? C'est le critère principal pour choisir votre premier modèle local.

Moins de 8 Go de RAM Configurations légères

Privilégiez des modèles compacts mais capables. Quantisés en Q4, ils tiennent en 2–4 Go et restent étonnamment bons pour la plupart des tâches.

Llama 3.2 3B
Meta · 2 Go (Q4) · Polyvalent
Phi-3.5 Mini
Microsoft · 2,3 Go (Q4) · Excellent raisonnement
Gemma 2 2B
Google · 1,6 Go (Q4) · Rapide, précis
8–16 Go de RAM La zone idéale

Vous pouvez faire tourner les modèles les plus populaires du moment. Cette plage offre le meilleur rapport qualité/performance pour les usages quotidiens.

Llama 3.1 8B
Meta · 5 Go (Q4) · Meilleur modèle 8B open source
Mistral 7B
Mistral AI · 4,1 Go (Q4) · Très performant, code inclus
Gemma 2 9B
Google · 5,5 Go (Q4) · Excellent en instruction following
16–32 Go de RAM Performances avancées

L'accès aux modèles 14B ouvre une qualité nettement supérieure, proche de GPT-3.5 sur de nombreuses tâches. Le sweet spot pour les usages professionnels.

Phi-4 14B
Microsoft · 8,5 Go (Q4) · Raisonnement exceptionnel
Qwen 2.5 14B
Alibaba · 8,9 Go (Q4) · Multilingue, code, math
Mistral NeMo 12B
Mistral AI · 7,1 Go (Q4) · Contexte 128K tokens
32 Go et plus Niveau professionnel

Bienvenue dans le territoire des grands modèles. La qualité rivalise avec Claude Haiku et GPT-4o Mini sur de nombreuses tâches. Idéal pour un usage serveur partagé.

Llama 3.3 70B
Meta · 43 Go (Q4) · Qualité GPT-4o niveau sur nombreux benchmarks
Qwen 2.5 72B
Alibaba · 44 Go (Q4) · Top mondial open source

llama.cpp - Prise en main rapide

llama.cpp est le moteur sous-jacent d'Ollama et LM Studio. L'utiliser directement donne accès aux performances maximales et à toutes les options avancées.

1

Installer via Homebrew (macOS/Linux)

brew install llama.cpp

Sur Windows, téléchargez les binaires précompilés depuis GitHub Releases.

2

Télécharger un modèle GGUF

huggingface-cli download bartowski/Llama-3.1-8B-Instruct-GGUF \
  --include "Llama-3.1-8B-Instruct-Q4_K_M.gguf" \
  --local-dir ./models
3

Lancer en mode interactif

llama-cli -m ./models/Llama-3.1-8B-Instruct-Q4_K_M.gguf \
  -ngl 99 -c 4096 --conversation

-ngl 99 décharge toutes les couches sur le GPU. Retirez ce flag pour un mode CPU pur.

4

Démarrer un serveur local (API OpenAI-compatible)

llama-server -m ./models/Llama-3.1-8B-Instruct-Q4_K_M.gguf \
  --port 8080 -ngl 99

Le serveur tourne sur http://localhost:8080 avec les endpoints /v1/chat/completions et /v1/completions.