Installer un LLM en local
Guide complet

Faites tourner une IA puissante directement sur votre machine - sans abonnement, sans connexion internet, sans envoyer vos données à un tiers. Ce guide couvre tout, des prérequis matériels au choix du bon outil.

Pourquoi faire tourner un LLM en local ?

Confidentialité totale

Vos données ne quittent jamais votre machine. Idéal pour les documents sensibles, le code propriétaire ou simplement pour ne rien envoyer à des serveurs tiers.

Zéro coût marginal

Une fois le modèle téléchargé, chaque requête ne coûte rien. Fini les factures au token : autant de questions que vous voulez, sans limite.

Utilisation hors ligne

En avion, en déplacement, dans un environnement air-gappé - votre LLM reste disponible sans connexion internet.

Contrôle complet

Choisissez le modèle exact, ajustez les paramètres, fine-tunez sur vos données, exposez une API locale - tout reste sous votre contrôle.

Ce qu'il vous faut

Les LLMs sont gourmands en mémoire vive (RAM) et en VRAM (mémoire GPU). Voici les minimums recommandés selon la taille du modèle.

Prérequis RAM (CPU inference)

Taille du modèle	RAM minimum	RAM recommandée	Exemple de modèle
1–4 milliards de paramètres	4 Go	8 Go	Phi-3.5 Mini, Gemma 2 2B
7–9 milliards de paramètres	8 Go	16 Go	Mistral 7B, Llama 3.1 8B
12–14 milliards de paramètres	16 Go	32 Go	Phi-4, Qwen 2.5 14B
32–70 milliards de paramètres	32 Go	64 Go+	Llama 3.3 70B, Qwen 2.5 72B

Prérequis GPU (VRAM)

VRAM disponible	Modèles adaptés	Vitesse typique
4–6 Go (ex. RTX 3060)	Modèles 4B quantisés (Q4)	30–60 tokens/s
8 Go (ex. RTX 3070/4060)	Modèles 7–8B quantisés	40–80 tokens/s
16 Go (ex. RTX 3080/4080)	Modèles 13–14B quantisés	50–100 tokens/s
24 Go (ex. RTX 3090/4090)	Modèles jusqu'à 33B	60–120 tokens/s
Mac Apple Silicon (Metal)	Mémoire unifiée - très efficace	Selon puce (M1–M4)

Pas de GPU dédié ? Pas de problème - Ollama et llama.cpp fonctionnent en CPU-only. La génération sera plus lente mais tout à fait fonctionnelle pour des modèles 7–8B.

Choisir son outil

Trois outils dominent l'écosystème local. Voici lequel correspond à votre profil.

Ollama Recommandé

Le plus simple, pour débutants

Ollama installe et gère vos modèles en une seule commande. Il expose une API REST locale compatible OpenAI, fonctionne en arrière-plan comme un service, et supporte macOS, Windows et Linux nativement.

Installation en une commande
Bibliothèque de modèles intégrée
API OpenAI-compatible
GPU automatique (NVIDIA, AMD, Apple Metal)

Guide Ollama complet

LM Studio

Interface graphique, idéal pour explorer

LM Studio offre une interface visuelle complète pour télécharger des modèles depuis Hugging Face, les tester en chat, et activer un serveur local. Parfait si vous préférez une interface à la ligne de commande.

Interface graphique intuitive
Accès direct à Hugging Face
Chat intégré pour tester
Serveur local activable en un clic

Guide LM Studio complet

llama.cpp

Maximum contrôle et performance

Le moteur d'inférence sur lequel reposent Ollama et LM Studio. Utiliser llama.cpp directement donne accès à toutes les options de quantisation, à des backends spécialisés (CUDA, Metal, Vulkan) et aux performances maximales.

Performances optimales
Contrôle total des paramètres
Support de tous les backends GPU
Idéal pour l'intégration et la prod

Section llama.cpp

Comparatif : Ollama vs LM Studio vs llama.cpp

Critère	Ollama	LM Studio	llama.cpp
Difficulté	Facile	Facile	Avancé
Interface	CLI + API REST	GUI complète	CLI uniquement
Gestion des modèles	Registre intégré	Hugging Face intégré	Manuelle (GGUF)
API locale	OpenAI-compatible	OpenAI-compatible	Serveur optionnel
Performances	Excellentes	Très bonnes	Maximales
GPU support	Auto (NVIDIA, AMD, Metal)	Auto (NVIDIA, AMD, Metal)	Manuel (tous backends)
macOS	Oui	Oui	Oui
Windows	Oui	Oui	Oui (compilation)
Linux	Oui	Non	Oui
Idéal pour	Développeurs, débutants	Explorateurs, non-tech	Experts, production

Matériel compatible

Votre machine est-elle prête pour l'IA locale ? Le scanner analyse votre RAM, VRAM et processeur pour vous recommander les modèles qui tourneront chez vous.

MacBook / Mac

L'Apple Silicon (M1, M2, M3, M4) est exceptionnel pour l'IA locale. La mémoire unifiée permet de charger des modèles 7B–13B dans les 16 Go standards avec d'excellentes performances.

PC Windows / Linux

Avec une carte NVIDIA RTX ou AMD RX récente (8+ Go de VRAM), vous pouvez faire tourner des modèles 7–13B en pleine vitesse GPU. Sans GPU dédié, le mode CPU fonctionne avec 16 Go de RAM.

Serveur / NAS

Un serveur maison (Proxmox, Ubuntu Server) avec beaucoup de RAM peut faire tourner des modèles 70B en mode CPU multithread. Idéal pour une IA locale partagée sur le réseau local.

Pas sûr de ce que votre machine peut faire tourner ?

Le scanner analyse votre configuration et vous recommande les modèles compatibles en temps réel.

Scanner ma machine

Choisir son premier modèle

Quelle quantité de RAM avez-vous ? C'est le critère principal pour choisir votre premier modèle local.

Moins de 8 Go de RAM Configurations légères

Privilégiez des modèles compacts mais capables. Quantisés en Q4, ils tiennent en 2–4 Go et restent étonnamment bons pour la plupart des tâches.

Llama 3.2 3B

Meta · 2 Go (Q4) · Polyvalent

Phi-3.5 Mini

Microsoft · 2,3 Go (Q4) · Excellent raisonnement

Gemma 2 2B

Google · 1,6 Go (Q4) · Rapide, précis

8–16 Go de RAM La zone idéale

Vous pouvez faire tourner les modèles les plus populaires du moment. Cette plage offre le meilleur rapport qualité/performance pour les usages quotidiens.

Llama 3.1 8B

Meta · 5 Go (Q4) · Meilleur modèle 8B open source

Mistral 7B

Mistral AI · 4,1 Go (Q4) · Très performant, code inclus

Gemma 2 9B

Google · 5,5 Go (Q4) · Excellent en instruction following

16–32 Go de RAM Performances avancées

L'accès aux modèles 14B ouvre une qualité nettement supérieure, proche de GPT-3.5 sur de nombreuses tâches. Le sweet spot pour les usages professionnels.

Phi-4 14B

Microsoft · 8,5 Go (Q4) · Raisonnement exceptionnel

Qwen 2.5 14B

Alibaba · 8,9 Go (Q4) · Multilingue, code, math

Mistral NeMo 12B

Mistral AI · 7,1 Go (Q4) · Contexte 128K tokens

32 Go et plus Niveau professionnel

Bienvenue dans le territoire des grands modèles. La qualité rivalise avec Claude Haiku et GPT-4o Mini sur de nombreuses tâches. Idéal pour un usage serveur partagé.

Llama 3.3 70B

Meta · 43 Go (Q4) · Qualité GPT-4o niveau sur nombreux benchmarks

Qwen 2.5 72B

Alibaba · 44 Go (Q4) · Top mondial open source

llama.cpp - Prise en main rapide

llama.cpp est le moteur sous-jacent d'Ollama et LM Studio. L'utiliser directement donne accès aux performances maximales et à toutes les options avancées.

Installer via Homebrew (macOS/Linux)

brew install llama.cpp

Sur Windows, téléchargez les binaires précompilés depuis GitHub Releases.

Télécharger un modèle GGUF

huggingface-cli download bartowski/Llama-3.1-8B-Instruct-GGUF \
  --include "Llama-3.1-8B-Instruct-Q4_K_M.gguf" \
  --local-dir ./models

Lancer en mode interactif

llama-cli -m ./models/Llama-3.1-8B-Instruct-Q4_K_M.gguf \
  -ngl 99 -c 4096 --conversation

-ngl 99 décharge toutes les couches sur le GPU. Retirez ce flag pour un mode CPU pur.

Démarrer un serveur local (API OpenAI-compatible)

llama-server -m ./models/Llama-3.1-8B-Instruct-Q4_K_M.gguf \
  --port 8080 -ngl 99

Le serveur tourne sur http://localhost:8080 avec les endpoints /v1/chat/completions et /v1/completions.

Prochaines étapes

Guide Ollama complet

Installation, commandes essentielles, API locale, modèles recommandés.

Guide LM Studio

Interface graphique, téléchargement de modèles, serveur local.

Scanner ma machine

Découvrez quels modèles sont compatibles avec votre configuration matérielle.

Comparatif matériel

GPU, mini-PC et serveurs maison pour l'IA locale - comparés et classés.

Installer un LLM en localGuide complet

Pourquoi faire tourner un LLM en local ?

Confidentialité totale

Zéro coût marginal

Utilisation hors ligne

Contrôle complet

Ce qu'il vous faut

Prérequis RAM (CPU inference)

Prérequis GPU (VRAM)

Choisir son outil

Comparatif : Ollama vs LM Studio vs llama.cpp

Matériel compatible

MacBook / Mac

PC Windows / Linux

Serveur / NAS

Pas sûr de ce que votre machine peut faire tourner ?

Choisir son premier modèle

llama.cpp - Prise en main rapide

Installer via Homebrew (macOS/Linux)

Télécharger un modèle GGUF

Lancer en mode interactif

Démarrer un serveur local (API OpenAI-compatible)

Prochaines étapes

Guide Ollama complet

Guide LM Studio

Scanner ma machine

Comparatif matériel

Installer un LLM en local
Guide complet