Ollama : Guide Complet d'Installation et d'Utilisation

Ollama est l'outil de référence pour faire tourner des modèles de langage en local sur votre machine, sans cloud, sans abonnement, sans envoyer vos données à un tiers. Une commande suffit pour lancer Llama 3, Mistral, DeepSeek ou des dizaines d'autres modèles. Ce guide couvre l'installation complète sur macOS, Windows et Linux, toutes les commandes, l'API REST et les optimisations de performance.

Qu'est-ce qu'Ollama ?

Ollama est un outil open-source, développé par la société américaine Ollama Inc, qui permet de télécharger et d'exécuter des modèles de langage de grande taille (LLMs) directement sur votre ordinateur. Contrairement aux API cloud comme ChatGPT ou Claude, tout se passe en local : aucune donnée ne quitte votre machine.

Techniquement, Ollama s'appuie sur llama.cpp - le moteur d'inférence C++ ultra-optimisé - enveloppé dans une interface simple : un serveur HTTP local et une CLI. Il gère automatiquement la détection GPU (NVIDIA CUDA, AMD ROCm, Apple Metal) pour accélérer l'inférence.

Pourquoi utiliser Ollama plutôt qu'une alternative ?

Confidentialité totale : vos prompts restent sur votre machine
Coût zéro après le matériel - pas de tokens à payer
Offline : fonctionne sans connexion une fois le modèle téléchargé
API compatible OpenAI : drop-in replacement pour vos projets existants
Multi-OS : macOS (Apple Silicon et Intel), Windows, Linux
Bibliothèque de modèles intégrée avec des centaines de modèles prêts à l'emploi

Ollama est devenu en deux ans l'outil de référence pour l'IA locale. Sa simplicité d'usage - une ligne de commande pour tout - en fait le point d'entrée idéal pour les développeurs et les curieux qui veulent explorer les LLMs sans dépendre du cloud.

Installation par système d'exploitation

Ollama s'installe en moins de deux minutes sur les trois grandes plateformes. Choisissez votre système ci-dessous.

macOS (Apple Silicon et Intel)

Ollama supporte macOS 11 Big Sur et versions ultérieures. Sur Apple Silicon (M1/M2/M3/M4), l'accélération Metal est automatique.

Option 1 - Homebrew (recommandé)

# Installer Ollama via Homebrew
brew install ollama

# Démarrer le serveur en arrière-plan
brew services start ollama

# Ou le lancer en avant-plan pour voir les logs
ollama serve

Option 2 - Application macOS (GUI)

Téléchargez l'installateur .dmg depuis ollama.ai. Une icône apparaît dans la barre de menu - Ollama démarre automatiquement au login. Le serveur tourne en arrière-plan sans intervention.

Note : avec l'app macOS, ollama serve est inutile - le serveur est déjà actif. Vous pouvez directement utiliser ollama run depuis le terminal.

Vérifier l'installation

ollama --version
# → ollama version 0.x.x

Windows 10/11

Ollama supporte Windows 10 (build 19041+) et Windows 11. GPU NVIDIA via CUDA et GPU AMD via ROCm sont pris en charge.

Téléchargement et installation

Rendez-vous sur ollama.ai/download/windows
Téléchargez OllamaSetup.exe
Exécutez l'installateur (pas de droits admin requis)
Ollama s'installe et démarre automatiquement dans la barre des tâches

Utilisation via PowerShell ou CMD

# Dans PowerShell ou Command Prompt
ollama run llama3.1

# Vérifier la version
ollama --version

Astuce : Sur Windows, les modèles sont stockés dans C:\Users\<votre-user>\.ollama\models. Pour les déplacer vers un autre disque, définissez la variable d'environnement OLLAMA_MODELS.

GPU NVIDIA sur Windows

Installez les drivers NVIDIA récents. Ollama détecte automatiquement CUDA - aucune configuration supplémentaire n'est nécessaire.

Linux (Ubuntu, Debian, Fedora, Arch…)

Ollama fonctionne sur la plupart des distributions Linux. GPU NVIDIA (CUDA 11.3+) et AMD (ROCm 6+) supportés.

Installation rapide (script officiel)

curl -fsSL https://ollama.ai/install.sh | sh

Le script installe Ollama dans /usr/local/bin/ et crée un service systemd qui démarre automatiquement.

Gestion du service systemd

# Vérifier le statut
sudo systemctl status ollama

# Démarrer manuellement
sudo systemctl start ollama

# Activer au démarrage
sudo systemctl enable ollama

# Voir les logs en temps réel
journalctl -u ollama -f

GPU NVIDIA sous Linux

# Vérifier que CUDA est disponible
nvidia-smi

# Ollama détecte automatiquement le GPU
# Vérifier lors du premier run :
ollama run llama3.1
# → "using CUDA device: NVIDIA GeForce RTX..."

CPU uniquement : Ollama fonctionne sans GPU - l'inférence sera plus lente mais entièrement fonctionnelle sur un CPU moderne.

Installation manuelle (sans script)

# Télécharger le binaire directement
curl -L https://ollama.ai/download/ollama-linux-amd64 -o /usr/local/bin/ollama
chmod +x /usr/local/bin/ollama

Premiers pas : lancer votre premier modèle

Une fois Ollama installé, une seule commande suffit pour télécharger et lancer un modèle. Prenons Llama 3.1 8B, le modèle polyvalent de Meta, comme premier exemple.

ollama run llama3.1

Cette commande fait plusieurs choses automatiquement :

Téléchargement du modèle - environ 4,7 Go pour la version quantifiée Q4 (une seule fois)
Chargement en mémoire - quelques secondes selon votre matériel
Ouverture du chat interactif - vous pouvez taper directement

# Sortie typique lors du premier lancement
pulling manifest
pulling 8eeb52dfb3bb... 100% ▕████████████████▏ 4.7 GB
pulling 948af2743fc7... 100% ▕████████████████▏ 1.5 KB
verifying sha256 digest
writing manifest
success
>>> Send a message (/? for help)

Vous êtes maintenant en mode conversation interactive. Tapez votre message et appuyez sur Entrée :

>>> Bonjour ! Explique-moi ce qu'est un transformer en 3 phrases.

Un transformer est une architecture de réseau de neurones introduite en 2017 dans
l'article "Attention is All You Need". Il repose sur un mécanisme d'attention qui
permet au modèle de pondérer l'importance de chaque mot d'une séquence en relation
avec les autres, sans dépendre de récurrence. Cette architecture est aujourd'hui la
base de tous les grands modèles de langage comme GPT, Llama ou Mistral.

>>>

Commandes utiles dans le chat interactif

/bye - quitter le chat
/clear - effacer l'historique de la conversation
/set system "..." - définir un system prompt
/show info - afficher les infos du modèle chargé
/? - aide complète

Lancer un modèle avec un prompt en ligne de commande

# Passer un prompt directement (non-interactif)
ollama run llama3.1 "Donne-moi une recette de tarte aux pommes"

# Passer un prompt depuis stdin
echo "Résume ce texte : $(cat article.txt)" | ollama run llama3.1

# Utiliser un system prompt personnalisé
ollama run llama3.1 --system "Tu es un expert en droit fiscal français."

Configuration requise pour les modèles 7B/8B : au minimum 8 Go de RAM (16 Go recommandés). Pour les modèles 13B, prévoyez 16 Go. Pour les modèles 70B, 64 Go ou un GPU dédié avec assez de VRAM.

Référence complète des commandes Ollama

Voici toutes les commandes principales de la CLI Ollama avec leurs options et exemples d'utilisation.

Commande	Description	Exemple
`ollama run`	Lance un modèle en mode chat interactif. Télécharge automatiquement le modèle s'il n'est pas présent.	`ollama run llama3.1`
`ollama pull`	Télécharge ou met à jour un modèle depuis la bibliothèque officielle, sans le lancer.	`ollama pull mistral`
`ollama push`	Publie un modèle sur le registre Ollama (nécessite un compte et une connexion).	`ollama push monuser/monmodele`
`ollama list`	Affiche tous les modèles téléchargés localement avec leur taille et date de modification.	`ollama list`
`ollama ps`	Liste les modèles actuellement chargés en mémoire (en cours d'exécution).	`ollama ps`
`ollama stop`	Décharge un modèle de la mémoire sans le supprimer du disque.	`ollama stop llama3.1`
`ollama rm`	Supprime un modèle du disque pour libérer de l'espace.	`ollama rm mistral`
`ollama show`	Affiche les métadonnées d'un modèle : Modelfile, paramètres, licence, template.	`ollama show llama3.1 --modelfile`
`ollama create`	Crée un nouveau modèle à partir d'un Modelfile personnalisé.	`ollama create mon-assistant -f Modelfile`
`ollama serve`	Démarre le serveur API Ollama manuellement (port 11434 par défaut).	`ollama serve`
`ollama cp`	Copie un modèle sous un nouveau nom localement.	`ollama cp llama3.1 mon-llama`

Options avancées pour `ollama run`

# Spécifier un tag de version ou de quantification
ollama run llama3.1:70b
ollama run llama3.1:8b-instruct-q8_0

# Verbose : voir les tokens générés en temps réel
ollama run llama3.1 --verbose

# Lancer avec un context window personnalisé
ollama run llama3.1 --num-ctx 8192

Variables d'environnement

# Changer le port du serveur (défaut : 11434)
OLLAMA_HOST=0.0.0.0:11435 ollama serve

# Dossier de stockage des modèles
OLLAMA_MODELS=/data/ollama/models ollama serve

# Limiter la VRAM utilisée (Go)
OLLAMA_MAX_VRAM=6000000000 ollama serve

# Nombre de threads CPU
OLLAMA_NUM_PARALLEL=4 ollama serve

# Désactiver le GPU (forcer CPU)
OLLAMA_NOPRUNE=1 CUDA_VISIBLE_DEVICES="" ollama serve

Modèles populaires - démarrage rapide

La bibliothèque Ollama contient des centaines de modèles. Voici les plus utilisés, sélectionnés pour leur qualité et leur praticité au quotidien.

Llama 3.1

Général

Le modèle de Meta, excellent équilibre performance / vitesse. 8B idéal pour la plupart des usages, 70B pour les tâches complexes.

ollama run llama3.1
ollama run llama3.1:70b

Mistral

Général

Le modèle phare de Mistral AI, entreprise française. Très rapide, excellent en français, 7B paramètres.

ollama run mistral
ollama run mistral:7b-instruct

Code Llama

Code

Spécialisé dans la génération et l'explication de code. Python, JavaScript, TypeScript, Go, Rust…

ollama run codellama
ollama run codellama:34b

DeepSeek R1

Raisonnement

Modèle de raisonnement de DeepSeek, montre sa "réflexion" avant de répondre. Impressionnant sur les maths et la logique.

ollama run deepseek-r1:7b
ollama run deepseek-r1:14b

nomic-embed-text

Embeddings

Modèle d'embeddings pour RAG, recherche sémantique et clustering de textes. Très léger et rapide.

ollama run nomic-embed-text
ollama pull mxbai-embed-large

Gemma 3

Général

La famille de modèles de Google, performante pour sa taille. Gemma 3 4B tient facilement sur une machine grand public.

ollama run gemma3
ollama run gemma3:4b

Rechercher des modèles

# Lister les modèles disponibles dans la bibliothèque
# (redirige vers le site web)
# → https://ollama.ai/library

# Voir tous les tags disponibles pour un modèle
ollama show llama3.1 --modelfile | head -5

# Exemple : tags pour llama3.1
# llama3.1           (alias de 8b)
# llama3.1:8b        (défaut, 4.7 Go)
# llama3.1:70b       (40 Go, GPU recommandé)
# llama3.1:405b      (231 Go, datacenter)
# llama3.1:8b-instruct-q8_0  (8 Go, qualité max)

Nomenclature des quantifications : Q4_K_M (défaut, bon compromis), Q8_0 (meilleure qualité, 2x plus lourd), Q2_K (très léger, qualité réduite). Pour la plupart des usages, la quantification par défaut (Q4) est largement suffisante.

Utilisation de l'API REST

Ollama expose une API HTTP sur http://localhost:11434. Deux interfaces sont disponibles : l'API native Ollama et l'API compatible OpenAI. Cette dernière vous permet de brancher n'importe quelle bibliothèque ou application qui supporte OpenAI sans modification de code.

API native - génération de texte

# Génération simple (streaming désactivé)
curl http://localhost:11434/api/generate \
  -d '{
    "model": "llama3.1",
    "prompt": "Quelle est la capitale de la France ?",
    "stream": false
  }'

# Réponse :
{
  "model": "llama3.1",
  "response": "La capitale de la France est Paris.",
  "done": true,
  "total_duration": 1234567890,
  "eval_count": 12
}

API native - mode chat (avec historique)

curl http://localhost:11434/api/chat \
  -d '{
    "model": "llama3.1",
    "messages": [
      {"role": "system", "content": "Tu es un assistant expert en cuisine française."},
      {"role": "user", "content": "Comment faire un beurre blanc ?"}
    ],
    "stream": false
  }'

API compatible OpenAI

# Endpoint compatible OpenAI Chat Completions
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1",
    "messages": [
      {"role": "user", "content": "Bonjour !"}
    ]
  }'

Utilisation avec la bibliothèque Python OpenAI

# pip install openai
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # valeur ignorée, mais requise
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "user", "content": "Explique le principe SOLID en Python"}
    ]
)

print(response.choices[0].message.content)

Embeddings via l'API

curl http://localhost:11434/api/embed \
  -d '{
    "model": "nomic-embed-text",
    "input": "Les LLMs transforment le développement logiciel"
  }'

# Retourne un vecteur d'embeddings pour la recherche sémantique

Endpoints disponibles

Endpoint	Méthode	Description
`/api/generate`	POST	Génération de texte (completion)
`/api/chat`	POST	Chat avec historique de messages
`/api/embed`	POST	Génération d'embeddings
`/api/tags`	GET	Lister les modèles installés
`/api/show`	POST	Infos sur un modèle
`/api/pull`	POST	Télécharger un modèle
`/api/delete`	DELETE	Supprimer un modèle
`/v1/chat/completions`	POST	API compatible OpenAI
`/v1/models`	GET	Modèles (compatible OpenAI)

Accès réseau : Par défaut, le serveur Ollama n'écoute que sur localhost. Pour l'exposer sur le réseau local (par exemple pour une app mobile ou une autre machine), démarrez avec OLLAMA_HOST=0.0.0.0:11434 ollama serve.

Modelfile - personnaliser et créer des modèles

Un Modelfile est un fichier texte (similaire à un Dockerfile) qui décrit comment construire ou personnaliser un modèle Ollama. Il permet de modifier le system prompt, les paramètres de génération, et de bundler plusieurs fichiers ensemble.

Structure d'un Modelfile

# Modelfile - assistant juridique français

FROM llama3.1

# System prompt par défaut
SYSTEM """
Tu es un assistant juridique spécialisé en droit français.
Tu réponds de manière précise, en citant les articles de loi pertinents.
Tu rappelles toujours que tes réponses ne remplacent pas un avocat.
"""

# Paramètres de génération
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

# Template de message (optionnel)
TEMPLATE """{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
<|assistant|>
{{ end }}"""

# Licence
LICENSE MIT

Créer et utiliser un modèle personnalisé

# Créer le modèle depuis le Modelfile
ollama create assistant-juridique -f Modelfile

# Lancer le modèle personnalisé
ollama run assistant-juridique

# Vérifier qu'il est bien créé
ollama list

Paramètres disponibles dans un Modelfile

Paramètre	Défaut	Description
`temperature`	0.8	Créativité des réponses (0 = déterministe, 1 = créatif)
`top_k`	40	Nombre de tokens considérés à chaque étape
`top_p`	0.9	Nucleus sampling - diversité des tokens
`num_ctx`	2048	Taille du context window (tokens)
`num_predict`	-1	Nombre max de tokens générés (-1 = illimité)
`repeat_penalty`	1.1	Pénalise les répétitions
`seed`	0	Graine aléatoire (0 = aléatoire)
`stop`	-	Séquences d'arrêt de génération
`num_gpu`	auto	Nombre de couches GPU (0 = CPU uniquement)

Importer un modèle GGUF personnalisé

# Si vous avez un fichier .gguf téléchargé manuellement
# (depuis HuggingFace par exemple)

# Créer un Modelfile qui pointe vers le fichier local
echo "FROM ./mon-modele.gguf" > Modelfile
ollama create mon-modele -f Modelfile
ollama run mon-modele

Intégration Open WebUI

Open WebUI (anciennement Ollama WebUI) est l'interface graphique la plus populaire pour Ollama. Elle offre une expérience similaire à ChatGPT : conversations avec historique, gestion des modèles, import de documents, génération d'images, et bien plus.

Installation avec Docker (recommandée)

# Si Ollama tourne sur la même machine (recommandé)
docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

# Si vous utilisez une GPU NVIDIA
docker run -d \
  -p 3000:8080 \
  --gpus all \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:cuda

Accédez à http://localhost:3000 dans votre navigateur. Open WebUI se connecte automatiquement à Ollama sur le port 11434.

Installation sans Docker (pip)

# Installer via pip
pip install open-webui

# Lancer
open-webui serve

Fonctionnalités notables d'Open WebUI

RAG (Retrieval Augmented Generation) : importez des PDF, documents Word, pages web - le modèle répond en s'appuyant sur leur contenu
Génération d'images : intégration AUTOMATIC1111/ComfyUI
Multi-utilisateurs : comptes, rôles, permissions
Fonctions personnalisées : Python tools, pipes
Bibliothèque de prompts : partagez et réutilisez des prompts
Historique et export : toutes vos conversations sauvegardées localement

Alternative légère : si Docker est trop lourd pour votre setup, Msty et AnythingLLM sont d'autres interfaces graphiques qui se connectent à Ollama via l'API.

Optimisation des performances

Les performances d'Ollama dépendent principalement du matériel disponible (GPU/CPU/RAM) et de la configuration du modèle. Voici les paramètres les plus impactants.

Accélération GPU

Ollama détecte automatiquement les GPU supportés :

Apple Silicon (M1/M2/M3/M4) : Metal, intégré, très efficace - les modèles utilisent la mémoire unifiée
NVIDIA : CUDA 11.3+, drivers à jour requis
AMD : ROCm 6.0+ sur Linux
Intel Arc : support expérimental via SYCL

# Vérifier quel accélérateur est utilisé lors du lancement
ollama run llama3.1 --verbose
# → affiche les infos GPU/CPU en bas de chaque réponse

# Forcer uniquement le CPU (debug)
OLLAMA_LLM_LIBRARY=cpu ollama run llama3.1

Régler `num_ctx` (context window)

Le context window détermine combien de tokens (environ 3/4 d'un mot en anglais) le modèle peut "voir" à la fois. Un contexte plus grand = plus de mémoire GPU/RAM. La valeur par défaut est souvent 2048 ou 4096, mais la plupart des modèles modernes supportent jusqu'à 128k tokens.

# Dans le Modelfile
PARAMETER num_ctx 8192

# Via l'API
curl http://localhost:11434/api/generate \
  -d '{
    "model": "llama3.1",
    "options": {"num_ctx": 8192},
    "prompt": "..."
  }'

# Via la CLI
ollama run llama3.1
>>> /set parameter num_ctx 8192

Régler `num_gpu` (couches GPU)

num_gpu contrôle combien de couches du modèle sont chargées sur le GPU. Si votre GPU n'a pas assez de VRAM pour tout le modèle, Ollama charge le reste sur le CPU. Définir num_gpu explicitement peut aider à maximiser l'utilisation GPU.

# Charger toutes les couches sur GPU (défaut auto)
PARAMETER num_gpu -1  # dans Modelfile

# Charger seulement 20 couches sur GPU (si VRAM limitée)
PARAMETER num_gpu 20

# Forcer CPU uniquement
PARAMETER num_gpu 0

Parallélisme et concurrence

# Nombre de requêtes parallèles (défaut : 1 ou 4 selon VRAM)
OLLAMA_NUM_PARALLEL=2 ollama serve

# Nombre de modèles chargés simultanément
OLLAMA_MAX_LOADED_MODELS=2 ollama serve

# Délai avant déchargement d'un modèle inactif (défaut : 5 min)
OLLAMA_KEEP_ALIVE=10m ollama serve

# Garder le modèle chargé indéfiniment
OLLAMA_KEEP_ALIVE=-1 ollama serve

Benchmarks indicatifs (tokens/seconde)

Matériel	Llama 3.1 8B Q4	Mistral 7B Q4
Apple M4 Pro (48 Go)	~85 tok/s	~90 tok/s
Apple M2 (16 Go)	~45 tok/s	~50 tok/s
RTX 4090 (24 Go VRAM)	~120 tok/s	~130 tok/s
RTX 3080 (10 Go VRAM)	~70 tok/s	~75 tok/s
CPU i9-13900K (64 Go RAM)	~8 tok/s	~9 tok/s

Attention : Ces chiffres sont indicatifs et varient selon la quantification, le context window, et la charge système. Sur CPU uniquement, la génération reste fluide mais plus lente.

Dépannage

Erreur : "could not connect to ollama server"

Le serveur Ollama n'est pas démarré. Sur Linux, lancez sudo systemctl start ollama. Sur macOS, ouvrez l'application Ollama depuis le Launchpad ou lancez ollama serve dans un terminal. Sur Windows, cherchez Ollama dans la barre des tâches.

Erreur : "out of memory" ou "CUDA out of memory"

Le modèle demande plus de VRAM que disponible. Solutions : (1) utiliser une quantification plus légère (llama3.1:8b-instruct-q4_0), (2) réduire num_ctx, (3) définir num_gpu pour laisser certaines couches sur CPU avec PARAMETER num_gpu 20 dans le Modelfile.

Le téléchargement d'un modèle s'arrête et ne reprend pas

Relancez simplement ollama pull nom-du-modele. Ollama reprend le téléchargement là où il s'était arrêté grâce au hash SHA256. Aucune donnée n'est re-téléchargée.

GPU non détecté sur Linux (NVIDIA)

Vérifiez que nvidia-smi fonctionne. Si le service Ollama est géré par systemd, il peut ne pas avoir accès au GPU. Ajoutez l'utilisateur ollama au groupe render et video : sudo usermod -aG render,video ollama, puis redémarrez le service.

Réponses très lentes (moins de 5 tokens/seconde)

L'inférence se fait sur CPU au lieu du GPU. Vérifiez avec ollama run llama3.1 --verbose - la ligne "eval rate" indique la vitesse. Si le GPU n'est pas utilisé, vérifiez les drivers CUDA (NVIDIA) ou que vous êtes bien sur Apple Silicon et pas une VM.

Port 11434 déjà utilisé

Une instance Ollama tourne déjà (ou un autre service). Vérifiez avec lsof -i :11434 (macOS/Linux) ou netstat -ano | findstr 11434 (Windows). Pour changer le port : OLLAMA_HOST=0.0.0.0:11435 ollama serve.

Modèle corrompu ou comportement erratique

Supprimez et retéléchargez le modèle : ollama rm nom-du-modele && ollama pull nom-du-modele. Ollama vérifie le SHA256 à chaque téléchargement - un modèle retéléchargé est toujours sain.

FAQ

Ollama est-il gratuit et open source ?

Oui, Ollama est entièrement gratuit à utiliser. Le code source est disponible sur GitHub sous licence MIT. Les modèles disponibles dans la bibliothèque ont leurs propres licences - certains comme Llama 3 ont une licence commerciale permissive (utilisable pour les applications avec moins de 700 millions d'utilisateurs actifs), d'autres sont sous licence Apache 2.0 ou MIT.

Quelles sont les configurations matérielles recommandées ?

Minimum (modèles 7B/8B) : 8 Go de RAM, processeur 64 bits récent. L'inférence CPU fonctionne mais sera lente (~5-10 tok/s).

Recommandé (modèles 7B/8B rapides) : Apple Silicon M1/M2/M3 avec 16+ Go de mémoire unifiée, ou GPU NVIDIA avec 8+ Go de VRAM. Vous obtiendrez 40-100 tok/s.

Pour les grands modèles (70B+) : GPU avec 48+ Go de VRAM (ex. RTX 6000 Ada) ou plusieurs GPU. Sur Apple Silicon, le M2 Ultra (192 Go) ou M3 Max (128 Go) sont excellents.

Comment mettre à jour Ollama ?

macOS (Homebrew) : brew upgrade ollama

macOS (app) : l'application se met à jour automatiquement, ou cliquez sur "Check for updates" dans l'icône de la barre de menu.

Windows : téléchargez et réinstallez le dernier OllamaSetup.exe depuis ollama.ai.

Linux : relancez le script d'installation : curl -fsSL https://ollama.ai/install.sh | sh. Vos modèles sont conservés.

Où sont stockés les modèles sur le disque ?

macOS : ~/.ollama/models/

Linux : /usr/share/ollama/.ollama/models/ (service systemd) ou ~/.ollama/models/ (utilisateur courant)

Windows : C:\Users\<username>\.ollama\models\

Pour changer l'emplacement, définissez la variable d'environnement OLLAMA_MODELS avant de démarrer Ollama.

Peut-on utiliser Ollama dans une application de production ?

Oui, avec quelques précautions. Ollama est conçu principalement pour le développement et l'usage local, mais son API REST peut être utilisée en production si vous contrôlez l'infrastructure. Pour un déploiement multi-utilisateurs en production, des alternatives comme vLLM, llama.cpp server ou des services cloud gérés offrent plus d'options de scalabilité, de monitoring et de contrôle de la concurrence. Ollama reste excellent pour des serveurs internes, des outils d'équipe, ou comme backend d'une application à faible charge.

Ollama supporte-t-il les modèles multimodaux (images) ?

Oui. Plusieurs modèles disponibles dans la bibliothèque Ollama supportent les entrées image :

ollama run llava - LLaVA (Language and Vision Assistant), le plus populaire

ollama run llava:34b - version 34B plus capable

ollama run bakllava - variante basée sur Mistral

Pour envoyer une image via l'API : ajoutez "images": ["<base64>"] dans le body de la requête. Open WebUI permet le glisser-déposer d'images directement dans le chat.

Ollama : Guide Complet d'Installation et d'Utilisation

Qu'est-ce qu'Ollama ?

Installation par système d'exploitation

macOS (Apple Silicon et Intel)

Option 1 - Homebrew (recommandé)

Option 2 - Application macOS (GUI)

Vérifier l'installation

Windows 10/11

Téléchargement et installation

Utilisation via PowerShell ou CMD

GPU NVIDIA sur Windows

Linux (Ubuntu, Debian, Fedora, Arch…)

Installation rapide (script officiel)

Gestion du service systemd

GPU NVIDIA sous Linux

Installation manuelle (sans script)

Premiers pas : lancer votre premier modèle

Commandes utiles dans le chat interactif

Lancer un modèle avec un prompt en ligne de commande

Référence complète des commandes Ollama

Options avancées pour ollama run

Variables d'environnement

Modèles populaires - démarrage rapide

Llama 3.1

Mistral

Code Llama

DeepSeek R1

nomic-embed-text

Gemma 3

Rechercher des modèles

Utilisation de l'API REST

API native - génération de texte

API native - mode chat (avec historique)

API compatible OpenAI

Utilisation avec la bibliothèque Python OpenAI

Embeddings via l'API

Endpoints disponibles

Modelfile - personnaliser et créer des modèles

Structure d'un Modelfile

Créer et utiliser un modèle personnalisé

Paramètres disponibles dans un Modelfile

Importer un modèle GGUF personnalisé

Intégration Open WebUI

Installation avec Docker (recommandée)

Installation sans Docker (pip)

Fonctionnalités notables d'Open WebUI

Optimisation des performances

Accélération GPU

Régler num_ctx (context window)

Régler num_gpu (couches GPU)

Parallélisme et concurrence

Benchmarks indicatifs (tokens/seconde)

Dépannage

Erreur : "could not connect to ollama server"

Erreur : "out of memory" ou "CUDA out of memory"

Le téléchargement d'un modèle s'arrête et ne reprend pas

GPU non détecté sur Linux (NVIDIA)

Réponses très lentes (moins de 5 tokens/seconde)

Port 11434 déjà utilisé

Modèle corrompu ou comportement erratique

FAQ

Options avancées pour `ollama run`

Régler `num_ctx` (context window)

Régler `num_gpu` (couches GPU)