Qu'est-ce qu'Ollama ?
Ollama est un outil open source qui simplifie l'installation et l'exécution de grands modèles de langage (LLMs) en local sur votre machine. Il gère automatiquement le téléchargement des modèles, leur quantisation et leur exécution via une API REST locale. Contrairement aux solutions cloud comme ChatGPT ou Claude, Ollama fonctionne entièrement hors ligne, garantissant la confidentialité de vos données. C'est la porte d'entrée la plus simple pour explorer les LLMs open source comme Llama, Mistral ou Gemma.
Installation sur macOS
Sur macOS, Ollama s'installe en quelques clics via un package DMG disponible sur ollama.com. Il prend en charge nativement les puces Apple Silicon (M1, M2, M3, M4) via Metal GPU acceleration, offrant des performances excellentes sans configuration supplémentaire. Une fois installé, Ollama tourne en arrière-plan comme un service système accessible sur le port 11434. Vous pouvez vérifier son bon fonctionnement en ouvrant un terminal et en tapant `ollama list`.
Installation sur Windows
Sur Windows, Ollama est disponible via un installeur .exe qui configure automatiquement le service en arrière-plan. La version Windows supporte CUDA pour les GPU NVIDIA, permettant d'accélérer considérablement l'inférence. Il est recommandé d'avoir Windows 10 ou 11 à jour ainsi que les derniers drivers NVIDIA si vous disposez d'un GPU compatible. Après l'installation, Ollama apparaît dans la barre des tâches et démarre automatiquement avec Windows.
Télécharger votre premier modèle
Une fois Ollama installé, télécharger un modèle se fait avec une simple commande dans le terminal : `ollama pull llama3.2`. Le modèle sera téléchargé depuis le registre officiel d'Ollama et stocké localement dans `~/.ollama/models`. Pour une première utilisation, nous recommandons `llama3.2:3b` (2 Go) sur les machines avec peu de RAM, ou `llama3.2:8b` (5 Go) pour de meilleures performances. Vous pouvez explorer tous les modèles disponibles sur ollama.com/library.
Utilisation de l'API REST locale
Ollama expose une API REST sur `http://localhost:11434` compatible avec le format OpenAI. Cela signifie que vous pouvez utiliser n'importe quelle application ou bibliothèque conçue pour l'API OpenAI simplement en changeant la base URL. La commande `ollama serve` démarre le serveur manuellement si le service n'est pas actif. Pour tester rapidement, vous pouvez utiliser `curl` ou un outil comme Open WebUI pour bénéficier d'une interface graphique.
Étapes pratiques
-
Télécharger Ollama
Rendez-vous sur ollama.com et téléchargez la version correspondant à votre système d'exploitation (macOS DMG ou Windows EXE).
{step.code} -
Installer et démarrer le service
Lancez l'installeur et suivez les instructions. Ollama démarre automatiquement en arrière-plan. Vérifiez que le service tourne.
{step.code} -
Télécharger un modèle
Utilisez la commande pull pour télécharger votre premier modèle. Commencez par un petit modèle pour tester.
{step.code} -
Lancer une conversation
Démarrez une session interactive dans le terminal avec le modèle téléchargé.
{step.code} -
Lister les modèles installés
Consultez la liste des modèles disponibles localement sur votre machine.
{step.code} -
Utiliser l'API REST
Interrogez Ollama via l'API REST pour intégrer le modèle dans vos applications.
{step.code}