Qu'est-ce qu'Ollama ?

Ollama est un outil open source qui simplifie l'installation et l'exécution de grands modèles de langage (LLMs) en local sur votre machine. Il gère automatiquement le téléchargement des modèles, leur quantisation et leur exécution via une API REST locale. Contrairement aux solutions cloud comme ChatGPT ou Claude, Ollama fonctionne entièrement hors ligne, garantissant la confidentialité de vos données. C'est la porte d'entrée la plus simple pour explorer les LLMs open source comme Llama, Mistral ou Gemma.

Installation sur macOS

Sur macOS, Ollama s'installe en quelques clics via un package DMG disponible sur ollama.com. Il prend en charge nativement les puces Apple Silicon (M1, M2, M3, M4) via Metal GPU acceleration, offrant des performances excellentes sans configuration supplémentaire. Une fois installé, Ollama tourne en arrière-plan comme un service système accessible sur le port 11434. Vous pouvez vérifier son bon fonctionnement en ouvrant un terminal et en tapant `ollama list`.

Installation sur Windows

Sur Windows, Ollama est disponible via un installeur .exe qui configure automatiquement le service en arrière-plan. La version Windows supporte CUDA pour les GPU NVIDIA, permettant d'accélérer considérablement l'inférence. Il est recommandé d'avoir Windows 10 ou 11 à jour ainsi que les derniers drivers NVIDIA si vous disposez d'un GPU compatible. Après l'installation, Ollama apparaît dans la barre des tâches et démarre automatiquement avec Windows.

Télécharger votre premier modèle

Une fois Ollama installé, télécharger un modèle se fait avec une simple commande dans le terminal : `ollama pull llama3.2`. Le modèle sera téléchargé depuis le registre officiel d'Ollama et stocké localement dans `~/.ollama/models`. Pour une première utilisation, nous recommandons `llama3.2:3b` (2 Go) sur les machines avec peu de RAM, ou `llama3.2:8b` (5 Go) pour de meilleures performances. Vous pouvez explorer tous les modèles disponibles sur ollama.com/library.

Utilisation de l'API REST locale

Ollama expose une API REST sur `http://localhost:11434` compatible avec le format OpenAI. Cela signifie que vous pouvez utiliser n'importe quelle application ou bibliothèque conçue pour l'API OpenAI simplement en changeant la base URL. La commande `ollama serve` démarre le serveur manuellement si le service n'est pas actif. Pour tester rapidement, vous pouvez utiliser `curl` ou un outil comme Open WebUI pour bénéficier d'une interface graphique.

Étapes pratiques

Télécharger Ollama

Rendez-vous sur ollama.com et téléchargez la version correspondant à votre système d'exploitation (macOS DMG ou Windows EXE).
```
{step.code}
```
Installer et démarrer le service

Lancez l'installeur et suivez les instructions. Ollama démarre automatiquement en arrière-plan. Vérifiez que le service tourne.
```
{step.code}
```
Télécharger un modèle

Utilisez la commande pull pour télécharger votre premier modèle. Commencez par un petit modèle pour tester.
```
{step.code}
```
Lancer une conversation

Démarrez une session interactive dans le terminal avec le modèle téléchargé.
```
{step.code}
```
Lister les modèles installés

Consultez la liste des modèles disponibles localement sur votre machine.
```
{step.code}
```
Utiliser l'API REST

Interrogez Ollama via l'API REST pour intégrer le modèle dans vos applications.
```
{step.code}
```

Qu'est-ce qu'Ollama ?

Installation sur macOS

Installation sur Windows

Télécharger votre premier modèle

Utilisation de l'API REST locale

Étapes pratiques

Télécharger Ollama

Installer et démarrer le service

Télécharger un modèle

Lancer une conversation

Lister les modèles installés

Utiliser l'API REST

Tutoriels similaires

LM Studio : guide complet pour débutants

llama.cpp : installation et utilisation

Open WebUI : créer une interface ChatGPT en local