Pourquoi un serveur LLM dédié ?

Un serveur LLM dédié permet de centraliser la puissance de calcul et d'y accéder depuis n'importe quel appareil du réseau (PC, téléphone, tablette). Plus besoin de charger le modèle sur chaque machine : le serveur répond aux requêtes de tous les clients simultanément. Cette approche est idéale pour les familles ou équipes qui veulent partager un LLM puissant. Un vieux PC recyclé avec une bonne GPU peut devenir un serveur LLM performant. Le serveur peut tourner en continu, permettant l'accès aux modèles à tout moment sans attente de chargement.

Choix du matériel

Pour un serveur LLM maison, privilegiez une alimentation redondante 80+ Gold pour l'efficacité énergétique sur 24h/7j. Un CPU moderne (même un i5/Ryzen 5 de 6e génération) suffit car le CPU n'est pas le goulot d'étranglement. 32 Go de RAM DDR4 est un minimum raisonnable pour le système et le cache. Pour le GPU, une RTX 3090 (24 Go) d'occasion offre l'excellent rapport puissance/prix pour un serveur. Un SSD NVMe rapide pour le système d'exploitation et les modèles évite les goulots d'étranglement I/O. Pensez à la dissipation thermique : un serveur qui tourne en continu doit avoir un refroidissement adéquat.

Installation d'Ubuntu Server

Ubuntu Server LTS (22.04 ou 24.04) est la distribution recommandée pour un serveur LLM : stable, bien documentée, excellente compatibilité CUDA. L'installation se fait depuis une clé USB bootable. Lors de la configuration, activez le serveur SSH pour l'administration à distance et configurez un IP statique sur votre réseau local (via le routeur en attribution DHCP fixe ou en IP statique sur l'interface réseau). Désactivez le mode veille du système pour que le serveur reste disponible en permanence. Configurez les mises à jour de sécurité automatiques (unattended-upgrades) dès l'installation.

Configuration d'Ollama en service système

Sur Ubuntu Server, Ollama peut être installé et configuré comme un service systemd qui démarre automatiquement. Par défaut, Ollama écoute uniquement sur localhost (127.0.0.1:11434). Pour l'exposer en réseau local, modifiez le fichier service systemd pour ajouter la variable OLLAMA_HOST=0.0.0.0:11434. Attention : n'exposez jamais Ollama directement sur internet sans authentification. Pour les membres de votre réseau local, une authentification basique via nginx suffit. Pour l'accès depuis internet, utilisez un VPN (WireGuard) ou un tunnel chiffré.

Nginx comme reverse proxy sécurisé

Nginx est le reverse proxy recommandé pour exposer Ollama avec authentification et HTTPS. Configurez un virtual host Nginx qui proxifie vers localhost:11434 avec une authentification HTTP basique via htpasswd. Pour le HTTPS, utilisez Let's Encrypt via Certbot si vous exposez sur un domaine public, ou des certificats auto-signés pour le réseau local. La configuration Nginx doit limiter les requêtes (rate limiting) pour éviter les abus. Ajoutez des headers de sécurité (HSTS, X-Frame-Options) pour renforcer la posture de sécurité.

Monitoring et maintenance

Prometheus et Grafana forment le duo standard pour monitorer votre serveur LLM : nvidia-smi-exporter pour les métriques GPU, node_exporter pour le système. Configurez des alertes sur la température GPU (seuil critique : 85°C) et l'utilisation disque. Un simple script cron de backup des modèles vers un NAS ou cloud évite de tout re-télécharger en cas de panne. Les logs Ollama sont dans `/var/log/ollama` : consultez-les régulièrement pour détecter des erreurs CUDA ou mémoire. Planifiez une maintenance mensuelle pour les mises à jour système et Ollama.

Étapes pratiques

Installer Ubuntu Server et Ollama

Installez Ubuntu Server 24.04 LTS, les drivers NVIDIA, puis Ollama.
```
{step.code}
```
Configurer Ollama pour le réseau

Modifiez le service systemd pour exposer Ollama sur toutes les interfaces réseau.
```
{step.code}
```
Installer et configurer Nginx

Installez Nginx et configurez un reverse proxy avec authentification HTTP basique.
```
{step.code}
```
Ouvrir le firewall

Autorisez le trafic HTTP/HTTPS entrant dans le firewall Ubuntu.
```
{step.code}
```
Tester depuis un autre appareil

Depuis un autre PC du réseau local, testez la connexion au serveur LLM.
```
{step.code}
```
Connecter Open WebUI au serveur

Déployez Open WebUI sur un autre PC ou directement sur le serveur pour une interface graphique.
```
{step.code}
```

Pourquoi un serveur LLM dédié ?

Choix du matériel

Installation d'Ubuntu Server

Configuration d'Ollama en service système

Nginx comme reverse proxy sécurisé

Monitoring et maintenance

Étapes pratiques

Installer Ubuntu Server et Ollama

Configurer Ollama pour le réseau

Installer et configurer Nginx

Ouvrir le firewall

Tester depuis un autre appareil

Connecter Open WebUI au serveur

Tutoriels similaires

Configurer son GPU NVIDIA pour les LLMs (CUDA)

Quel GPU acheter pour faire tourner des LLMs en local ?

M1/M2/M3/M4 : les meilleurs LLMs pour Apple Silicon