Pourquoi un serveur LLM dédié ?
Un serveur LLM dédié permet de centraliser la puissance de calcul et d'y accéder depuis n'importe quel appareil du réseau (PC, téléphone, tablette). Plus besoin de charger le modèle sur chaque machine : le serveur répond aux requêtes de tous les clients simultanément. Cette approche est idéale pour les familles ou équipes qui veulent partager un LLM puissant. Un vieux PC recyclé avec une bonne GPU peut devenir un serveur LLM performant. Le serveur peut tourner en continu, permettant l'accès aux modèles à tout moment sans attente de chargement.
Choix du matériel
Pour un serveur LLM maison, privilegiez une alimentation redondante 80+ Gold pour l'efficacité énergétique sur 24h/7j. Un CPU moderne (même un i5/Ryzen 5 de 6e génération) suffit car le CPU n'est pas le goulot d'étranglement. 32 Go de RAM DDR4 est un minimum raisonnable pour le système et le cache. Pour le GPU, une RTX 3090 (24 Go) d'occasion offre l'excellent rapport puissance/prix pour un serveur. Un SSD NVMe rapide pour le système d'exploitation et les modèles évite les goulots d'étranglement I/O. Pensez à la dissipation thermique : un serveur qui tourne en continu doit avoir un refroidissement adéquat.
Installation d'Ubuntu Server
Ubuntu Server LTS (22.04 ou 24.04) est la distribution recommandée pour un serveur LLM : stable, bien documentée, excellente compatibilité CUDA. L'installation se fait depuis une clé USB bootable. Lors de la configuration, activez le serveur SSH pour l'administration à distance et configurez un IP statique sur votre réseau local (via le routeur en attribution DHCP fixe ou en IP statique sur l'interface réseau). Désactivez le mode veille du système pour que le serveur reste disponible en permanence. Configurez les mises à jour de sécurité automatiques (unattended-upgrades) dès l'installation.
Configuration d'Ollama en service système
Sur Ubuntu Server, Ollama peut être installé et configuré comme un service systemd qui démarre automatiquement. Par défaut, Ollama écoute uniquement sur localhost (127.0.0.1:11434). Pour l'exposer en réseau local, modifiez le fichier service systemd pour ajouter la variable OLLAMA_HOST=0.0.0.0:11434. Attention : n'exposez jamais Ollama directement sur internet sans authentification. Pour les membres de votre réseau local, une authentification basique via nginx suffit. Pour l'accès depuis internet, utilisez un VPN (WireGuard) ou un tunnel chiffré.
Nginx comme reverse proxy sécurisé
Nginx est le reverse proxy recommandé pour exposer Ollama avec authentification et HTTPS. Configurez un virtual host Nginx qui proxifie vers localhost:11434 avec une authentification HTTP basique via htpasswd. Pour le HTTPS, utilisez Let's Encrypt via Certbot si vous exposez sur un domaine public, ou des certificats auto-signés pour le réseau local. La configuration Nginx doit limiter les requêtes (rate limiting) pour éviter les abus. Ajoutez des headers de sécurité (HSTS, X-Frame-Options) pour renforcer la posture de sécurité.
Monitoring et maintenance
Prometheus et Grafana forment le duo standard pour monitorer votre serveur LLM : nvidia-smi-exporter pour les métriques GPU, node_exporter pour le système. Configurez des alertes sur la température GPU (seuil critique : 85°C) et l'utilisation disque. Un simple script cron de backup des modèles vers un NAS ou cloud évite de tout re-télécharger en cas de panne. Les logs Ollama sont dans `/var/log/ollama` : consultez-les régulièrement pour détecter des erreurs CUDA ou mémoire. Planifiez une maintenance mensuelle pour les mises à jour système et Ollama.
Étapes pratiques
-
Installer Ubuntu Server et Ollama
Installez Ubuntu Server 24.04 LTS, les drivers NVIDIA, puis Ollama.
{step.code} -
Configurer Ollama pour le réseau
Modifiez le service systemd pour exposer Ollama sur toutes les interfaces réseau.
{step.code} -
Installer et configurer Nginx
Installez Nginx et configurez un reverse proxy avec authentification HTTP basique.
{step.code} -
Ouvrir le firewall
Autorisez le trafic HTTP/HTTPS entrant dans le firewall Ubuntu.
{step.code} -
Tester depuis un autre appareil
Depuis un autre PC du réseau local, testez la connexion au serveur LLM.
{step.code} -
Connecter Open WebUI au serveur
Déployez Open WebUI sur un autre PC ou directement sur le serveur pour une interface graphique.
{step.code}