Présentation de LM Studio

LM Studio est une application de bureau gratuite disponible sur macOS, Windows et Linux qui permet de télécharger et d'exécuter des LLMs en local avec une interface graphique intuitive. Elle intègre llama.cpp en arrière-plan pour l'inférence et se connecte directement à HuggingFace pour télécharger des modèles au format GGUF. Son interface rappelle ChatGPT, ce qui la rend accessible aux non-développeurs. LM Studio propose également un serveur local compatible avec l'API OpenAI, idéal pour connecter des outils tiers.

Installation et configuration initiale

L'installation de LM Studio se fait via un simple installeur disponible sur lmstudio.ai. Sur macOS avec Apple Silicon, l'application est optimisée pour utiliser le GPU Metal, offrant d'excellentes performances. Lors du premier lancement, LM Studio vous propose un tutoriel guidé et configure automatiquement les paramètres selon votre matériel détecté (RAM disponible, GPU présent). Il est conseillé d'allouer suffisamment d'espace disque, car les modèles peuvent peser de 2 à 30 Go chacun.

Rechercher et télécharger des modèles

L'onglet de recherche de LM Studio se connecte à HuggingFace et filtre automatiquement les modèles compatibles avec votre configuration matérielle. Vous pouvez filtrer par taille, quantisation ou popularité pour trouver le modèle adapté à votre usage. LM Studio affiche clairement la quantité de VRAM et de RAM nécessaires pour chaque variante, ce qui simplifie le choix. Les téléchargements reprennent automatiquement en cas d'interruption réseau.

Utiliser le serveur local compatible OpenAI

LM Studio intègre un serveur HTTP local accessible sur le port 1234, dont l'API est entièrement compatible avec celle d'OpenAI. Cette compatibilité permet de pointer n'importe quelle application conçue pour GPT-4 vers votre machine locale en changeant simplement la base URL et en supprimant la clé API. Le serveur supporte le streaming, les messages système, et peut gérer plusieurs requêtes simultanées selon la puissance de votre machine. C'est la solution idéale pour tester des applications LLM sans frais d'API.

Optimiser les paramètres d'inférence

LM Studio expose tous les hyperparamètres d'inférence de llama.cpp : température, top-p, top-k, répétition penalty, et le nombre de couches GPU (n_gpu_layers). Le paramètre le plus important est n_gpu_layers : plus vous en offloadez sur le GPU, plus l'inférence est rapide. Si votre modèle dépasse la VRAM disponible, LM Studio peut faire du split GPU/CPU mais au prix d'une latence accrue. Expérimentez avec une température de 0.7 et un contexte de 4096 tokens pour commencer.

Étapes pratiques

  1. Télécharger LM Studio

    Rendez-vous sur lmstudio.ai et téléchargez la version pour votre système d'exploitation. L'application est disponible pour macOS (Apple Silicon et Intel), Windows et Linux.

  2. Installer l'application

    Lancez l'installeur. Sur macOS, glissez LM Studio dans le dossier Applications. Sur Windows, suivez l'assistant d'installation standard.

  3. Rechercher un modèle

    Dans l'onglet Discover (icône loupe), recherchez un modèle. Pour débuter, tapez 'llama 3.2' ou 'mistral 7b' et choisissez une variante Q4_K_M pour un bon équilibre qualité/taille.

  4. Télécharger le modèle

    Cliquez sur le modèle souhaité puis sur le bouton de téléchargement. Attendez la fin du téléchargement (quelques minutes selon votre connexion et la taille du modèle).

  5. Charger le modèle et démarrer un chat

    Dans l'onglet Chat, sélectionnez votre modèle dans le menu déroulant en haut. LM Studio le charge en mémoire, puis vous pouvez commencer à chatter directement.

  6. Activer le serveur local

    Dans l'onglet Local Server, cliquez sur Start Server. Le serveur démarre sur http://localhost:1234 avec une API compatible OpenAI.

    {step.code}
  7. Connecter une application tierce

    Configurez votre application (Continue.dev, TypingMind, etc.) avec la base URL http://localhost:1234/v1 et une clé API fictive (ex: 'lm-studio').

    {step.code}