LM Studio : Guide Complet pour Débutants
LM Studio est l'application la plus simple pour faire tourner des LLMs en local. Interface graphique, pas de ligne de commande, modèles téléchargeables en un clic. Ce guide couvre tout : installation, premier modèle, chat, et serveur API local.
1. Qu'est-ce que LM Studio ?
LM Studio est une application de bureau gratuite (lmstudio.ai) qui vous permet de télécharger et d'exécuter des grands modèles de langage (LLMs) directement sur votre ordinateur, sans aucune ligne de commande.
Contrairement aux outils comme Ollama qui se pilotent depuis un terminal, LM Studio offre une interface graphique complète : vous voyez, vous cliquez, vous chattez. C'est la solution idéale si vous voulez tester l'IA en local sans connaissances techniques.
Interface 100% graphique
Aucun terminal, aucune commande. Tout se fait via une interface moderne et intuitive.
Milliers de modèles
Accès direct à HuggingFace pour télécharger Llama, Mistral, Gemma, Qwen et bien d'autres.
Serveur API local
Lance un serveur compatible API OpenAI pour connecter vos applications locales.
100% privé
Tout tourne en local. Vos conversations ne quittent jamais votre machine.
2. Téléchargement et installation
LM Studio est disponible sur les trois grandes plateformes. Rendez-vous sur lmstudio.ai et cliquez sur le bouton de téléchargement correspondant à votre système.
Windows
Stable- Téléchargez le fichier
.exedepuis lmstudio.ai - Double-cliquez sur l'installeur
- Suivez l'assistant d'installation (Next → Next → Install)
- LM Studio se lance automatiquement
macOS
Stable- Téléchargez le fichier
.dmgdepuis lmstudio.ai - Ouvrez le DMG et glissez LM Studio dans
Applications - Au premier lancement, clic droit → Ouvrir (si Gatekeeper bloque)
- Autorisez l'accès au dossier Téléchargements si demandé
Linux
Bêta- Téléchargez le fichier
.AppImagedepuis lmstudio.ai - Rendez-le exécutable :
chmod +x LM_Studio*.AppImage - Lancez-le :
./LM_Studio*.AppImage - Optionnel : intégrez au menu applications via AppImageLauncher
3. Vue d'ensemble de l'interface
LM Studio s'organise autour de 4 sections principales accessibles via la barre latérale gauche.
Discover (Loupe)
Le moteur de recherche intégré pour parcourir et télécharger des modèles depuis HuggingFace. Filtrez par taille, famille, quantification. Chaque modèle affiche sa taille et les exigences mémoire.
Chat (Bulle)
L'interface de conversation principale. Chargez un modèle, définissez un system prompt, réglez les paramètres (température, contexte, top-p) et discutez. Supporte le multi-conversation avec historique.
Local Server (Serveur)
Lance un serveur HTTP local compatible API OpenAI sur http://localhost:1234. Permet à n'importe quelle application qui supporte OpenAI de parler à votre modèle local : Continue, Open WebUI, vos scripts Python...
My Models (Dossier)
Bibliothèque de tous les modèles téléchargés. Affiche la taille, le chemin sur disque, et permet de supprimer les modèles inutiles pour libérer de l'espace. Vous pouvez aussi importer des fichiers GGUF locaux.
4. Télécharger votre premier modèle
Voici la procédure étape par étape pour télécharger et charger votre premier modèle dans LM Studio.
Ouvrez la section Discover
Cliquez sur l'icône loupe dans la barre latérale gauche. Un champ de recherche s'affiche en haut de l'écran.
Recherchez un modèle
Tapez par exemple llama 3.2 ou mistral ou gemma 3. LM Studio interroge HuggingFace en temps réel et affiche les résultats triés par popularité.
Llama-3.2-3B-Instruct - 3 milliards de paramètres, tourne sur presque toutes les machines, très bon rapport qualité/vitesse.
Choisissez la quantification
Cliquez sur le modèle dans les résultats. Une liste de fichiers apparaît, avec différentes quantifications :
Q2_K Faible Très petite RAM limitée (<8 Go) Q4_K_M Bonne Moyenne Usage général - recommandé Q6_K Excellente Grande GPU puissant (12+ Go VRAM) Q8_0 Quasi-maximale Très grande GPU haut de gamme Commencez avec Q4_K_M - c'est le meilleur compromis taille / qualité pour la plupart des setups.
Lancez le téléchargement
Cliquez sur le bouton Download à droite du fichier choisi. Une barre de progression apparaît. Le fichier est sauvegardé dans le dossier ~/LM Studio/models/.
Chargez le modèle en mémoire
Une fois téléchargé, allez dans la section Chat. En haut de l'écran, un menu déroulant "Select a model to load" apparaît. Cliquez dessus, choisissez votre modèle, et attendez quelques secondes qu'il se charge en RAM/VRAM.
Un indicateur vert dans la barre d'état confirme que le modèle est chargé et prêt.
5. Interface de chat : guide complet
L'interface de chat de LM Studio est divisée en trois zones principales : la liste des conversations (gauche), la zone de messages (centre), et le panneau de configuration (droite).
System Prompt
Le system prompt est le message d'instruction qui définit le comportement du modèle pour toute la conversation. Il est invisible dans le chat mais traité en premier par le LLM.
Tu es un assistant expert en programmation Python. Réponds toujours en français. Fournis du code commenté et des explications claires. Si une question est hors sujet, redirige poliment vers la programmation.
Vous pouvez laisser le system prompt vide pour un comportement par défaut, ou utiliser les présets fournis par LM Studio (Assistant, Coding, Creative Writing...).
Paramètres de génération
Contrôle la créativité. Proche de 0 = réponses prévisibles et factuelles. Proche de 1-2 = réponses plus créatives mais moins cohérentes. Pour du code : 0.1–0.3. Pour de l'écriture créative : 0.8–1.2.
Taille de la fenêtre de contexte. Plus grand = conversation plus longue mémorisée, mais plus de VRAM/RAM consommée. Commencez avec 4096, augmentez si besoin.
Filtre les tokens selon leur probabilité cumulée. À 0.9 : seuls les tokens représentant 90% de la probabilité sont considérés. Interagit avec la température - ne modifiez qu'un des deux à la fois.
Limite le choix aux K tokens les plus probables à chaque étape. Valeur basse = plus déterministe. Valeur élevée = plus de diversité.
Pénalise la répétition de tokens déjà utilisés. À 1.0 = aucune pénalité. Augmentez si le modèle boucle ou se répète trop.
Nombre maximum de tokens générés par réponse. Utile pour éviter des réponses infinies. Laissez à -1 pour que le modèle s'arrête lui-même.
Gestion des conversations
Chaque conversation est sauvegardée automatiquement dans la liste de gauche. Vous pouvez :
- Créer une nouvelle conversation avec le bouton +
- Renommer une conversation via un clic droit
- Supprimer ou exporter l'historique (format JSON ou Markdown)
- Régénérer la dernière réponse avec le bouton de rechargement
- Éditer un message envoyé et relancer la génération
6. Serveur local compatible OpenAI
L'une des fonctionnalités les plus puissantes de LM Studio est son serveur local. Il expose une API REST compatible avec l'API OpenAI, ce qui signifie que tout outil conçu pour ChatGPT peut être redirigé vers votre modèle local.
Démarrer le serveur
Cliquez sur Local Server dans la barre latérale (icône serveur)
Sélectionnez un modèle chargé dans le menu déroulant
Cliquez sur Start Server - le serveur démarre sur http://localhost:1234
Utilisation avec Python
from openai import OpenAI
# Pointe vers LM Studio au lieu d'OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lm-studio" # Valeur arbitraire, non vérifiée
)
response = client.chat.completions.create(
model="lmstudio-community/Meta-Llama-3.2-3B-Instruct-GGUF",
messages=[
{"role": "system", "content": "Tu es un assistant utile."},
{"role": "user", "content": "Explique-moi les transformers en 3 phrases."}
],
temperature=0.7,
)
print(response.choices[0].message.content) Endpoints disponibles
GET /v1/models Liste les modèles chargés POST /v1/chat/completions Chat completion (streaming supporté) POST /v1/completions Text completion classique POST /v1/embeddings Génération d'embeddings (modèles embedding requis) Applications compatibles
7. Réglages de performance
LM Studio expose plusieurs paramètres qui influencent directement la vitesse et la qualité de l'inférence. Ils sont accessibles dans le panneau de droite ou dans les paramètres du modèle.
GPU Layers (n_gpu_layers)
Nombre de couches du modèle chargées en VRAM (GPU) plutôt qu'en RAM (CPU). Plus ce nombre est élevé, plus la génération est rapide, mais plus vous avez besoin de VRAM.
Context Size (n_ctx)
Longueur maximale du contexte en tokens (entrée + sortie combinées). Un contexte plus grand consomme plus de mémoire - la relation est approximativement linéaire.
Batch Size (n_batch)
Nombre de tokens traités en parallèle lors du prétraitement du prompt. Une valeur plus élevée accélère le "time to first token" mais consomme plus de mémoire.
CPU Threads
Nombre de threads CPU utilisés. En mode CPU pur ou hybride, ce paramètre impacte directement la vitesse. Réglez-le à la moitié de vos coeurs physiques (pas logiques) pour de meilleurs résultats.
8. Modèles recommandés pour LM Studio
Voici une sélection de modèles performants, bien supportés par LM Studio, avec leurs identifiants HuggingFace pour les retrouver facilement dans la section Discover.
| Modèle | Taille | VRAM min. | Points forts | HuggingFace ID |
|---|---|---|---|---|
| Llama 3.2 3B Instruct | 3B | 2–3 Go | Ultra-léger, débutant, rapide | lmstudio-community/Meta-Llama-3.2-3B-Instruct-GGUF |
| Llama 3.1 8B Instruct | 8B | 5–6 Go | Excellent généraliste, multilingue | lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF |
| Mistral 7B Instruct v0.3 | 7B | 5 Go | Rapide, efficace, bon en français | lmstudio-community/Mistral-7B-Instruct-v0.3-GGUF |
| Gemma 3 4B Instruct | 4B | 3 Go | Google, très bon rapport qualité/taille | lmstudio-community/gemma-3-4b-it-GGUF |
| Qwen2.5 7B Instruct | 7B | 5 Go | Excellent en code, multilingue fort | lmstudio-community/Qwen2.5-7B-Instruct-GGUF |
| Phi-4 Mini Instruct | 3.8B | 3 Go | Microsoft, surprenant pour sa taille | lmstudio-community/Phi-4-mini-instruct-GGUF |
| DeepSeek-R1 7B | 7B | 5 Go | Raisonnement, maths, logique | lmstudio-community/DeepSeek-R1-Distill-Qwen-7B-GGUF |
| Llama 3.3 70B Instruct | 70B | 40+ Go | Qualité maximale locale, GPU haut de gamme | lmstudio-community/Llama-3.3-70B-Instruct-GGUF |
9. LM Studio vs Ollama : lequel choisir ?
LM Studio et Ollama sont les deux outils les plus populaires pour faire tourner des LLMs en local. Ils ne s'adressent pas aux mêmes profils.
| Critère | LM Studio | Ollama |
|---|---|---|
| Interface | GUI complète, intuitive | Terminal uniquement (+ Open WebUI séparé) |
| Facilité d'installation | Très facile (installeur .exe/.dmg) | Facile (une commande curl ou installeur) |
| Courbe d'apprentissage | Faible - débutants welcome | Légère - quelques commandes à mémoriser |
| Sélection de modèles | HuggingFace complet (milliers de GGUF) | Bibliothèque officielle + imports GGUF |
| Serveur API | Intégré, compatible OpenAI | Intégré par défaut, compatible OpenAI |
| Consommation ressources | Plus élevée (GUI Electron) | Légère (daemon minimaliste) |
| Automatisation | Limitée (via API) | Excellente (scripting, services, Docker) |
| Contrôle fin des paramètres | Panneau visuel complet | Via Modelfile ou API |
| Usage hors-ligne | Oui (après téléchargement) | Oui (après pull) |
| Multiplateforme | Windows, macOS, Linux (bêta) | Windows, macOS, Linux (stable) |
Choisissez LM Studio si...
- Vous débutez avec les LLMs locaux
- Vous préférez une interface graphique
- Vous voulez tester beaucoup de modèles différents
- Vous avez besoin de régler finement les paramètres visuellement
- Vous n'êtes pas à l'aise avec le terminal
Choisissez Ollama si...
- Vous êtes développeur et à l'aise en ligne de commande
- Vous voulez intégrer un LLM dans des scripts ou CI/CD
- Vous tournez sur un serveur sans interface graphique
- Vous voulez minimiser l'empreinte mémoire
- Vous avez besoin d'un service démarrant automatiquement
Prêt à aller plus loin ?
Explorez notre guide Ollama pour la ligne de commande, ou comparez les modèles disponibles pour votre configuration.