Guide débutant

LM Studio : Guide Complet pour Débutants

LM Studio est l'application la plus simple pour faire tourner des LLMs en local. Interface graphique, pas de ligne de commande, modèles téléchargeables en un clic. Ce guide couvre tout : installation, premier modèle, chat, et serveur API local.

20 min de lecture Niveau débutant Windows · macOS · Linux

1. Qu'est-ce que LM Studio ?

LM Studio est une application de bureau gratuite (lmstudio.ai) qui vous permet de télécharger et d'exécuter des grands modèles de langage (LLMs) directement sur votre ordinateur, sans aucune ligne de commande.

Contrairement aux outils comme Ollama qui se pilotent depuis un terminal, LM Studio offre une interface graphique complète : vous voyez, vous cliquez, vous chattez. C'est la solution idéale si vous voulez tester l'IA en local sans connaissances techniques.

Interface 100% graphique

Aucun terminal, aucune commande. Tout se fait via une interface moderne et intuitive.

Milliers de modèles

Accès direct à HuggingFace pour télécharger Llama, Mistral, Gemma, Qwen et bien d'autres.

Serveur API local

Lance un serveur compatible API OpenAI pour connecter vos applications locales.

100% privé

Tout tourne en local. Vos conversations ne quittent jamais votre machine.

Configuration minimale recommandée : 8 Go de RAM (16 Go conseillés), GPU avec 6 Go de VRAM pour les petits modèles, 20 Go d'espace disque libre. LM Studio fonctionne aussi sans GPU (mode CPU uniquement), mais c'est plus lent.

2. Téléchargement et installation

LM Studio est disponible sur les trois grandes plateformes. Rendez-vous sur lmstudio.ai et cliquez sur le bouton de téléchargement correspondant à votre système.

Windows

Stable

Téléchargez le fichier .exe depuis lmstudio.ai
Double-cliquez sur l'installeur
Suivez l'assistant d'installation (Next → Next → Install)
LM Studio se lance automatiquement

Compatible Windows 10 et Windows 11 (64 bits). Support GPU Nvidia CUDA et AMD ROCm.

macOS

Stable

Téléchargez le fichier .dmg depuis lmstudio.ai
Ouvrez le DMG et glissez LM Studio dans Applications
Au premier lancement, clic droit → Ouvrir (si Gatekeeper bloque)
Autorisez l'accès au dossier Téléchargements si demandé

Compatible macOS 12+. Support natif Apple Silicon (M1/M2/M3/M4) via Metal - très performant.

Linux

Bêta

Téléchargez le fichier .AppImage depuis lmstudio.ai
Rendez-le exécutable : chmod +x LM_Studio*.AppImage
Lancez-le : ./LM_Studio*.AppImage
Optionnel : intégrez au menu applications via AppImageLauncher

Support GPU Nvidia CUDA. La version Linux est en bêta active - fonctionnelle mais quelques bugs possibles.

3. Vue d'ensemble de l'interface

LM Studio s'organise autour de 4 sections principales accessibles via la barre latérale gauche.

Discover (Loupe)

Le moteur de recherche intégré pour parcourir et télécharger des modèles depuis HuggingFace. Filtrez par taille, famille, quantification. Chaque modèle affiche sa taille et les exigences mémoire.

C'est ici que vous commencez - cherchez un modèle et téléchargez-le.

Chat (Bulle)

L'interface de conversation principale. Chargez un modèle, définissez un system prompt, réglez les paramètres (température, contexte, top-p) et discutez. Supporte le multi-conversation avec historique.

L'équivalent de ChatGPT, mais sur votre machine.

Local Server (Serveur)

Lance un serveur HTTP local compatible API OpenAI sur http://localhost:1234. Permet à n'importe quelle application qui supporte OpenAI de parler à votre modèle local : Continue, Open WebUI, vos scripts Python...

Indispensable pour intégrer LM Studio dans vos outils.

My Models (Dossier)

Bibliothèque de tous les modèles téléchargés. Affiche la taille, le chemin sur disque, et permet de supprimer les modèles inutiles pour libérer de l'espace. Vous pouvez aussi importer des fichiers GGUF locaux.

Gérez votre collection de modèles et l'espace disque depuis ici.

Capture : interface principale LM Studio avec la barre latérale et les 4 sections

Barre latérale gauche (icônes) · Zone centrale (contenu actif) · Panneau droit (paramètres modèle)

4. Télécharger votre premier modèle

Voici la procédure étape par étape pour télécharger et charger votre premier modèle dans LM Studio.

Ouvrez la section Discover

Cliquez sur l'icône loupe dans la barre latérale gauche. Un champ de recherche s'affiche en haut de l'écran.

Recherchez un modèle

Tapez par exemple llama 3.2 ou mistral ou gemma 3. LM Studio interroge HuggingFace en temps réel et affiche les résultats triés par popularité.

Pour commencer : cherchez Llama-3.2-3B-Instruct - 3 milliards de paramètres, tourne sur presque toutes les machines, très bon rapport qualité/vitesse.

Choisissez la quantification

Cliquez sur le modèle dans les résultats. Une liste de fichiers apparaît, avec différentes quantifications :

Q2_K Faible Très petite RAM limitée (<8 Go)

Q4_K_M Bonne Moyenne Usage général - recommandé

Q6_K Excellente Grande GPU puissant (12+ Go VRAM)

Q8_0 Quasi-maximale Très grande GPU haut de gamme

Commencez avec Q4_K_M - c'est le meilleur compromis taille / qualité pour la plupart des setups.

Lancez le téléchargement

Cliquez sur le bouton Download à droite du fichier choisi. Une barre de progression apparaît. Le fichier est sauvegardé dans le dossier ~/LM Studio/models/.

Le téléchargement peut prendre plusieurs minutes selon votre connexion. Un modèle 3B en Q4 pèse environ 2 Go. Un 7B pèse ~4 Go, un 13B ~8 Go.

Chargez le modèle en mémoire

Une fois téléchargé, allez dans la section Chat. En haut de l'écran, un menu déroulant "Select a model to load" apparaît. Cliquez dessus, choisissez votre modèle, et attendez quelques secondes qu'il se charge en RAM/VRAM.

Un indicateur vert dans la barre d'état confirme que le modèle est chargé et prêt.

5. Interface de chat : guide complet

L'interface de chat de LM Studio est divisée en trois zones principales : la liste des conversations (gauche), la zone de messages (centre), et le panneau de configuration (droite).

System Prompt

Le system prompt est le message d'instruction qui définit le comportement du modèle pour toute la conversation. Il est invisible dans le chat mais traité en premier par le LLM.

Exemple de system prompt

Tu es un assistant expert en programmation Python. Réponds toujours en français. Fournis du code commenté et des explications claires. Si une question est hors sujet, redirige poliment vers la programmation.

Vous pouvez laisser le system prompt vide pour un comportement par défaut, ou utiliser les présets fournis par LM Studio (Assistant, Coding, Creative Writing...).

Paramètres de génération

Température

0.0 - 2.0 · Défaut : 0.7

Contrôle la créativité. Proche de 0 = réponses prévisibles et factuelles. Proche de 1-2 = réponses plus créatives mais moins cohérentes. Pour du code : 0.1–0.3. Pour de l'écriture créative : 0.8–1.2.

Context Length

512 - 131072 tokens selon le modèle

Taille de la fenêtre de contexte. Plus grand = conversation plus longue mémorisée, mais plus de VRAM/RAM consommée. Commencez avec 4096, augmentez si besoin.

Top-P (nucleus sampling)

0.0 - 1.0 · Défaut : 0.9

Filtre les tokens selon leur probabilité cumulée. À 0.9 : seuls les tokens représentant 90% de la probabilité sont considérés. Interagit avec la température - ne modifiez qu'un des deux à la fois.

Top-K

1 - 200 · Défaut : 40

Limite le choix aux K tokens les plus probables à chaque étape. Valeur basse = plus déterministe. Valeur élevée = plus de diversité.

Repeat Penalty

1.0 - 2.0 · Défaut : 1.1

Pénalise la répétition de tokens déjà utilisés. À 1.0 = aucune pénalité. Augmentez si le modèle boucle ou se répète trop.

Max Tokens

-1 (illimité) ou valeur fixe

Nombre maximum de tokens générés par réponse. Utile pour éviter des réponses infinies. Laissez à -1 pour que le modèle s'arrête lui-même.

Gestion des conversations

Chaque conversation est sauvegardée automatiquement dans la liste de gauche. Vous pouvez :

Créer une nouvelle conversation avec le bouton +
Renommer une conversation via un clic droit
Supprimer ou exporter l'historique (format JSON ou Markdown)
Régénérer la dernière réponse avec le bouton de rechargement
Éditer un message envoyé et relancer la génération

6. Serveur local compatible OpenAI

L'une des fonctionnalités les plus puissantes de LM Studio est son serveur local. Il expose une API REST compatible avec l'API OpenAI, ce qui signifie que tout outil conçu pour ChatGPT peut être redirigé vers votre modèle local.

Démarrer le serveur

Cliquez sur Local Server dans la barre latérale (icône serveur)

Sélectionnez un modèle chargé dans le menu déroulant

Cliquez sur Start Server - le serveur démarre sur http://localhost:1234

Utilisation avec Python

Python - Connexion à LM Studio via openai SDK

from openai import OpenAI

# Pointe vers LM Studio au lieu d'OpenAI
client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio"  # Valeur arbitraire, non vérifiée
)

response = client.chat.completions.create(
    model="lmstudio-community/Meta-Llama-3.2-3B-Instruct-GGUF",
    messages=[
        {"role": "system", "content": "Tu es un assistant utile."},
        {"role": "user", "content": "Explique-moi les transformers en 3 phrases."}
    ],
    temperature=0.7,
)

print(response.choices[0].message.content)

Endpoints disponibles

GET /v1/models Liste les modèles chargés

POST /v1/chat/completions Chat completion (streaming supporté)

POST /v1/completions Text completion classique

POST /v1/embeddings Génération d'embeddings (modèles embedding requis)

Applications compatibles

Continue Extension VS Code pour l'autocomplétion

Open WebUI Interface web complète pour LLMs

Cursor IDE IA (via paramètres OpenAI custom)

n8n Automatisation avec noeud OpenAI

LangChain Framework agents et RAG

Anything LLM RAG sur vos documents

7. Réglages de performance

LM Studio expose plusieurs paramètres qui influencent directement la vitesse et la qualité de l'inférence. Ils sont accessibles dans le panneau de droite ou dans les paramètres du modèle.

GPU Layers (n_gpu_layers)

Nombre de couches du modèle chargées en VRAM (GPU) plutôt qu'en RAM (CPU). Plus ce nombre est élevé, plus la génération est rapide, mais plus vous avez besoin de VRAM.

-1 ou Maximum : Tout en GPU - le plus rapide si vous avez assez de VRAM

0 : Mode CPU pur - lent mais fonctionne sans GPU

Valeur intermédiaire : Mode hybride CPU/GPU - utile si la VRAM est insuffisante pour tout charger

Règle pratique : Augmentez GPU Layers jusqu'à ce que LM Studio indique une erreur de mémoire, puis reculez d'une valeur.

Context Size (n_ctx)

Longueur maximale du contexte en tokens (entrée + sortie combinées). Un contexte plus grand consomme plus de mémoire - la relation est approximativement linéaire.

2048 : Conversations courtes, faible empreinte mémoire

4096 : Usage général - bon compromis (recommandé)

8192+ : Documents longs, code volumineux - nécessite plus de RAM

Batch Size (n_batch)

Nombre de tokens traités en parallèle lors du prétraitement du prompt. Une valeur plus élevée accélère le "time to first token" mais consomme plus de mémoire.

128–256 : Machines avec peu de RAM/VRAM

512 : Valeur par défaut, bon équilibre

1024–2048 : GPU puissant, prompts longs fréquents

CPU Threads

Nombre de threads CPU utilisés. En mode CPU pur ou hybride, ce paramètre impacte directement la vitesse. Réglez-le à la moitié de vos coeurs physiques (pas logiques) pour de meilleurs résultats.

Auto : LM Studio détecte automatiquement - généralement bon

Manuel : Si le CPU est surchargé, baissez pour laisser de la place aux autres apps

Surveiller la mémoire : LM Studio affiche la consommation RAM/VRAM en bas de l'interface. Si vous dépassez la mémoire disponible, le modèle sera déchargé partiellement sur le CPU ou plantera. Commencez avec un petit modèle et augmentez progressivement.

8. Modèles recommandés pour LM Studio

Voici une sélection de modèles performants, bien supportés par LM Studio, avec leurs identifiants HuggingFace pour les retrouver facilement dans la section Discover.

Modèle	Taille	VRAM min.	Points forts	HuggingFace ID
Llama 3.2 3B Instruct	3B	2–3 Go	Ultra-léger, débutant, rapide	`lmstudio-community/Meta-Llama-3.2-3B-Instruct-GGUF`
Llama 3.1 8B Instruct	8B	5–6 Go	Excellent généraliste, multilingue	`lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF`
Mistral 7B Instruct v0.3	7B	5 Go	Rapide, efficace, bon en français	`lmstudio-community/Mistral-7B-Instruct-v0.3-GGUF`
Gemma 3 4B Instruct	4B	3 Go	Google, très bon rapport qualité/taille	`lmstudio-community/gemma-3-4b-it-GGUF`
Qwen2.5 7B Instruct	7B	5 Go	Excellent en code, multilingue fort	`lmstudio-community/Qwen2.5-7B-Instruct-GGUF`
Phi-4 Mini Instruct	3.8B	3 Go	Microsoft, surprenant pour sa taille	`lmstudio-community/Phi-4-mini-instruct-GGUF`
DeepSeek-R1 7B	7B	5 Go	Raisonnement, maths, logique	`lmstudio-community/DeepSeek-R1-Distill-Qwen-7B-GGUF`
Llama 3.3 70B Instruct	70B	40+ Go	Qualité maximale locale, GPU haut de gamme	`lmstudio-community/Llama-3.3-70B-Instruct-GGUF`

Conseil de départ : Si vous ne savez pas quoi choisir, commencez avec Llama 3.1 8B Instruct en Q4_K_M. C'est le modèle open source le plus polyvalent, bien testé, et tourne sur la majorité des configurations avec 8–16 Go de RAM.

9. LM Studio vs Ollama : lequel choisir ?

LM Studio et Ollama sont les deux outils les plus populaires pour faire tourner des LLMs en local. Ils ne s'adressent pas aux mêmes profils.

Critère	LM Studio	Ollama
Interface	GUI complète, intuitive	Terminal uniquement (+ Open WebUI séparé)
Facilité d'installation	Très facile (installeur .exe/.dmg)	Facile (une commande curl ou installeur)
Courbe d'apprentissage	Faible - débutants welcome	Légère - quelques commandes à mémoriser
Sélection de modèles	HuggingFace complet (milliers de GGUF)	Bibliothèque officielle + imports GGUF
Serveur API	Intégré, compatible OpenAI	Intégré par défaut, compatible OpenAI
Consommation ressources	Plus élevée (GUI Electron)	Légère (daemon minimaliste)
Automatisation	Limitée (via API)	Excellente (scripting, services, Docker)
Contrôle fin des paramètres	Panneau visuel complet	Via Modelfile ou API
Usage hors-ligne	Oui (après téléchargement)	Oui (après pull)
Multiplateforme	Windows, macOS, Linux (bêta)	Windows, macOS, Linux (stable)

Choisissez LM Studio si...

Vous débutez avec les LLMs locaux
Vous préférez une interface graphique
Vous voulez tester beaucoup de modèles différents
Vous avez besoin de régler finement les paramètres visuellement
Vous n'êtes pas à l'aise avec le terminal

Choisissez Ollama si...

Vous êtes développeur et à l'aise en ligne de commande
Vous voulez intégrer un LLM dans des scripts ou CI/CD
Vous tournez sur un serveur sans interface graphique
Vous voulez minimiser l'empreinte mémoire
Vous avez besoin d'un service démarrant automatiquement

Les deux outils ne sont pas exclusifs. Beaucoup d'utilisateurs commencent avec LM Studio pour explorer les modèles, puis passent à Ollama pour l'intégration dans leurs projets. Vous pouvez les avoir installés simultanément - ils n'entrent pas en conflit.

Prêt à aller plus loin ?

Explorez notre guide Ollama pour la ligne de commande, ou comparez les modèles disponibles pour votre configuration.

Guide Ollama complet Comparer les modèles Scanner ma machine