🔍 Scanner hardware · 25 modèles · 12 fournisseurs

Tout comprendre sur les LLMs -
modèles, outils, matériel

Q: Qu'est-ce qu'un LLM ?

Un LLM (Large Language Model) est un modèle d'intelligence artificielle entraîné sur de très grandes quantités de texte pour comprendre et générer du langage naturel. ChatGPT, Claude, Llama et Mistral sont tous des LLMs. Ils fonctionnent en prédisant statistiquement la suite la plus probable d'un texte, ce qui leur permet de répondre à des questions, rédiger des textes, traduire, résumer des documents ou générer du code.

Q: Quel LLM choisir pour débuter ?

Pour débuter, nous recommandons Llama 3.2 3B (si vous avez moins de 8 Go de RAM) ou Llama 3.1 8B / Mistral 7B (8-16 Go de RAM). Ces modèles sont accessibles via une simple commande Ollama (`ollama run llama3.2:3b`), offrent un bon équilibre entre qualité et performance, et fonctionnent correctement en français. Pour le code, Qwen2.5-Coder ou DeepSeek Coder sont de meilleures options.

Q: Faut-il un GPU pour faire tourner un LLM ?

Non, un GPU n'est pas indispensable. Les LLMs peuvent fonctionner sur CPU uniquement, mais beaucoup plus lentement (2-5 tokens/seconde contre 30-100 tokens/seconde avec GPU). Pour une expérience fluide, un GPU NVIDIA avec 8 Go de VRAM minimum est recommandé pour les modèles 7-8B. Sur Mac Apple Silicon, la mémoire unifiée (partagée CPU/GPU) offre d'excellentes performances même sans GPU dédié.

Q: Quelle est la différence entre Q4 et Q8 ?

Q4 et Q8 sont des niveaux de quantisation qui réduisent la taille des modèles en compressant les poids du réseau. Q4_K_M utilise environ 4 bits par paramètre (fichier compact, légère perte de qualité) tandis que Q8_0 utilise 8 bits (qualité presque identique au modèle original, fichier 2× plus grand). Pour la plupart des usages, Q4_K_M est suffisant. Q8_0 est préférable pour des tâches de raisonnement complexes ou de la génération de code si votre VRAM le permet.

Q: Comment installer Ollama ?

Sur macOS : téléchargez le DMG sur ollama.com ou via `brew install ollama`. Sur Windows : téléchargez l'installeur .exe sur ollama.com. Sur Linux : exécutez `curl -fsSL https://ollama.com/install.sh | sh`. Ensuite, téléchargez votre premier modèle avec `ollama pull llama3.2:8b` et lancez une conversation avec `ollama run llama3.2:8b`. C'est tout - le service tourne en arrière-plan sur le port 11434.

Q: Quel budget pour un setup LLM local ?

Le budget minimum pour un bon setup LLM local en 2025 : 300-400€ pour une RTX 4060 8 Go (modèles 7B), ou 600€ pour une RTX 4060 Ti 16 Go (modèles jusqu'à 13B). Le sweet spot est souvent la RTX 4060 Ti 16 Go à ~600€ ou une RTX 3090 24 Go d'occasion à 600-700€. Si vous possédez déjà un Mac Apple Silicon M2/M3/M4 avec 16+ Go de RAM, il n'y a rien à acheter : Ollama tourne parfaitement dessus.

LLMs.fr vous aide à explorer, comparer et déployer les modèles d'IA en local ou dans le cloud. Scannez votre machine, trouvez le bon modèle, choisissez le bon GPU - tout est ici, gratuitement, en français.

Tester ma machine → Explorer les modèles Guide matériel

50+ modèles

12 fournisseurs

100% gratuit

🇫🇷 en français

Tout ce dont vous avez besoin

Une plateforme pour maîtriser les LLMs - de la découverte au déploiement en production.

🔍

Scanner hardware

Détectez automatiquement quels modèles peuvent tourner sur votre machine selon votre RAM, VRAM et CPU.

Tester ma machine →

🤖

Catalogue modèles

Tous les LLMs open source avec liens de téléchargement, benchmarks, requirements et commandes Ollama.

Voir le catalogue →

☁️

Comparer fournisseurs

Tableau comparatif détaillé de 12 fournisseurs cloud : prix, modèles, confidentialité, fonctionnalités.

Comparer les prix →

💻

Setup local

Guides pas-à-pas pour installer Ollama, LM Studio, llama.cpp et démarrer votre IA locale en 10 minutes.

Installer Ollama →

🛒

Guide matériel

Comparatif GPU, mini-PCs et configurations recommandées pour chaque budget et usage.

Voir le matériel →

📚

Glossaire LLM

Tous les termes techniques expliqués en français : quantisation, RAG, GGUF, tokens, fine-tuning et plus.

Consulter le glossaire →

Les modèles les plus populaires

Les LLMs open source les plus téléchargés et testés par la communauté francophone, tous compatibles Ollama.

Llama 3.1 8B

Mistral 7B

Mistral AI

Français

7B Min. 6 Go RAM

ChatCodeFrançais

ollama run mistral:7b

Voir les détails →

Gemma 2 9B

Google

Efficace

9B Min. 8 Go RAM

ChatCodeRaisonnement

ollama run gemma2:9b

Voir les détails →

DeepSeek R1 7B

DeepSeek

Raisonnement

7B Min. 7 Go RAM

RaisonnementMathsCode

ollama run deepseek-r1:7b

Voir les détails →

Phi-4

Microsoft

STEM

14B Min. 12 Go RAM

RaisonnementCodeSTEM

ollama run phi4:14b

Voir les détails →

Qwen 2.5 14B

Alibaba

Puissant

14B Min. 13 Go RAM

ChatCodeMultilingue

ollama run qwen2.5:14b

Voir les détails →

Voir tous les modèles →

🔍

Découvrez quels LLMs tournent sur votre machine

Notre scanner analyse votre RAM, VRAM, processeur et stockage pour vous recommander les modèles compatibles avec votre configuration - sans installation, directement dans le navigateur.

Scanner ma machine →

100% gratuit · Aucune donnée envoyée

Comparer les fournisseurs cloud

Prix, fonctionnalités et confidentialité - tout ce qu'il faut savoir pour choisir votre API LLM.

Entrée $2.50 /1M tokens

Sortie $10.00 /1M tokens

Entrée $3.00 /1M tokens

Sortie $15.00 /1M tokens

Souveraineté européenne

Entrée $2.00 /1M tokens

Sortie $6.00 /1M tokens

Entrée $0.59 /1M tokens

Sortie $0.79 /1M tokens

Comparer tous les fournisseurs →

Le bon matériel pour vos LLMs

GPU, mini-PCs et configurations sélectionnées pour faire tourner des LLMs en local avec les meilleures performances.

Recommandé

🖥️

ASUS Ascent GX10

La machine ultime pour LLM local

Mémoire 128 Go unifiée

Puce NVIDIA GB10 Grace Blackwell

Format Mini-PC compact

128 Go de mémoire unifiée permettent de faire tourner des modèles 70B en pleine qualité. La solution tout-en-un idéale pour les développeurs IA sérieux.

Voir sur Amazon →

🎮

NVIDIA RTX 4090

Le roi du LLM local sur PC

VRAM 24 Go GDDR6X

Perf. ~80-100 tokens/s (7B)

Modèles Jusqu'à 30B Q4 en full GPU

24 Go de VRAM pour faire tourner les modèles 30B sans compromis. La carte de référence pour quiconque veut le meilleur setup LLM local sur PC en 2025.

Voir sur Amazon →

⚡

NVIDIA RTX 4070

Meilleur rapport qualité/prix

VRAM 12 Go GDDR6X

Perf. ~55-70 tokens/s (7B)

Modèles 7B full GPU, 13B split

12 Go de VRAM pour les modèles 7B en pleine qualité et les modèles 13B en split. Le sweet spot pour la plupart des utilisateurs qui veulent de bonnes performances sans se ruiner.

Voir sur Amazon →

Voir tout le matériel →

Guides & tutoriels

Des guides pratiques en français pour installer, configurer et optimiser vos LLMs locaux.

🦙

Débutant ⏱ 8 min

Installer Ollama sur Mac et Windows

Le guide pas-à-pas pour démarrer avec les LLMs en local en moins de 10 minutes.

→

🖥️

Débutant ⏱ 10 min

LM Studio : guide complet

Télécharger, installer et utiliser LM Studio avec une interface graphique intuitive.

→

⚖️

Intermédiaire ⏱ 12 min

Quelle quantisation GGUF choisir ?

Comprendre Q4_K_M, Q8_0 et toutes les variantes pour le bon compromis.

→

🎮

Débutant ⏱ 12 min

Quel GPU acheter pour les LLMs ?

Comparatif RTX 4060 vs 4070 vs 4090 et recommendations selon votre budget.

→

Voir tous les tutoriels →

Local ou Cloud ?

Choisir entre un LLM local et une API cloud dépend de vos priorités. Voici une comparaison honnête.

Critère	💻 LLM Local	☁️ LLM Cloud
Coût à long terme	Très faible Électricité uniquement après achat matériel	Variable Facturation à l'usage, peut être élevée
Confidentialité	Totale Aucune donnée ne quitte votre machine	Limitée Données envoyées aux serveurs du fournisseur
Performance / qualité	Bonne Dépend du modèle et du matériel disponible	Excellente Accès aux meilleurs modèles (GPT-4o, Claude)
Vitesse (latence)	Très faible Pas de réseau, première réponse immédiate	Variable Dépend du réseau et de la charge serveur
Investissement initial	Élevé GPU 300-1800€, ou Mac M-series	Zéro Démarrage immédiat avec carte bancaire
Disponibilité	24/7 Pas de dépendance externe, hors-ligne possible	Généralement bonne Dépend du SLA du fournisseur
Mise à jour des modèles	Manuelle Vous choisissez quand mettre à jour	Automatique Toujours accès aux dernières versions
Personnalisation	Totale Fine-tuning, Modelfiles, paramètres illimités	Partielle System prompt, fine-tuning selon le fournisseur

Choisissez le local si...

La confidentialité est une priorité (médical, juridique, RH)
Vous avez un usage intensif et souhaitez maîtriser les coûts
Vous développez des applications IA sans frais d'API
Vous avez ou envisagez d'acquérir un GPU ou un Mac M-series

Guide LLM local →

Choisissez le cloud si...

Vous avez besoin des meilleurs modèles sans contrainte matérielle
Votre usage est occasionnel ou en phase d'exploration
Vous avez besoin de multimodalité avancée (audio, vidéo)
Le temps de mise en place est une contrainte

Comparer les fournisseurs →

Questions fréquentes

Les réponses aux questions les plus posées sur les LLMs, l'IA en local et le matériel nécessaire.

Qu'est-ce qu'un LLM ?

Quel LLM choisir pour débuter ?

Faut-il un GPU pour faire tourner un LLM ?

Quelle est la différence entre Q4 et Q8 ?

Comment installer Ollama ?

Quel budget pour un setup LLM local ?

Commencer maintenant

Découvrez quels LLMs sont compatibles avec votre machine, explorez le catalogue de modèles ou plongez dans nos guides - tout est gratuit, en français.

Scanner ma machine → Explorer les modèles

Aucune inscription requise · 100% gratuit · Open source friendly

Tout comprendre sur les LLMs - modèles, outils, matériel

Tout ce dont vous avez besoin

Scanner hardware

Catalogue modèles

Comparer fournisseurs

Setup local

Guide matériel

Glossaire LLM

Les modèles les plus populaires

Llama 3.1 8B

Mistral 7B

Gemma 2 9B

DeepSeek R1 7B

Phi-4

Qwen 2.5 14B

Découvrez quels LLMs tournent sur votre machine

Comparer les fournisseurs cloud

Le bon matériel pour vos LLMs

ASUS Ascent GX10

NVIDIA RTX 4090

NVIDIA RTX 4070

Guides & tutoriels

Installer Ollama sur Mac et Windows

LM Studio : guide complet

Quelle quantisation GGUF choisir ?

Quel GPU acheter pour les LLMs ?

Local ou Cloud ?

Choisissez le local si...

Choisissez le cloud si...

Questions fréquentes

Commencer maintenant

Tout comprendre sur les LLMs -
modèles, outils, matériel