Mistral Mixtral 8x7B MoE Instruct
Mixtral 8x7B est un modèle Mixture-of-Experts (MoE) de Mistral AI qui utilise 8 experts de 7B paramètres chacun, n'en activant que 2 à la fois pour chaque token, ce qui donne 47B de paramètres totaux mais seulement 13B actifs. Il offre des performances proches de LLaMA 2 70B tout en étant 6 fois plus rapide à l'inférence.
Caractéristiques principales
Variantes disponibles
| Quantization | Taille | RAM requise | VRAM requise | Vitesse | HuggingFace |
|---|---|---|---|---|---|
| Q4_K_M | 26.4 Go | 34 Go | 28 Go | ~14 tok/s | HuggingFace → |
| Q8_0 | 47 Go | 55 Go | 48 Go | ~7 tok/s | HuggingFace → |
Installation
Ollama
La méthode la plus simple pour lancer Mistral Mixtral 8x7B MoE Instruct en local.
ollama run mixtral:8x7b Pas encore installé ? Voir le guide Ollama
LM Studio
Interface graphique pour exécuter Mistral Mixtral 8x7B MoE Instruct sans ligne de commande.
- Télécharger et ouvrir LM Studio
- Aller dans l'onglet Discover
- Rechercher Mistral Mixtral 8x7B MoE Instruct
- Sélectionner la variante souhaitée (Q4_K_M recommandé) et télécharger
- Charger le modèle et démarrer un chat
llama.cpp
Pour les utilisateurs avancés souhaitant un contrôle total sur l'inférence.
# Télécharger le modèle GGUF (exemple Q4_K_M)
huggingface-cli download \
mistralai/Mistral-Mixtral-8x7B-MoE-Instruct \
--include "*.Q4_K_M.gguf" \
--local-dir ./models/mixtral-8x7b Fichiers GGUF disponibles sur HuggingFace
Compatible avec votre machine ?
Scannez votre configuration matérielle pour savoir si Mistral Mixtral 8x7B MoE Instruct peut tourner sur votre ordinateur - RAM, VRAM, et vitesse estimée.