Qu'est-ce que DeepSeek R1 ?
DeepSeek R1 est un modèle de raisonnement développé par DeepSeek AI qui utilise le reinforcement learning pour améliorer ses capacités de raisonnement étape par étape. Il génère une chaîne de pensée (chain-of-thought) interne entre des balises <think> avant de produire sa réponse finale, ce qui lui permet de résoudre des problèmes complexes en mathématiques, programmation et logique. Le modèle complet de 671B dépasse les capacités de la plupart des machines personnelles, mais DeepSeek a publié des versions distillées de 1.5B à 70B basées sur Llama et Qwen. Ces distillations préservent une grande partie des capacités de raisonnement dans des formats accessibles localement.
Les versions distillées disponibles
DeepSeek a publié plusieurs versions distillées de R1 : DeepSeek-R1-Distill-Qwen-1.5B et 7B (légères, bonnes pour la découverte), DeepSeek-R1-Distill-Llama-8B (excellent rapport taille/performance), et DeepSeek-R1-Distill-Qwen-14B, 32B et Llama-70B pour les configurations plus puissantes. Pour la plupart des utilisateurs avec 8 Go de VRAM, la version Llama-8B en Q4_K_M (environ 5 Go) est le meilleur point d'entrée. La version 14B en Q4_K_M (8 Go) offre des améliorations notables sur les tâches de raisonnement complexes.
Comprendre le format chain-of-thought
DeepSeek R1 génère ses raisonnements entre des balises <think>...</think> avant de donner la réponse finale. Ce processus de réflexion peut être long (parfois plusieurs centaines de tokens) et constitue la valeur ajoutée du modèle. Dans Ollama et LM Studio, ce texte intermédiaire est affiché par défaut. Certaines interfaces comme Open WebUI masquent automatiquement ces balises pour afficher uniquement la réponse finale. Pour les applications programmatiques, vous devrez parser la sortie pour extraire la réponse finale en dehors des balises <think>.
Cas d'usage idéaux
DeepSeek R1 distillé excelle dans les problèmes de mathématiques (niveau lycée à université), la programmation avec débogage pas-à-pas, les puzzles logiques, et l'analyse de code complexe. Pour ces tâches, les distillations Llama-8B ou Qwen-14B surpassent souvent des modèles de chat bien plus grands. En revanche, pour la génération de texte créatif ou la conversation informelle, les modèles Llama ou Mistral restent préférables. Combinez les deux selon vos besoins.
Étapes pratiques
-
Télécharger via Ollama
Ollama propose plusieurs variantes de DeepSeek R1 Distill directement dans son registre.
{step.code} -
Tester le raisonnement
Posez un problème mathématique ou logique pour observer la chaîne de pensée.
{step.code} -
Utiliser via l'API avec parsing du think
Interrogez le modèle via l'API Ollama et extrayez uniquement la réponse finale.
{step.code} -
Configurer un Modelfile Ollama
Créez un Modelfile personnalisé pour ajuster les paramètres du modèle.
{step.code} -
Comparer avec la version GGUF de HuggingFace
Pour plus de contrôle, téléchargez directement le GGUF depuis HuggingFace.
{step.code}