Qu'est-ce que DeepSeek R1 ?

DeepSeek R1 est un modèle de raisonnement développé par DeepSeek AI qui utilise le reinforcement learning pour améliorer ses capacités de raisonnement étape par étape. Il génère une chaîne de pensée (chain-of-thought) interne entre des balises <think> avant de produire sa réponse finale, ce qui lui permet de résoudre des problèmes complexes en mathématiques, programmation et logique. Le modèle complet de 671B dépasse les capacités de la plupart des machines personnelles, mais DeepSeek a publié des versions distillées de 1.5B à 70B basées sur Llama et Qwen. Ces distillations préservent une grande partie des capacités de raisonnement dans des formats accessibles localement.

Les versions distillées disponibles

DeepSeek a publié plusieurs versions distillées de R1 : DeepSeek-R1-Distill-Qwen-1.5B et 7B (légères, bonnes pour la découverte), DeepSeek-R1-Distill-Llama-8B (excellent rapport taille/performance), et DeepSeek-R1-Distill-Qwen-14B, 32B et Llama-70B pour les configurations plus puissantes. Pour la plupart des utilisateurs avec 8 Go de VRAM, la version Llama-8B en Q4_K_M (environ 5 Go) est le meilleur point d'entrée. La version 14B en Q4_K_M (8 Go) offre des améliorations notables sur les tâches de raisonnement complexes.

Comprendre le format chain-of-thought

DeepSeek R1 génère ses raisonnements entre des balises <think>...</think> avant de donner la réponse finale. Ce processus de réflexion peut être long (parfois plusieurs centaines de tokens) et constitue la valeur ajoutée du modèle. Dans Ollama et LM Studio, ce texte intermédiaire est affiché par défaut. Certaines interfaces comme Open WebUI masquent automatiquement ces balises pour afficher uniquement la réponse finale. Pour les applications programmatiques, vous devrez parser la sortie pour extraire la réponse finale en dehors des balises <think>.

Cas d'usage idéaux

DeepSeek R1 distillé excelle dans les problèmes de mathématiques (niveau lycée à université), la programmation avec débogage pas-à-pas, les puzzles logiques, et l'analyse de code complexe. Pour ces tâches, les distillations Llama-8B ou Qwen-14B surpassent souvent des modèles de chat bien plus grands. En revanche, pour la génération de texte créatif ou la conversation informelle, les modèles Llama ou Mistral restent préférables. Combinez les deux selon vos besoins.

Étapes pratiques

Télécharger via Ollama

Ollama propose plusieurs variantes de DeepSeek R1 Distill directement dans son registre.
```
{step.code}
```
Tester le raisonnement

Posez un problème mathématique ou logique pour observer la chaîne de pensée.
```
{step.code}
```
Utiliser via l'API avec parsing du think

Interrogez le modèle via l'API Ollama et extrayez uniquement la réponse finale.
```
{step.code}
```
Configurer un Modelfile Ollama

Créez un Modelfile personnalisé pour ajuster les paramètres du modèle.
```
{step.code}
```
Comparer avec la version GGUF de HuggingFace

Pour plus de contrôle, téléchargez directement le GGUF depuis HuggingFace.
```
{step.code}
```

Qu'est-ce que DeepSeek R1 ?

Les versions distillées disponibles

Comprendre le format chain-of-thought

Cas d'usage idéaux

Étapes pratiques

Télécharger via Ollama

Tester le raisonnement

Utiliser via l'API avec parsing du think

Configurer un Modelfile Ollama

Comparer avec la version GGUF de HuggingFace

Tutoriels similaires

Quelle quantisation GGUF choisir ? Guide complet

Comparer les LLMs locaux : lequel choisir en 2025 ?