Intermédiaire Architecture D

DeepSeek

Famille de LLM open-source développée par la société chinoise DeepSeek, reconnue pour son rapport performance/coût.

Définition complète

DeepSeek est une entreprise chinoise de recherche en IA qui a publié plusieurs modèles open-source remarquables : DeepSeek-V2 (MoE), DeepSeek-Coder, et surtout DeepSeek-R1 début 2025, qui rivalise avec les meilleurs modèles commerciaux tout en étant entièrement open-source. La sortie de DeepSeek-R1 a provoqué une onde de choc dans l'industrie en démontrant qu'un entraînement très efficient (en utilisant le reinforcement learning plutôt que la supervision massive) pouvait atteindre des performances de niveau GPT-4. Les modèles DeepSeek utilisent l'architecture MoE pour réduire les coûts d'inférence. Ils sont disponibles en quantisation GGUF pour un usage local via Ollama ou llama.cpp. La transparence de DeepSeek sur ses méthodes d'entraînement a enrichi la communauté de recherche mondiale.