Débutant Architecture L

LLM (Large Language Model)

Grand modèle de langage entraîné sur des milliards de textes, capable de comprendre et générer du langage naturel.

Définition complète

Un Large Language Model est un réseau de neurones de type Transformer entraîné en auto-supervision sur des corpus massifs de texte (des centaines de milliards à des milliers de milliards de tokens). L'entraînement consiste à prédire le prochain token dans une séquence, développant une compréhension implicite de la syntaxe, la sémantique, les faits du monde et même des capacités de raisonnement. La taille se mesure en nombre de paramètres : de quelques milliards (LLM locaux) à plus de mille milliards (GPT-4, Gemini Ultra). Les capacités émergent à partir d'un certain seuil de paramètres et de données. Les LLM modernes sont affinés avec RLHF et SFT pour suivre des instructions. L'accès se fait via API (OpenAI, Anthropic, Mistral) ou en local (Ollama, llama.cpp) pour les modèles open-source.

Définition complète

Termes associés