Glossaire des LLMs - Lexique complet de l'IA

A 3 termes

Agent IA (AI Agent)

Intermédiaire

Système autonome basé sur un LLM capable de planifier et d'exécuter des actions pour atteindre un objectif.

API (Interface de Programmation)

Débutant

Interface permettant d'interroger un LLM hébergé à distance via des requêtes HTTP standardisées.

Attention (Mécanisme d'attention)

Avancé

Mécanisme central des Transformers permettant au modèle de pondérer l'importance de chaque token par rapport aux autres.

B 3 termes

Beam Search

Avancé

Algorithme de décodage explorant plusieurs séquences candidates en parallèle pour trouver la sortie la plus probable.

Benchmark

Intermédiaire

Ensemble de tests standardisés permettant de mesurer et comparer les capacités des LLM de manière objective.

BLEU Score

Intermédiaire

Métrique automatique mesurant la similarité entre un texte généré et des références humaines, utilisée en traduction.

C 4 termes

Chain-of-Thought (CoT)

Intermédiaire

Technique de prompt qui invite le modèle à décomposer son raisonnement étape par étape avant de répondre.

Chatbot

Débutant

Application conversationnelle permettant à un utilisateur d'interagir en langage naturel avec un LLM via une interface de chat.

Contexte (Context Window)

Débutant

Nombre maximal de tokens qu'un LLM peut traiter simultanément en entrée et en sortie lors d'une inférence.

CUDA

Avancé

Plateforme de calcul parallèle NVIDIA permettant d'accélérer l'entraînement et l'inférence des LLM sur GPU.

D 3 termes

Décodeur (Decoder)

Avancé

Composant d'architecture Transformer qui génère du texte token par token en mode autorégressif.

DeepSeek

Intermédiaire

Famille de LLM open-source développée par la société chinoise DeepSeek, reconnue pour son rapport performance/coût.

Distillation (Knowledge Distillation)

Avancé

Technique d'entraînement où un petit modèle apprend à imiter les sorties d'un grand modèle pour être plus léger.

E 1 terme

Embedding

Intermédiaire

Représentation vectorielle dense d'un texte ou token capturant sa signification sémantique dans un espace mathématique.

F 2 termes

Few-shot Learning

Débutant

Technique consistant à fournir quelques exemples dans le prompt pour guider le comportement du modèle sans modifier ses poids.

Fine-tuning

Intermédiaire

Processus d'entraînement supplémentaire d'un LLM pré-entraîné sur un dataset spécialisé pour l'adapter à une tâche précise.

G 4 termes

GGML

Avancé

Bibliothèque C de tenseurs et format précédant GGUF, à l'origine du mouvement LLM local sur CPU.

GGUF (Format de fichier)

Intermédiaire

Format de fichier binaire conçu pour distribuer des LLM quantisés de manière portable, successeur de GGML.

GPU (Graphics Processing Unit)

Débutant

Processeur graphique massivement parallèle devenu indispensable pour l'entraînement et l'inférence des LLM.

Groq

Intermédiaire

Entreprise fabriquant des puces LPU spécialisées permettant une inférence LLM extrêmement rapide (des centaines de tokens/s).

H 2 termes

Hallucination

Débutant

Phénomène où un LLM génère des informations factuellement incorrectes mais présentées avec assurance.

Hugging Face

Débutant

Plateforme communautaire hébergeant des milliers de modèles, datasets et espaces démo pour le machine learning.

I 3 termes

Inférence

Intermédiaire

Phase d'utilisation d'un LLM entraîné pour générer des réponses à partir de nouvelles entrées.

Instruct (Modèle Instruct)

Débutant

Version d'un LLM fine-tuné pour suivre des instructions conversationnelles, par opposition au modèle de base.

IQ2/IQ3 (Quantisation)

Avancé

Niveaux de quantisation extrêmement bas (2-3 bits) utilisant des tables de correspondance pour minimiser la perte de qualité.

J 1 terme

JSON Mode

Intermédiaire

Fonctionnalité d'API forçant le LLM à produire une sortie valide au format JSON, facilitant l'intégration dans les applications.

K 2 termes

Knowledge Distillation

Avancé

Voir Distillation - transfert de connaissances d'un grand modèle vers un modèle plus petit.

KV Cache

Avancé

Mécanisme de mise en cache des clés et valeurs d'attention pour éviter de recalculer les tokens déjà traités.

L 5 termes

Latence

Intermédiaire

Temps écoulé entre l'envoi d'un prompt et la réception du premier token de réponse (TTFT).

llama.cpp

Intermédiaire

Bibliothèque C++ permettant d'exécuter des LLM localement sur CPU et GPU avec une empreinte mémoire minimale.

LLM (Large Language Model)

Débutant

Grand modèle de langage entraîné sur des milliards de textes, capable de comprendre et générer du langage naturel.

Logits

Avancé

Scores bruts non normalisés que le LLM assigne à chaque token possible avant l'application du softmax.

LoRA (Low-Rank Adaptation)

Intermédiaire

Technique de fine-tuning efficace qui n'entraîne que quelques matrices de bas rang au lieu de tous les poids du modèle.

M 3 termes

Mistral

Débutant

Entreprise française d'IA fondée en 2023, créatrice de LLM open-source et propriétaires de référence.

MoE (Mixture of Experts)

Avancé

Architecture où seul un sous-ensemble de paramètres est activé pour chaque token, rendant les grands modèles plus efficaces.

N 2 termes

NLP (Natural Language Processing)

Débutant

Domaine de l'IA dédié à la compréhension, l'analyse et la génération du langage humain par les machines.

Nœud (Node)

Avancé

Dans les clusters d'entraînement IA, serveur physique équipé de plusieurs GPU interconnectés par NVLink ou InfiniBand.

O 2 termes

Ollama

Débutant

Outil en ligne de commande permettant de télécharger et d'exécuter des LLM localement en une seule commande.

ONNX

Avancé

Format d'échange de modèles de machine learning interopérable entre frameworks (PyTorch, TensorFlow, etc.).

P 5 termes

Paramètre

Débutant

Valeur numérique apprise pendant l'entraînement d'un réseau de neurones ; la taille d'un LLM se mesure en milliards de paramètres.

Perplexité (PPL)

Avancé

Métrique mesurant la capacité d'un LLM à prédire un texte de test ; une perplexité basse indique un meilleur modèle.

PPL (Perplexité)

Intermédiaire

Abréviation de Perplexité, métrique standard pour évaluer la qualité d'un LLM sur un corpus de texte.

Prompt

Débutant

Texte d'entrée fourni à un LLM pour guider sa génération - instruction, question, contexte ou exemple.

Prompt Engineering

Débutant

Pratique de conception et d'optimisation des prompts pour maximiser la qualité et la pertinence des réponses d'un LLM.

Q 2 termes

QLoRA

Intermédiaire

Technique combinant la quantisation 4-bit d'un LLM de base avec LoRA pour permettre le fine-tuning sur GPU grand public.

Quantisation (Q4_K_M, Q5_K_M, Q8_0)

Intermédiaire

Technique de compression réduisant la précision des poids d'un LLM (ex : de 16 bits à 4 bits) pour économiser mémoire et calcul.

R 3 termes

RAG (Retrieval-Augmented Generation)

Intermédiaire

Architecture combinant une base de données vectorielle et un LLM pour ancrer les réponses dans des documents vérifiés.

RLHF (Reinforcement Learning from Human Feedback)

Avancé

Technique d'alignement utilisant des préférences humaines pour entraîner un LLM à être utile, inoffensif et honnête.

ROCm

Avancé

Plateforme open-source d'AMD pour le calcul GPU, alternative à CUDA pour les LLM sur cartes graphiques AMD.

S 4 termes

Sampling

Intermédiaire

Méthode de décodage introduisant de la variabilité dans la génération en tirant aléatoirement parmi les tokens probables.

SFT (Supervised Fine-Tuning)

Intermédiaire

Première étape d'alignement d'un LLM, entraîné sur des exemples curatés de paires instruction/réponse de qualité.

Streaming

Débutant

Mode de transmission qui affiche les tokens générés au fur et à mesure, donnant l'impression d'une réponse en temps réel.

Système Prompt (System Prompt)

Débutant

Instructions initiales invisibles à l'utilisateur définissant le comportement, la personnalité et les limites d'un LLM.

T 6 termes

Température

Débutant

Paramètre contrôlant le degré de créativité/randomisation du LLM : 0 = déterministe, 1 = créatif, >1 = chaotique.

Token

Débutant

Unité de base du traitement textuel dans un LLM : fragment de mot, mot entier ou signe de ponctuation.

Tokenisation

Intermédiaire

Processus de découpage du texte en tokens selon un vocabulaire appris, avant toute opération du LLM.

Top-k

Intermédiaire

Paramètre de sampling limitant le choix du prochain token aux k tokens les plus probables selon le modèle.

Top-p (Nucleus Sampling)

Intermédiaire

Paramètre de sampling ne conservant que les tokens dont les probabilités cumulées dépassent un seuil p, filtrant les options improbables.

Transformers

Avancé

Architecture de réseau de neurones basée sur l'attention, fondement de tous les LLM modernes depuis 2017.

U 1 terme

Unified Memory (Mémoire Unifiée Apple Silicon)

Intermédiaire

Architecture mémoire des puces Apple M où CPU et GPU partagent le même pool de RAM, idéale pour les LLM locaux.

V 2 termes

Vision LLM

Intermédiaire

LLM capable de comprendre et raisonner sur des images en entrée, en plus du texte.

VRAM

Débutant

Mémoire vidéo dédiée d'un GPU, facteur limitant pour la taille des LLM qu'on peut charger et inférer.

W 2 termes

WebGPU

Avancé

API web standard donnant accès à l'accélération GPU depuis le navigateur, permettant l'inférence LLM côté client.

Weights (Poids du modèle)

Débutant

Valeurs numériques apprises pendant l'entraînement d'un LLM, constituant l'essence du modèle distribuable.

Z 1 terme

Zero-shot Learning

Débutant

Capacité d'un LLM à réaliser une tâche sans aucun exemple fourni dans le prompt, uniquement via les instructions.

Glossaire des LLMsLexique complet de l'IA

Agent IA (AI Agent)

API (Interface de Programmation)

Attention (Mécanisme d'attention)

Beam Search

Benchmark

BLEU Score

Chain-of-Thought (CoT)

Chatbot

Contexte (Context Window)

CUDA

Décodeur (Decoder)

DeepSeek

Distillation (Knowledge Distillation)

Embedding

Few-shot Learning

Fine-tuning

GGML

GGUF (Format de fichier)

GPU (Graphics Processing Unit)

Groq

Hallucination

Hugging Face

Inférence

Instruct (Modèle Instruct)

IQ2/IQ3 (Quantisation)

JSON Mode

Knowledge Distillation

KV Cache

Latence

llama.cpp

LLM (Large Language Model)

Logits

LoRA (Low-Rank Adaptation)

Mistral

MoE (Mixture of Experts)

Multi-modal

NLP (Natural Language Processing)

Nœud (Node)

Ollama

ONNX

Paramètre

Perplexité (PPL)

PPL (Perplexité)

Prompt

Prompt Engineering

QLoRA

Quantisation (Q4_K_M, Q5_K_M, Q8_0)

RAG (Retrieval-Augmented Generation)

RLHF (Reinforcement Learning from Human Feedback)

ROCm

Sampling

SFT (Supervised Fine-Tuning)

Streaming

Système Prompt (System Prompt)

Température

Token

Tokenisation

Top-k

Top-p (Nucleus Sampling)

Transformers

Unified Memory (Mémoire Unifiée Apple Silicon)

Vision LLM

VRAM

WebGPU

Weights (Poids du modèle)

Zero-shot Learning

Glossaire des LLMs
Lexique complet de l'IA