Agent IA (AI Agent)
IntermédiaireSystème autonome basé sur un LLM capable de planifier et d'exécuter des actions pour atteindre un objectif.
Tous les termes de l'IA et des LLMs expliqués en français
Aucun terme trouvé pour cette recherche.
Système autonome basé sur un LLM capable de planifier et d'exécuter des actions pour atteindre un objectif.
Interface permettant d'interroger un LLM hébergé à distance via des requêtes HTTP standardisées.
Mécanisme central des Transformers permettant au modèle de pondérer l'importance de chaque token par rapport aux autres.
Algorithme de décodage explorant plusieurs séquences candidates en parallèle pour trouver la sortie la plus probable.
Ensemble de tests standardisés permettant de mesurer et comparer les capacités des LLM de manière objective.
Métrique automatique mesurant la similarité entre un texte généré et des références humaines, utilisée en traduction.
Technique de prompt qui invite le modèle à décomposer son raisonnement étape par étape avant de répondre.
Application conversationnelle permettant à un utilisateur d'interagir en langage naturel avec un LLM via une interface de chat.
Nombre maximal de tokens qu'un LLM peut traiter simultanément en entrée et en sortie lors d'une inférence.
Plateforme de calcul parallèle NVIDIA permettant d'accélérer l'entraînement et l'inférence des LLM sur GPU.
Composant d'architecture Transformer qui génère du texte token par token en mode autorégressif.
Famille de LLM open-source développée par la société chinoise DeepSeek, reconnue pour son rapport performance/coût.
Technique d'entraînement où un petit modèle apprend à imiter les sorties d'un grand modèle pour être plus léger.
Représentation vectorielle dense d'un texte ou token capturant sa signification sémantique dans un espace mathématique.
Technique consistant à fournir quelques exemples dans le prompt pour guider le comportement du modèle sans modifier ses poids.
Processus d'entraînement supplémentaire d'un LLM pré-entraîné sur un dataset spécialisé pour l'adapter à une tâche précise.
Bibliothèque C de tenseurs et format précédant GGUF, à l'origine du mouvement LLM local sur CPU.
Format de fichier binaire conçu pour distribuer des LLM quantisés de manière portable, successeur de GGML.
Processeur graphique massivement parallèle devenu indispensable pour l'entraînement et l'inférence des LLM.
Entreprise fabriquant des puces LPU spécialisées permettant une inférence LLM extrêmement rapide (des centaines de tokens/s).
Phénomène où un LLM génère des informations factuellement incorrectes mais présentées avec assurance.
Plateforme communautaire hébergeant des milliers de modèles, datasets et espaces démo pour le machine learning.
Phase d'utilisation d'un LLM entraîné pour générer des réponses à partir de nouvelles entrées.
Version d'un LLM fine-tuné pour suivre des instructions conversationnelles, par opposition au modèle de base.
Niveaux de quantisation extrêmement bas (2-3 bits) utilisant des tables de correspondance pour minimiser la perte de qualité.
Fonctionnalité d'API forçant le LLM à produire une sortie valide au format JSON, facilitant l'intégration dans les applications.
Voir Distillation - transfert de connaissances d'un grand modèle vers un modèle plus petit.
Mécanisme de mise en cache des clés et valeurs d'attention pour éviter de recalculer les tokens déjà traités.
Temps écoulé entre l'envoi d'un prompt et la réception du premier token de réponse (TTFT).
Bibliothèque C++ permettant d'exécuter des LLM localement sur CPU et GPU avec une empreinte mémoire minimale.
Grand modèle de langage entraîné sur des milliards de textes, capable de comprendre et générer du langage naturel.
Scores bruts non normalisés que le LLM assigne à chaque token possible avant l'application du softmax.
Technique de fine-tuning efficace qui n'entraîne que quelques matrices de bas rang au lieu de tous les poids du modèle.
Entreprise française d'IA fondée en 2023, créatrice de LLM open-source et propriétaires de référence.
Architecture où seul un sous-ensemble de paramètres est activé pour chaque token, rendant les grands modèles plus efficaces.
Capacité d'un LLM à traiter et générer plusieurs types de données : texte, images, audio, vidéo.
Domaine de l'IA dédié à la compréhension, l'analyse et la génération du langage humain par les machines.
Dans les clusters d'entraînement IA, serveur physique équipé de plusieurs GPU interconnectés par NVLink ou InfiniBand.
Valeur numérique apprise pendant l'entraînement d'un réseau de neurones ; la taille d'un LLM se mesure en milliards de paramètres.
Métrique mesurant la capacité d'un LLM à prédire un texte de test ; une perplexité basse indique un meilleur modèle.
Abréviation de Perplexité, métrique standard pour évaluer la qualité d'un LLM sur un corpus de texte.
Texte d'entrée fourni à un LLM pour guider sa génération - instruction, question, contexte ou exemple.
Pratique de conception et d'optimisation des prompts pour maximiser la qualité et la pertinence des réponses d'un LLM.
Technique combinant la quantisation 4-bit d'un LLM de base avec LoRA pour permettre le fine-tuning sur GPU grand public.
Technique de compression réduisant la précision des poids d'un LLM (ex : de 16 bits à 4 bits) pour économiser mémoire et calcul.
Architecture combinant une base de données vectorielle et un LLM pour ancrer les réponses dans des documents vérifiés.
Technique d'alignement utilisant des préférences humaines pour entraîner un LLM à être utile, inoffensif et honnête.
Plateforme open-source d'AMD pour le calcul GPU, alternative à CUDA pour les LLM sur cartes graphiques AMD.
Méthode de décodage introduisant de la variabilité dans la génération en tirant aléatoirement parmi les tokens probables.
Première étape d'alignement d'un LLM, entraîné sur des exemples curatés de paires instruction/réponse de qualité.
Mode de transmission qui affiche les tokens générés au fur et à mesure, donnant l'impression d'une réponse en temps réel.
Instructions initiales invisibles à l'utilisateur définissant le comportement, la personnalité et les limites d'un LLM.
Paramètre contrôlant le degré de créativité/randomisation du LLM : 0 = déterministe, 1 = créatif, >1 = chaotique.
Unité de base du traitement textuel dans un LLM : fragment de mot, mot entier ou signe de ponctuation.
Processus de découpage du texte en tokens selon un vocabulaire appris, avant toute opération du LLM.
Paramètre de sampling limitant le choix du prochain token aux k tokens les plus probables selon le modèle.
Paramètre de sampling ne conservant que les tokens dont les probabilités cumulées dépassent un seuil p, filtrant les options improbables.
Architecture de réseau de neurones basée sur l'attention, fondement de tous les LLM modernes depuis 2017.
Architecture mémoire des puces Apple M où CPU et GPU partagent le même pool de RAM, idéale pour les LLM locaux.
LLM capable de comprendre et raisonner sur des images en entrée, en plus du texte.
Mémoire vidéo dédiée d'un GPU, facteur limitant pour la taille des LLM qu'on peut charger et inférer.
API web standard donnant accès à l'accélération GPU depuis le navigateur, permettant l'inférence LLM côté client.
Valeurs numériques apprises pendant l'entraînement d'un LLM, constituant l'essence du modèle distribuable.
Capacité d'un LLM à réaliser une tâche sans aucun exemple fourni dans le prompt, uniquement via les instructions.
Le domaine de l'IA évolue vite. Nous révisons les définitions et ajoutons de nouveaux termes dès qu'ils deviennent pertinents. 66 termes référencés à ce jour.