Inférence
Phase d'utilisation d'un LLM entraîné pour générer des réponses à partir de nouvelles entrées.
Définition complète
L'inférence désigne le processus d'utilisation d'un modèle de machine learning pour produire des prédictions (tokens de sortie) à partir d'une entrée (prompt), par opposition à la phase d'entraînement. Pour les LLM, l'inférence est un processus autorégressif : le modèle génère un token à la fois, chaque nouveau token étant ajouté au contexte pour prédire le suivant. L'inférence est généralement moins coûteuse que l'entraînement mais reste gourmande en ressources pour les grands modèles. Les optimisations d'inférence incluent la quantisation (réduction de précision des poids), le batching (traitement de plusieurs requêtes en parallèle), le caching KV et la décoding spéculative. Le ratio performance/coût de l'inférence est un facteur clé pour la viabilité économique des produits IA.