RAG (Retrieval-Augmented Generation)
Architecture combinant une base de données vectorielle et un LLM pour ancrer les réponses dans des documents vérifiés.
Définition complète
Le RAG (Génération Augmentée par Récupération) est une architecture qui enrichit un LLM avec des informations externes pertinentes au moment de l'inférence, sans modifier ses poids. Le processus se déroule en deux phases : retrieval (recherche des passages les plus proches de la question dans une base vectorielle via embeddings) et generation (le LLM génère sa réponse en utilisant ces passages comme contexte). Le RAG permet de construire des assistants basés sur une documentation propriétaire, de réduire les hallucinations sur des faits factuels, et de dépasser les limites de la date de coupure du modèle. Les améliorations comme le re-ranking, le RAG hybride (dense + sparse) et l'agentic RAG (le modèle décide quand chercher) ont considérablement amélioré ses performances. C'est l'architecture la plus déployée en production pour les chatbots d'entreprise.