Intermédiaire Architecture V

Vision LLM

LLM capable de comprendre et raisonner sur des images en entrée, en plus du texte.

Définition complète

Un Vision LLM (VLM, Vision-Language Model) est un LLM enrichi d'un encodeur visuel permettant de traiter des images en entrée. L'architecture typique combine un encodeur d'images (CLIP, SigLIP) convertissant les pixels en embeddings, un « projecteur » alignant l'espace visuel avec l'espace textuel, et le LLM de base. LLaVA, InternVL, Qwen-VL, LLaMA 3.2 Vision, Pixtral (Mistral) sont des exemples open-source notables. Les capacités incluent : description d'images, analyse de graphiques et tableaux, OCR, compréhension de maquettes, réponse à des questions sur des photos. Les VLM locaux en GGUF via llama.cpp ou Ollama permettent de traiter des images sensibles sans envoyer de données vers le cloud. La résolution de l'image et la qualité de l'encodeur visuel sont déterminantes pour les performances.

Définition complète

Termes associés