Intermédiaire Architecture M

Multi-modal

Capacité d'un LLM à traiter et générer plusieurs types de données : texte, images, audio, vidéo.

Définition complète

Un modèle multi-modal peut traiter des entrées de différentes modalités - typiquement texte et images, parfois aussi audio et vidéo - et générer des sorties multi-modales. GPT-4 Vision, Claude 3, Gemini Pro Vision sont des exemples de LLM multimodaux en production. Techniquement, l'image est encodée par un encodeur visuel (souvent un Vision Transformer) en embeddings injectés dans le contexte du LLM textuel. Les modèles multimodaux ouvrent des cas d'usage comme l'analyse de documents avec schémas, la génération de code depuis des maquettes, la description d'images, ou l'interaction avec des interfaces graphiques (computer use). Les modèles générant des images (DALL-E, Stable Diffusion) sont différents des LLM multimodaux en entrée : ils utilisent des architectures de diffusion.