Intermédiaire Architecture E

Embedding

Représentation vectorielle dense d'un texte ou token capturant sa signification sémantique dans un espace mathématique.

Définition complète

Un embedding est une projection d'un texte (mot, phrase, document) dans un espace vectoriel continu de haute dimension (768 à 4096 dimensions typiquement) où des textes sémantiquement proches sont proches géographiquement. Les modèles d'embedding (text-embedding-3-small d'OpenAI, nomic-embed, e5) sont entraînés spécifiquement pour cette tâche. Ils sont au cœur des systèmes RAG : on encode les documents dans une base vectorielle (Pinecone, Qdrant, Chroma), puis on recherche les passages les plus similaires à une question par produit scalaire. La qualité d'un embedding se mesure sur des benchmarks comme MTEB. Les embeddings multilingues permettent de rechercher dans des documents de langues différentes de la requête.