Avancé Format O

ONNX

Format d'échange de modèles de machine learning interopérable entre frameworks (PyTorch, TensorFlow, etc.).

Définition complète

ONNX (Open Neural Network Exchange) est un format open-source créé par Microsoft et Facebook permettant d'exporter des modèles entraînés dans un framework (PyTorch, TensorFlow) et de les déployer dans un autre runtime optimisé pour l'inférence. ONNX Runtime, le moteur d'inférence associé, optimise automatiquement les graphes de calcul et exploite les accélérations matérielles disponibles (CUDA, DirectML, CoreML). Pour les LLM, ONNX est utilisé pour déployer des modèles plus petits (BERT, DistilBERT, Phi) sur des appareils edge, mobiles ou en production web. Hugging Face Optimum simplifie l'export de modèles Transformers vers ONNX. Le runtime ONNX peut être 2 à 5x plus rapide que PyTorch pour l'inférence de petits modèles.