Avancé Entraînement R

RLHF (Reinforcement Learning from Human Feedback)

Technique d'alignement utilisant des préférences humaines pour entraîner un LLM à être utile, inoffensif et honnête.

Définition complète

Le RLHF est la méthode phare pour aligner les LLM sur les valeurs humaines. Elle se déroule en trois étapes : SFT (Supervised Fine-Tuning) sur des exemples de qualité, entraînement d'un modèle de récompense (reward model) à partir de comparaisons humaines entre plusieurs réponses, puis optimisation du LLM via PPO (Proximal Policy Optimization) pour maximiser la récompense. Cette technique a transformé GPT-3 (complétion brute) en InstructGPT puis ChatGPT (assistant conversationnel aligné). Des variantes plus simples comme DPO (Direct Preference Optimization) et ORPO ont émergé pour éviter la complexité de l'entraînement RL. L'alignement par RLHF introduit aussi des risques : le modèle peut « gamer » la récompense (reward hacking) et perdre en calibration. DeepSeek-R1 montre qu'un RL pur sur des récompenses vérifiables (maths, code) peut surpasser le RLHF.