Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Dans le processus de développement du domaine de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant pour garantir que ces modèles servent la société humaine avec puissance et sécurité. Les premiers efforts se sont concentrés sur la gestion de ces modèles via des méthodes d’apprentissage par renforcement avec feedback humain (RLHF), avec des résultats impressionnants marquant une étape clé vers une IA plus humaine.

Malgré son grand succès, la RLHF est très gourmande en ressources lors des entraînements. Par conséquent, ces derniers temps, les chercheurs ont continué à explorer des voies d’optimisation des politiques plus simples et plus efficaces, basées sur les bases solides posées par le RLHF, donnant ainsi naissance à l’optimisation des préférences directes (DPO). DPO obtient une cartographie directe entre la fonction de récompense et la stratégie optimale grâce à un raisonnement mathématique, éliminant le processus de formation du modèle de récompense, optimisant le modèle de stratégie directement sur les données de préférence et réalisant un saut intuitif du « feedback à la stratégie ». Cela réduit non seulement la complexité, mais améliore également la robustesse de l'algorithme, devenant rapidement le nouveau favori du secteur.

Cependant, DPO se concentre principalement sur l'optimisation des politiques sous des contraintes de divergence KL inverse. DPO est excellent pour améliorer les performances d'alignement grâce à la propriété de recherche de mode de divergence KL inverse, mais cette propriété tend également à réduire la diversité pendant le processus de génération, limitant potentiellement les capacités du modèle. D'un autre côté, bien que DPO contrôle la divergence KL du point de vue de la phrase, le processus de génération de modèle est essentiellement jeton par jeton. Le contrôle de la divergence KL au niveau de la phrase montre intuitivement que le DPO a des limites en termes de contrôle fin et une faible capacité à ajuster la divergence KL, ce qui peut être l'un des facteurs clés du déclin rapide de la diversité générative du LLM au cours de la formation DPO.

À cette fin, l'équipe de Wang Jun et Zhang Haifeng de l'Académie chinoise des sciences et de l'University College de Londres a proposé un grand algorithme d'alignement de modèles modélisé du point de vue du jeton : TDPO.

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

Titre de l'article : Optimisation des préférences directes au niveau du jeton
Adresse de l'article : https://arxiv.org/abs/2404.11999
Adresse du code : https://github.com/Vance0124 /Token-level-Direct-Preference-Optimization

Afin de faire face à la diminution significative de la diversité de la génération de modèles, TDPO a redéfini la fonction objective de l'ensemble du processus d'alignement du point de vue du jeton et a transformé le Bradley -Modèle Terry en Le convertissant sous la forme d'une fonction d'avantage permet d'analyser et d'optimiser enfin l'ensemble du processus d'alignement à partir du niveau du jeton. Par rapport au DPO, les principales contributions de TDPO sont les suivantes :

Méthode de modélisation au niveau du jeton : TDPO modélise le problème d'un point de vue au niveau du jeton et effectue une analyse plus détaillée du RLHF
KL à grain fin ; Contraintes de divergence : les contraintes de divergence KL avant sont théoriquement introduites à chaque jeton, permettant à la méthode de mieux contraindre l'optimisation du modèle ;
Avantages évidents en termes de performances : par rapport au DPO, TDPO est capable d'obtenir de meilleures performances d'alignement et de générer divers fronts de Pareto.

La principale différence entre DPO et TDPO est illustrée dans la figure ci-dessous :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

^{s L’alignement du TDPO doit être optimisé comme indiqué ci-dessous. DPO est modélisé du point de vue du niveau de la phrase}

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

^{Figure 2 : Méthode d'optimisation de l'alignement de TDPO. TDPO modélise du point de vue du jeton et introduit des contraintes de divergence KL supplémentaires à chaque jeton, comme le montre la partie rouge de la figure, qui contrôle non seulement le degré de décalage du modèle, mais sert également de référence pour l'alignement du modèle}.

Le processus de dérivation spécifique des deux méthodes est présenté ci-dessous.

Contexte : Optimisation directe des préférences (DPO)

DPO obtient une cartographie directe entre la fonction de récompense et la politique optimale par dérivation mathématique, éliminant ainsi l'étape de modélisation de la récompense dans le processus RLHF :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

Formule (1) est remplacé dans le modèle de préférence de Bradley-Terry (BT) pour obtenir la fonction de perte d'optimisation de politique directe (DPO) :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

où Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » est la paire de préférences composée d'une réponse rapide et gagnante et d'une réponse perdante de l'ensemble de données de préférence D.

TDPO

Annotation de symboles

Afin de modéliser le processus de génération séquentielle et autorégressive du modèle de langage, TDPO exprime la réponse générée sous une forme composée de T tokens Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » , où , représentent le alphabet (Glossaire).

Lorsque la génération de texte est modélisée comme un processus de décision markovien, l'état est défini comme la combinaison de l'invite et du jeton qui a été généré jusqu'à l'étape en cours, représentée par Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » , tandis que l'action correspond au prochain jeton généré, représenté par est , la récompense au niveau du jeton est définie comme .

Sur la base des définitions fournies ci-dessus, TDPO établit une fonction état-action Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » , une fonction valeur d'état et une fonction avantage pour la politique :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

où Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » représente le facteur de remise.

Apprentissage par renforcement du feedback humain d'un point de vue au niveau du jeton

TDPO modifie théoriquement la phase de modélisation des récompenses et la phase de réglage fin du RLHF, les étendant aux objectifs d'optimisation considérés du point de vue du jeton.

Pour l'étape de modélisation de la récompense, TDPO a établi la corrélation entre le modèle Bradley-Terry et la fonction avantage :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

Pour l'étape de réglage fin du RL, TDPO a défini la fonction objectif suivante :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

Dérivation

À partir de l'objectif (4), TDPO dérive la relation cartographique entre la stratégie optimale Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » et la fonction état-action sur chaque jeton :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

Où, Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » représente la fonction de partition.

En remplaçant l'équation (5) par l'équation (3), nous obtenons :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

où, Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » représente la différence dans la fonction de récompense implicite représentée par le modèle de politique et le modèle de référence , exprimée par

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

tandis que Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » est Désignant la différence de divergence KL avant au niveau de la séquence de et , pondérée par , est exprimée comme

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

Sur la base de l'équation (8), la fonction de perte de vraisemblance maximale TDPO peut être modélisée comme :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

Considérant qu'en pratique, la perte Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » a tendance à augmenter , amplifiant la différence entre et TDPO propose de modifier l'équation (9) comme :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

où Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » est un hyperparamètre, et

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

Ici, Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons » signifie Arrêter l'opérateur de propagation du gradient.

Nous résumons les fonctions de perte de TDPO et DPO comme suit :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

On peut voir que TDPO introduit ce contrôle de divergence KL vers l'avant à chaque jeton, permettant un meilleur contrôle de KL lors des changements du processus d'optimisation sans affecter les performances d'alignement. , obtenant ainsi un meilleur front de Pareto.

Paramètres expérimentaux

TDPO a mené des expériences sur les ensembles de données IMDb, Anthropic/hh-rlhf, MT-Bench.

IMDb

Sur l'ensemble de données IMDb, l'équipe a utilisé GPT-2 comme modèle de base, puis siebert/sentiment-roberta-large-english comme modèle de récompense pour évaluer les résultats du modèle politique. Les résultats expérimentaux sont présentés dans la figure 3.

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

Comme le montre la figure 3 (a), TDPO (TDPO1, TDPO2) peut obtenir un meilleur front de récompense-KL Pareto que DPO, tandis que sur la figure 3 (b) - (d) on peut voir que TDPO fonctionne extrêmement bien dans le contrôle de divergence KL, ce qui est bien meilleur que la capacité de contrôle de divergence KL de l'algorithme DPO.

Anthropic HH

Sur l'ensemble de données Anthropic/hh-rlhf, l'équipe a utilisé Pythia 2.8B comme modèle de base et a utilisé deux méthodes pour évaluer la qualité de la génération du modèle : 1) en utilisant des indicateurs existants 2) évalués à l'aide ; GPT-4.

Pour la première méthode d'évaluation, l'équipe a évalué les compromis en termes de performances d'alignement (précision) et de diversité de génération (entropie) de modèles entraînés avec différents algorithmes, comme le montre le tableau 1.

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

On peut voir que l'algorithme TDPO est non seulement meilleur que DPO et f-DPO en termes de performances d'alignement (précision), mais a également un avantage en termes de diversité de génération (entropie), qui est un indicateur clé de la réponse. générés par ces deux grands modèles. Un meilleur compromis est obtenu.

Pour la deuxième méthode d'évaluation, l'équipe a évalué la cohérence entre les modèles entraînés par différents algorithmes et préférences humaines, et les a comparés aux réponses gagnantes de l'ensemble de données, comme le montre la figure 4.

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

Les algorithmes DPO, TDPO1 et TDPO2 sont tous capables d'atteindre un taux de réussite supérieur à 50 % pour les réponses gagnantes à un coefficient de température de 0,75, ce qui est mieux conforme aux préférences humaines.

MT-Bench

Dans la dernière expérience de l'article, l'équipe a utilisé le modèle Pythia 2.8B formé sur l'ensemble de données Anthropic HH pour l'utiliser directement pour l'évaluation de l'ensemble de données MT-Bench. Les résultats sont présentés dans la figure. 5 Afficher.

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »

Sur MT-Bench, TDPO est capable d'atteindre une probabilité de gain plus élevée que les autres algorithmes, ce qui démontre pleinement la qualité supérieure des réponses générées par le modèle formé par l'algorithme TDPO.

De plus, il existe des études connexes comparant les algorithmes DPO, TDPO et SimPO. Veuillez vous référer au lien : https://www.zhihu.com/question/651021172/answer/3513696851

Basé sur le script d'évaluation fourni par. eurus, l'évaluation Les performances des modèles de base qwen-4b, mistral-0.1 et deepseek-math-base ont été obtenues par un entraînement de réglage fin basé sur différents algorithmes d'alignement DPO, TDPO et SimPO. Voici les résultats expérimentaux :

Du RLHF au DPO en passant par TDPO, les algorithmes dalignement des grands modèles sont déjà « au niveau des jetons »