Afin d'aligner les grands modèles de langage (LLM) sur les valeurs et les intentions humaines, il est crucial d'apprendre les commentaires humains pour garantir qu'ils sont utiles, honnêtes et inoffensifs. En termes d'alignement des LLM, une approche efficace est l'apprentissage par renforcement basé sur la rétroaction humaine (RLHF). Bien que les résultats de la méthode RLHF soient excellents, certains défis d’optimisation sont impliqués. Cela implique de former un modèle de récompense, puis d'optimiser un modèle politique pour maximiser cette récompense.
Récemment, certains chercheurs ont exploré des algorithmes hors ligne plus simples, dont l'optimisation directe des préférences (DPO). DPO apprend un modèle de politique directement basé sur les données de préférences en paramétrant la fonction de récompense dans RLHF, éliminant ainsi le besoin d'un modèle de récompense explicite. Cette méthode est simple et stable et a été largement utilisée dans la pratique.
Lors de l'utilisation du DPO, le moyen d'obtenir des récompenses implicites consiste à utiliser le logarithme du rapport de vraisemblance de réponse entre le modèle de politique actuel et le modèle de réglage fin supervisé (SFT). Cependant, cette façon de structurer la récompense ne correspond pas directement à la métrique générée par le bootstrap, qui correspond approximativement au logarithme moyen de la réponse générée par le modèle politique. Cette différence entre formation et inférence peut conduire à de mauvaises performances.
À cette fin, Meng Rui, professeur adjoint à l'Université de Virginie, Xia Mengzhou, doctorante à l'Université de Princeton, et Chen Danqi, professeur adjoint, ont proposé conjointement SimPO - un algorithme d'optimisation des préférences hors ligne simple et efficace. . La conception de SimPO est basée sur la modélisation du problème d'optimisation comme un problème de minimisation d'une fonction boîte noire continue. Grâce à une itération continue, SimPO est capable de trouver la meilleure stratégie d'optimisation et d'obtenir une convergence efficace. Par rapport aux algorithmes d'optimisation traditionnels,
Le cœur de l'algorithme est de combiner la fonction de récompense dans l'objectif d'optimisation des préférences avec l’alignement des indicateurs de génération. SimPO se compose de deux éléments principaux : (1) une récompense dont la longueur est normalisée, calculée comme la probabilité moyenne du journal de tous les jetons de la récompense à l'aide du modèle politique (2) une différence de récompense cible pour garantir les gains et les pertes. La différence de récompense entre les réponses ; dépasse cette différence.
Pour résumer, SimPO présente les caractéristiques suivantes :
L'équipe a mené une analyse approfondie et les résultats ont montré que SimPO peut utiliser plus efficacement les données de préférence pour classer plus précisément la probabilité de réponses de haute et de mauvaise qualité sur l'ensemble de validation, ce qui permet en outre de créer une meilleure stratégie. des modèles.
Comme le montre le tableau 1, l'équipe a construit un modèle avec des performances optimales basé sur Llama3-8B-instruct, qui a atteint un taux de victoire contrôlé en longueur de 44,7 sur AlpacaEval 2, dépassant le classement Claude 3 Opus ; de plus, son taux de victoire sur Arena-Hard est de 33,8, ce qui en fait le modèle open source 8B le plus puissant actuellement.
Pour faciliter la compréhension, ce qui suit présente d'abord le contexte du DPO, puis explique la différence entre la récompense du DPO et la mesure de probabilité utilisée pour la génération, et propose un modèle sans référence formule de récompense alternative pour atténuer ce problème. Enfin, l'objectif SimPO est dérivé en intégrant le terme de marge de récompense cible dans le modèle Bradley-Terry.
Contexte : Optimisation directe des préférences (DPO)
DPO est l'une des méthodes d'optimisation des préférences hors ligne les plus couramment utilisées. DPO n'apprend pas de modèle de récompense explicite, mais utilise une expression fermée avec une politique optimale pour reparamétrer la fonction de récompense r :
où π_θ est le modèle de politique, π_ref est la référence politique (généralement le modèle SFT) et Z (x) est la fonction de partition. En intégrant cette façon de créer des récompenses dans l'objectif de classement Bradley-Terry (BT), , le DPO peut utiliser un modèle de politique au lieu d'un modèle de récompense pour représenter la probabilité des données de préférence, ce qui aboutit à l'objectif suivant :
où (x, y_w, y_l) est la paire de préférences composée d'une réponse rapide, gagnante et d'une réponse perdante de l'ensemble de données de préférence D.
Une récompense simple sans référence et alignée sur les résultats générés
La différence entre les récompenses DPO et générées. L'utilisation de l'équation (1) comme expression implicite de récompense présente les inconvénients suivants : (1) La phase d'entraînement nécessite un modèle de référence π_ref, ce qui entraînera des coûts de mémoire et de calcul supplémentaires ; (2) La récompense optimisée dans la phase d'entraînement et la génération utilisée ; en inférence Il existe des différences entre les indicateurs. Plus précisément, dans l'étape de génération, le modèle politique π_θ est utilisé pour générer une séquence qui peut approximativement maximiser la log-vraisemblance moyenne, définie comme suit :
Il est très difficile de maximiser directement cet indicateur lors du décodage. processus , diverses stratégies de décodage peuvent être utilisées pour cela, telles que le décodage glouton, la recherche de faisceaux, l'échantillonnage par noyau et l'échantillonnage top-k. De plus, cette métrique est souvent utilisée pour classer les options lorsque les modèles linguistiques effectuent des tâches de sélection multiple. Dans DPO, pour tout triplet (x, y_w, y_l), satisfaire au classement de récompense r (x, y_w) > r (x, y_l) ne signifie pas nécessairement satisfaire au classement de probabilité . En fait, lors de l'entraînement avec DPO, seulement environ 50 % des triplés de l'ensemble d'exclusion remplissent cette condition (voir Figure 4b).
Construisez des récompenses de longueur normalisée. Naturellement, nous envisagerions d'utiliser p_θ dans (3) pour remplacer la construction de récompense dans DPO afin qu'elle s'aligne sur la métrique de vraisemblance générée par le bootstrap. Il en résulte une récompense dont la longueur est normalisée :
où β est une constante qui contrôle la taille de la différence de récompense. L'équipe a constaté que la normalisation des récompenses en fonction de la longueur de la réponse est essentielle ; la suppression du terme de normalisation de la longueur de la formule de récompense a amené le modèle à avoir tendance à générer des séquences plus longues mais de moindre qualité. Cela élimine le besoin d’un modèle de référence pour créer des récompenses, ce qui se traduit par une mémoire et une efficacité de calcul supérieures à celles des algorithmes qui s’appuient sur des modèles de référence.
SimPO Target
Différence de récompense cible. En outre, l'équipe a également introduit un terme de différence de récompense cible γ > 0 pour l'objectif de Bradley-Terry afin de garantir que la récompense r (x, y_w) de la réponse gagnante dépasse la récompense r (x, y_l) de la réponse échouée. d'au moins γ :
La différence entre deux classes est connue pour affecter la capacité de généralisation du classificateur. Dans les paramètres de formation standard utilisant l'initialisation aléatoire du modèle, l'augmentation de la marge cible améliore généralement les performances de généralisation. Dans l'optimisation des préférences, ces deux catégories gagnent ou perdent des réponses à une seule entrée.
En pratique, l'équipe a observé qu'à mesure que la différence cible augmente, la qualité de la génération s'améliore dans un premier temps, mais que lorsque la différence devient trop importante, la qualité de la génération diminue. Une variante du DPO, l'IPO, construit également une marge de récompense cible similaire à SimPO, mais son objectif global est moins efficace que SimPO.
Objectifs. Enfin, en remplaçant l'équation (4) par l'équation (5), la cible SimPO peut être obtenue :
En résumé, SimPO adopte une forme de récompense implicite directement alignée sur l'indicateur généré, éliminant ainsi le besoin d’exigences en matière de modèle de référence. De plus, il introduit une différence de récompense cible γ pour séparer les réponses gagnantes et perdantes.
Configuration du modèle et de la formation. Les expériences de l'équipe ont utilisé deux types de modèles, Llama3-8B et Mistral-7B, dans les paramètres Base et Instruct.
Benchmark d'évaluation. L'équipe a utilisé trois des benchmarks de conformité ouverts les plus couramment utilisés : MT-Bench, AlpacaEval 2 et Arena-Hard v0.1. Ces benchmarks évaluent les diverses capacités conversationnelles d'un modèle sur une variété de requêtes et ont été largement adoptés par la communauté. Le tableau 2 donne quelques détails.
Méthode de base. Le tableau 3 répertorie d'autres méthodes d'optimisation des préférences hors ligne par rapport à SimPO.
Principaux résultats et études d'ablation
SimPO fonctionne toujours nettement mieux que les méthodes d'optimisation des préférences existantes. Comme le montre le tableau 4, bien que tous les algorithmes d'optimisation des préférences fonctionnent mieux que le modèle SFT, le simple SimPO atteint les meilleures performances sur tous les tests et paramètres. Une avance aussi importante à tous les niveaux démontre la robustesse et l’efficacité de SimPO.
La qualité des références varie. On peut observer que le taux de victoire sur Arena-Hard est nettement inférieur au taux de victoire sur AlpacaEval 2, ce qui indique qu'Arena-Hard est une référence plus difficile.
Les paramètres d'instruction apporteront des gains de performances significatifs. Comme on peut le voir, la configuration Instruct surpasse la configuration de base dans tous les domaines sur tous les benchmarks. Cela peut être dû à l'utilisation de modèles SFT de meilleure qualité pour l'initialisation par ces modèles et à la meilleure qualité des données de préférence générées par ces modèles.
Deux conceptions clés de SimPO sont importantes. Le tableau 5 montre les résultats des expériences d'ablation pour chaque conception clé de SimPO. (1) Supprimez la normalisation de la longueur dans (4) (c'est-à-dire sans LN) ; (2) Définissez la différence de récompense cible dans (6) sur 0 (c'est-à-dire γ = 0).
La suppression de la normalisation de la longueur a le plus grand impact sur les résultats. Les recherches de l'équipe ont révélé que le modèle générait des modèles longs et répétitifs, ce qui réduisait considérablement la qualité globale du résultat. Définir γ sur 0 entraîne également une dégradation des performances de SimPO, indiquant que 0 n'est pas la marge de récompense cible optimale.
Voir l'article original pour une analyse plus approfondie de ces deux choix de conception.
Comparaison approfondie de DPO et SimPO
Enfin, l'équipe a également comparé de manière exhaustive DPO et SimPO sous quatre perspectives : (1) corrélation probabilité-longueur, (2) construction de récompense, ( 3 ) Précision des récompenses, (4) Efficacité algorithmique. Les résultats montrent que SimPO surpasse DPO en termes de précision et d’efficacité.
Les récompenses DPO favorisent implicitement la normalisation de la longueur.
Bien que l'expression de récompense DPO (sans la fonction de partition) ne dispose pas d'un terme explicite pour la normalisation de la longueur, le rapport logarithmique entre le modèle politique et le modèle de référence peut être implicitement destiné à compenser le biais de longueur. Comme le montrent le tableau 6 et la figure 4a, l'utilisation de DPO réduit le coefficient de corrélation de Spearman entre la log-vraisemblance moyenne et la longueur de réponse par rapport à la méthode sans aucune normalisation de la longueur (notée SimPO sans LN). Cependant, il montre toujours une corrélation positive plus forte que SimPO.
La récompense DPO ne correspond pas à la probabilité générée.
Il existe une différence entre la récompense du DPO et la métrique de log-vraisemblance moyenne, qui affecte directement la génération. Comme le montre la figure 4b, dans l'instance de l'ensemble d'entraînement UltraFeedback, où , près de la moitié des paires de données ont . En revanche, SimPO utilise directement la log-vraisemblance moyenne (mise à l'échelle par β) comme expression de récompense, éliminant ainsi complètement la différence.
DPO n'est pas aussi bon que SimPO en termes de précision des récompenses.
La figure 4c compare la précision des récompenses de SimPO et DPO, qui évalue dans quelle mesure leurs récompenses finales apprises s'alignent avec les étiquettes de préférence sur l'ensemble d'exclusion. On peut observer que la précision des récompenses de SimPO est supérieure à celle de DPO, ce qui indique que la conception des récompenses de SimPO permet d'obtenir une généralisation plus efficace et une génération de meilleure qualité.
SimPO est plus efficace en termes de mémoire et de calcul que DPO.
Un autre gros avantage de SimPO est son efficacité, après tout, il n'utilise pas de modèle de référence. La figure 4d présente la durée d'exécution globale et l'utilisation maximale de la mémoire par GPU pour SimPO et DPO lors de l'utilisation de la configuration Llama3-Base sur un GPU 8 × H100. SimPO réduit le temps d'exécution d'environ 20 % et l'utilisation de la mémoire GPU d'environ 10 % par rapport à l'implémentation DPO d'origine, grâce à l'élimination des passes avant à l'aide du modèle de référence.
Pour plus de détails, veuillez lire l'article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!