Face à la pratique courante actuelle consistant à affiner les grands modèles en s'appuyant principalement sur des données générées par l'homme, Google DeepMind a exploré un moyen plus efficace de réduire cette dépendance.
Comme vous et moi pouvons le constater, les grands modèles linguistiques (LLM) changent le paysage de l'apprentissage profond, démontrant des capacités supérieures à générer du texte de qualité humaine et à résoudre diverses tâches linguistiques. Alors que l’industrie a encore amélioré ses performances sur des tâches spécifiques grâce à un réglage fin supervisé des données collectées par les humains, l’obtention de données humaines de haute qualité se heurte à d’importants goulots d’étranglement. Cela est particulièrement vrai pour les tâches qui impliquent de résoudre des problèmes complexes, nécessitant des ressources et une expertise importantes. Comment le résoudre ? Les données synthétiques générées par les modèles constituent une alternative prometteuse qui peut être évolutive et rentable tant que la qualité des données est maintenue. Bien que LLM soit capable d'auto-évaluer les données générées, dans cet article, Google DeepMind explore une configuration plus simple qui utilise un signal de rétroaction scalaire externe comme indicateur de qualité pour chaque échantillon généré.
Adresse papier : https://arxiv.org/pdf/2312.06585.pdfAfin d'étudier la formation sur des données générées par un modèle, les chercheurs ont envisagé un modèle de langage simple mais puissant d'auto-formation. La méthode ne nécessite que deux fonctions, l'une consiste à générer des échantillons basés sur le modèle et l'autre consiste à utiliser le mécanisme de notation pour évaluer ces échantillons. Afin de garantir clarté et cohérence, les chercheurs ont adopté une méthode d'auto-entraînement par renforcement ReST^??, et ont prouvé que cette méthode peut utiliser la maximisation des attentes (EM) pour l'apprentissage par renforcement. Plus précisément, ReST^?? alterne entre les étapes d'attente et de maximisation.
- Génération (E-step) : le modèle de langage génère plusieurs échantillons de sortie pour chaque contexte d'entrée, puis filtre ces échantillons à l'aide de récompenses binaires pour collecter un ensemble de données d'entraînement.
- Amélioration (étape M) : le modèle de langage d'origine est supervisé et affiné sur l'ensemble de données d'entraînement de l'étape E précédente, puis utilisé dans l'étape E suivante.
Les chercheurs ont confirmé que ReST^?? et ses variantes ont réussi à améliorer les modèles linguistiques dans divers domaines, notamment la traduction automatique, l'analyse sémantique, l'alignement des préférences et le raisonnement de base. De plus, les travaux antérieurs utilisaient principalement ReST^??pour des modèles relativement petits (jusqu'à 7 milliards de paramètres), avec une évolutivité limitée pour les modèles plus grands. Par conséquent, cet article vise à explorer l'efficacité et l'évolutivité des données synthétiques générées par un modèle par rapport aux données générées par l'homme dans deux domaines difficiles mais moins étudiés : la résolution de problèmes mathématiques à des niveaux compétitifs (MATH) et la génération de code (APPS). Les résultats empiriques montrent que lors de l'utilisation de ReST^?? pour des modèles PaLM 2 de différentes tailles, des améliorations significatives des performances sont obtenues dans les tâches de raisonnement mathématique et de génération de code. Les modèles affinés sur les données synthétiques générées par le modèle ont obtenu des gains de performances supérieurs à ceux formés sur des données écrites par l'homme. Il est intéressant de noter que les performances se dégradent au-delà d’un certain nombre d’itérations ReST^??, indiquant un risque de surajustement sur un petit nombre de problèmes d’entraînement. De plus, le modèle affiné à l'aide de ReST^?? a amélioré la métrique pass@k et les performances du vote majoritaire. Ces modèles affinés montrent également des améliorations de performances sur des tests de référence pertinents mais retenus, notamment les mathématiques (finales GSM8K et HS hongrois), le codage (HumanEval) et les tâches Big-Bench Hard. En résumé, les résultats de cet article montrent que l'auto-formation avec feedback est une méthode prometteuse pour réduire la dépendance aux données humaines. Maximum attendu (EM) pour l'auto-entraînement par renforcementPremièrement, cette étude est basée sur les recherches antérieures de Dayan et Hinton, utilisant un modèle de langage pour décrire le cadre d'apprentissage par renforcement basé sur l'EM. . Plus précisément, ils ont d’abord défini une variable binaire optimale O telle que ?(?= 1|?,?)∝?(?(?,?)); puis pour la fonction non décroissante ?: ℝ → ℝ+, ils ont atteint la maximisation observation?= 1 (obtention d'une récompense élevée), on obtient la formule suivante :
Cependant, résoudre la somme de la séquence ? dans l’équation ci-dessus est délicat. Par conséquent, cet article envisage de maximiser son ELBO ?( ??, ?) par rapport au paramètre ? et à la distribution variationnelle ?( ?|?) au lieu de maximiser log ?(? = 1; ?). Plus précisément :
L'algorithme EM dans la formule (2) alterne entre l'étape E (attente) et l'étape M (maximisation). ReST^?? : Inspiré du framework EM, le prochain article discute d'une version simplifiée de la méthode ReST proposée par Gulcehre et al. Pour plus de clarté, cet article appelle cette approche ReST^??, qui dissocie la collecte de données (étape E) et l'optimisation des politiques (étape M) dans le pipeline RL. Comme le montre l'algorithme 1 :
Génération (étape E) : Dans cette étape, l'étude génère l'ensemble de données en échantillonnant la séquence de sortie de la politique actuelle ?? Ici, l'entrée est rééchantillonnée à partir de l'ensemble de données d'origine . La séquence de sortie dans est ensuite notée à l'aide de la fonction de récompense binaire ?(?, ?). Amélioration (étape M) : Dans l'itération ?, l'étude utilise le nouvel ensemble de données dans l'étape E pour affiner la stratégie ??. Contrairement à l'étude de Gulcehre, ils affinent un modèle de langage de base pré-entraîné pour minimiser le surajustement spécifique à une tâche et minimiser les écarts par rapport au modèle de base. Pour un réglage précis, l'étude minimise la perte de log-vraisemblance négative pondérée en fonction des récompenses . Une fois la stratégie améliorée, un nouvel ensemble de données avec des échantillons de meilleure qualité peut à nouveau être créé. L'objectif principal des expériences menées dans cet article est de répondre aux questions suivantes :
- Quelle est l'efficacité de ReST ^ ?? sur les données générées par l'homme ?
- Combien d'itérations sont nécessaires pour obtenir les meilleures performances ? ReST^??Combien de temps faut-il pour que l'ensemble d'entraînement soit surajusté ?
- ReST^??Comment cela affecte-t-il pass@k et les performances du vote majoritaire ?
- Si un utilisateur utilise les données générées par le modèle pour affiner une tâche spécifique, seront-elles migrées vers d'autres tâches ? Lors de l’évaluation de notre modèle affiné sur un large éventail de tâches, les performances diminuent-elles par rapport au modèle de base ?
- Quelle quantité approximative de données d'entrée est nécessaire pour obtenir la plupart des gains de performances de ReST^??? Une itération de ReST^ est-elle suffisante ?
Cette étude a mené des expériences en utilisant le modèle PaLM 2 et des API publiques sur Google Cloud, notamment PaLM 2-S (Bison), PaLM 2-S* (Codey) et PaLM 2-L (Licorne). L'ensemble de données d'entraînement utilise l'ensemble de données MATH et l'ensemble de données APPS.
La figure 2 et la figure 3 montrent les performances de ReST^??
formé respectivement sur les ensembles de données MATH et APPS. On peut conclure que MATH bénéficie de plusieurs itérations de ReST^??, à la fois en termes de performances sur l'ensemble de tests MATH et de migration vers GSM8K. D'un autre côté, on peut voir que la majeure partie du gain pour APPS provient de la première itération, tandis que l'exécution d'un plus grand nombre d'itérations entraîne une dégradation des performances à la fois pour APPS et HumanEval.
L'écart entre l'entraînement et les performances aux tests. La figure 4 montre que si les performances de l'ensemble d'entraînement augmentent linéairement avec le nombre d'itérations ReST^??, ce n'est pas le cas des performances de l'ensemble de test. Pour MATH, peu d’amélioration des performances des tests a été observée après la première itération, tandis que pour APPS, une régression des performances a été observée lors de la deuxième itération. L'étude suppose que la régression des performances pourrait être due à un surapprentissage. Étant donné que l’ensemble de données APPS représente environ un tiers de la taille de l’ensemble de données MATH, il est plus sensible à ce problème.
La figure 5 montre les performances du modèle Palm-2-L sur la métrique pass@K. Les résultats montrent que le modèle ReST^?? obtenu après ajustement fin est plus fort pour toutes les valeurs de K, l'écart de performance étant généralement le plus grand à K=1. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!