Table des matières
Ensembles de données​
Modèle linguistique de réglage fin des instructions​
Expérience​
Maison Périphériques technologiques IA Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Apr 10, 2023 pm 02:21 PM
ai 模型

Nous savons que des modèles Google T5 aux grands modèles de la série OpenAI GPT, les grands modèles de langage (LLM) ont démontré des capacités de généralisation impressionnantes, telles que l'apprentissage contextuel et le raisonnement en chaîne de pensée. Dans le même temps, afin de permettre aux LLM de suivre les instructions en langage naturel et d’effectuer des tâches du monde réel, les chercheurs ont exploré des méthodes de réglage fin des instructions pour les LLM. Cela se fait de deux manières : en utilisant des invites et des commentaires annotés par l'homme pour affiner les modèles sur un large éventail de tâches, ou en utilisant des références et des ensembles de données publics complétés par des instructions générées manuellement ou automatiquement pour superviser le réglage fin. ​

Parmi ces méthodes, le réglage fin de l'auto-instruction est une méthode simple et efficace qui apprend de l'instruction en suivant les données générées par les LLM des enseignants de réglage fin de l'instruction SOTA, afin que les LLM soient alignés sur les intentions humaines. Les faits ont prouvé que le réglage fin de l’enseignement est devenu un moyen efficace d’améliorer les capacités de généralisation des LLM sur échantillons nuls et sur petits échantillons. ​

Le succès récent de ChatGPT et GPT-4 offre une énorme opportunité d'utiliser le réglage fin des instructions pour améliorer les LLM open source. Meta LLaMA est une famille de LLM open source avec des performances comparables aux LLM propriétaires tels que GPT-3. Pour apprendre à LLaMA à suivre les instructions, l'auto-instruction a été rapidement adoptée en raison de ses performances supérieures et de son faible coût. Par exemple, le modèle Alpaca de Stanford utilise 52 000 échantillons de conformité de commandes générés par GPT-3.5, et le modèle Vicuna utilise environ 70 000 échantillons de conformité de commandes de ShareGPT. ​

Afin de faire progresser le niveau SOTA de réglage fin de l'enseignement des LLM, Microsoft Research a utilisé GPT-4 comme modèle d'enseignant pour le réglage fin de l'auto-instruction pour la première fois dans son article "Instruction Tuning with GPT-4". ".

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

  • Adresse papier : https://arxiv.org/pdf/2304.03277.pdf
  • Adresse du projet : https://instruction-tuning-with-gpt-4.github. io/
  • Adresse GitHub : https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

Chercheur publié sur celui-ci main Les données générées par GPT-4 incluent l'ensemble de données de conformité aux instructions de 52 000 en chinois et en anglais, ainsi que les données de retour générées par GPT-4 pour évaluer la sortie des trois modèles de réglage fin des instructions. ​

D'autre part, un modèle LLaMA de réglage fin des instructions et un modèle de récompense ont été développés sur la base des données générées par GPT-4. Pour évaluer la qualité des LLM de réglage fin des instructions, les chercheurs ont évalué les échantillons de test à l'aide de trois mesures : évaluation manuelle de trois critères d'alignement, évaluation automatique basée sur le retour GPT-4 et ROUGE-L (méthode d'évaluation de synthèse automatisée) des instructions non naturelles. . un). ​

Les résultats expérimentaux vérifient l'efficacité du réglage fin des instructions LLM à l'aide des données générées par GPT-4. Les 52 000 données de conformité aux instructions en chinois et en anglais générées par GPT-4 permettent d'obtenir de meilleures performances sans échantillon sur les nouvelles tâches que les modèles SOTA précédents. Actuellement, les chercheurs ont divulgué les données générées à l'aide de GPT-4 et du code associé.

Ensembles de données​

Cette étude utilise GPT-4 pour générer les quatre ensembles de données suivants :

  • Données de suivi des instructions en anglais : pour 52 000 instructions collectées auprès d'Alpaga, chaque instruction est fournie avec une réponse GPT-4 en anglais. Cet ensemble de données est principalement utilisé pour explorer et comparer les statistiques des réponses GPT-4 et des réponses GPT-3.
  • Données de suivi des instructions chinoises : cette étude a utilisé ChatGPT pour traduire 52 000 instructions en chinois et a demandé à GPT-4 de répondre en chinois.
  • Données de comparaison : laissez GPT-4 évaluer votre réponse sur une échelle de 1 à 10. De plus, l'étude a demandé à GPT-4 de comparer et de noter les réponses de trois modèles : GPT-4, GPT-3.5 et OPT-IML. Cet ensemble de données est principalement utilisé pour former des modèles de récompense.
  • Réponses sur les instructions non naturelles : les réponses de GPT-4 sont décodées sur les trois ensembles de données de base de 68 000 instructions-entrées-sorties. Ce sous-ensemble est utilisé pour quantifier l'écart entre GPT-4 et le modèle de réglage fin des instructions. ​

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

La figure 1 compare les ensembles de réponses de sortie en anglais de GPT-4 et GPT-3.5. Les figures 1 (a) et (b) montrent deux ensembles de sorties de paires verbe-nom avec une fréquence supérieure à 10. La figure 1 (c) compare les 25 paires de mots les plus fréquentes dans les deux ensembles. distribution de fréquence des longueurs de séquence, et les résultats montrent que GPT-4 a tendance à générer des séquences plus longues que GPT-3.5.

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Modèle linguistique de réglage fin des instructions​

Cette étude est basée sur le point de contrôle LLaMA 7B et utilise un réglage fin supervisé pour former deux modèles : (i) LLaMA-GPT4, sur 52 000 données de conformité des instructions en anglais générées par Train GPT-4. (ii) LLaMA-GPT4-CN, formé sur l'instruction chinoise 52K, suit les données générées à partir de GPT-4.

Modèle de récompense

L'apprentissage par renforcement avec rétroaction humaine (RLHF) vise à rendre le comportement LLM cohérent avec les préférences humaines. La modélisation des récompenses est l'un de ses éléments clés. Ce problème est souvent formulé comme une tâche de régression. prédire la récompense entre un signal donné et une réponse. Cependant, cette méthode nécessite généralement des données comparatives à grande échelle. Les modèles open source existants tels que Alpaca, Vicuna et Dolly n'impliquent pas RLHF en raison du coût élevé de l'annotation des données comparatives. Dans le même temps, des recherches récentes montrent que GPT-4 est capable d'identifier et de réparer ses propres erreurs et de juger avec précision la qualité des réponses. Par conséquent, pour faciliter la recherche sur le RLHF, cette étude a créé des données comparatives à l'aide de GPT-4, comme décrit ci-dessus.

Pour évaluer la qualité des données, l'étude a également formé un modèle de récompense basé sur OPT 1.3B pour l'évaluation de cet ensemble de données. La distribution des données de comparaison est illustrée à la figure 2 .

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Expérience​

Cette étude utilise les trois types d'évaluations suivants : l'évaluation humaine, le GPT-4 et l'évaluation des instructions non naturelles. Les résultats confirment que l'utilisation des données générées par GPT-4 est une méthode efficace et efficiente pour affiner les instructions LLM par rapport à d'autres données générées par la machine. Nous examinons ensuite le processus expérimental spécifique.

Évaluation humaine

La figure 3 (a) montre les résultats de la comparaison LLaMA-GPT4 vs Alpaca. L'expérience montre que sous l'indicateur d'utilité, GPT-4 gagne avec un score de 54,12 %. La figure 3 (b) montre les résultats de comparaison de LLaMA-GPT4 par rapport à GPT-4, ce qui montre que les performances de LLaMA affinées par les instructions GPT-4 sont similaires à celles du GPT-4 d'origine.

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Comparez avec SOTA en utilisant l'évaluation automatique

Cette étude utilise GPT-4 pour évaluer automatiquement les réponses de différents modèles sur 80 questions inédites. Collectez d'abord les réponses de deux chatbots, LLaMA-GPT-4 (7B) et GPT-4, et publiez les réponses à l'aide d'autres chatbots, notamment LLaMA (13B), Alpaca (13B), Vicuna (13B), Bard (Google, 2023) et ChatGPT. Pour chaque évaluation, l'étude a demandé à GPT-4 d'évaluer la qualité de la réponse entre les deux modèles sur une échelle de 1 à 10. Les résultats sont présentés dans la figure 4.

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

La figure 4 (c,d) compare tous les chatbots. LLaMA_GPT4 est plus performant : 7B LLaMA GPT4 est plus performant que 13B Alpaca et LLaMA. Cependant, LLaMA_GPT4 présente encore un écart par rapport aux grands chatbots commerciaux tels que GPT-4. ​

Les chercheurs ont étudié plus en détail les performances de tous les chatbots dans la figure 5 ci-dessous. Utilisez d'abord GPT-4 pour traduire les réponses anglaises du chatbot en chinois, puis utilisez GPT-4 pour traduire les questions anglaises en chinois afin d'obtenir les réponses. Les comparaisons avec les traductions GPT-4 et les réponses chinoises générées sont présentées en 5 (a) et 5 (b), tous les résultats du modèle étant invités à répondre en chinois en 5 (c).

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Dans la figure 6 ci-dessous, les chercheurs comparent LLaMA-GPT4 avec les instructions non naturelles de GPT-4 et Alpaca. Les résultats montrent que LLaMA-GPT4 et GPT-4 fonctionnent mieux à mesure que la longueur de réponse de la vérité terrain augmente. Cela signifie qu’ils peuvent mieux suivre les instructions lorsque les scènes sont plus créatives. LLaMA-GPT4 et GPT-4 peuvent tous deux générer des réponses contenant des réponses simples de vérité terrain lorsque la longueur de la séquence est courte, et l'ajout de mots supplémentaires peut rendre la réponse plus proche d'un chat.

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Veuillez vous référer à l'article original pour plus de détails techniques et expérimentaux.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment changer la taille d'une liste de bootstrap? Comment changer la taille d'une liste de bootstrap? Apr 07, 2025 am 10:45 AM

La taille d'une liste d'amorçage dépend de la taille du conteneur qui contient la liste, pas de la liste elle-même. L'utilisation du système de grille de bootstrap ou de Flexbox peut contrôler la taille du conteneur, redimentant ainsi indirectement les éléments de la liste.

Comment implémenter la nidification des listes de bootstrap? Comment implémenter la nidification des listes de bootstrap? Apr 07, 2025 am 10:27 AM

Les listes imbriquées dans Bootstrap nécessitent l'utilisation du système de grille de bootstrap pour contrôler le style. Tout d'abord, utilisez la couche extérieure & lt; ul & gt; et & lt; li & gt; Pour créer une liste, alors enveloppez la liste des calques intérieure dans & lt; div class = & quot; row & gt; et ajouter & lt; div class = & quot; col-md-6 & quot; & gt; à la liste des calques intérieure pour spécifier que la liste des calques intérieure occupe la moitié de la largeur d'une ligne. De cette façon, la liste intérieure peut avoir la bonne

Comment ajouter des icônes à la liste Bootstrap? Comment ajouter des icônes à la liste Bootstrap? Apr 07, 2025 am 10:42 AM

Comment ajouter des icônes à la liste Bootstrap: fourre directement l'icône dans l'élément de liste & lt; li & gt;, en utilisant le nom de classe fourni par la bibliothèque d'icônes (comme Font Awesome). Utilisez la classe bootstrap pour aligner les icônes et le texte (par exemple, d-flex, justifier-content-between, align-items-center). Utilisez le composant Bootstrap Tag (badge) pour afficher les numéros ou l'état. Ajustez la position de l'icône (Flex-Direction: Row-Reverse;), Contrôlez le style (style CSS). Erreur commune: l'icône ne s'affiche pas (pas

Quelle méthode est utilisée pour convertir les chaînes en objets dans vue.js? Quelle méthode est utilisée pour convertir les chaînes en objets dans vue.js? Apr 07, 2025 pm 09:39 PM

Lors de la conversion des chaînes en objets dans vue.js, JSON.Parse () est préféré pour les chaînes JSON standard. Pour les chaînes JSON non standard, la chaîne peut être traitée en utilisant des expressions régulières et réduisez les méthodes en fonction du format ou du codé décodé par URL. Sélectionnez la méthode appropriée en fonction du format de chaîne et faites attention aux problèmes de sécurité et d'encodage pour éviter les bogues.

Comment afficher le système de grille de bootstrap Comment afficher le système de grille de bootstrap Apr 07, 2025 am 09:48 AM

Le système de maillage de Bootstrap est une règle pour construire rapidement des dispositions réactives, composées de trois classes principales: conteneur (conteneur), ligne (ligne) et col (colonne). Par défaut, des grilles à 12 colonnes sont fournies et la largeur de chaque colonne peut être ajustée via des classes auxiliaires telles que Col-MD-, réalisant ainsi l'optimisation de mise en page pour différentes tailles d'écran. En utilisant des classes de décalage et des mailles imbriquées, la flexibilité de mise en page peut être étendue. Lorsque vous utilisez un système de grille, assurez-vous que chaque élément a la bonne structure de nidification et envisagez une optimisation des performances pour améliorer la vitesse de chargement des pages. Ce n'est que par une compréhension et une pratique approfondies que nous pouvons maîtriser avec compétence le système de grille bootstrap.

Quels changements ont été apportés avec le style de liste de bootstrap 5? Quels changements ont été apportés avec le style de liste de bootstrap 5? Apr 07, 2025 am 11:09 AM

Les modifications de style de la liste Bootstrap 5 sont principalement dues à l'optimisation des détails et à l'amélioration sémantique, notamment: les marges par défaut des listes non ordonnées sont simplifiées, et les effets visuels sont plus propres et soignés; Le style de liste met l'accent sur la sémantique, l'amélioration de l'accessibilité et la maintenabilité.

Comment afficher la conception réactive de Bootstrap Comment afficher la conception réactive de Bootstrap Apr 07, 2025 am 10:30 AM

Bootstrap Responsive Design ajuste automatiquement l'effet d'affichage de la page sur différentes tailles d'écran via la requête multimédia CSS. Il a prédéfini une série de points d'arrêt sous différentes tailles d'écran et a appliqué dynamiquement différents styles en fonction de la largeur de l'écran pour réaliser l'adaptation de la page.

Comment enregistrer les composants exportés par défaut d'exportation en Vue Comment enregistrer les composants exportés par défaut d'exportation en Vue Apr 07, 2025 pm 06:24 PM

Question: Comment enregistrer un composant VUE exporté via l'exportation par défaut? Réponse: Il existe trois méthodes d'enregistrement: Enregistrement global: utilisez la méthode Vue.Component () pour vous inscrire en tant que composant global. Inscription locale: Inscrivez-vous dans l'option Composants, disponible uniquement dans le composant actuel et ses sous-composants. Enregistrement dynamique: utilisez la méthode Vue.Component () pour vous inscrire après le chargement du composant.

See all articles