Table des matières
Ensembles de données​
Modèle linguistique de réglage fin des instructions​
Expérience​
Maison Périphériques technologiques IA Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Apr 10, 2023 pm 02:21 PM
ai 模型

Nous savons que des modèles Google T5 aux grands modèles de la série OpenAI GPT, les grands modèles de langage (LLM) ont démontré des capacités de généralisation impressionnantes, telles que l'apprentissage contextuel et le raisonnement en chaîne de pensée. Dans le même temps, afin de permettre aux LLM de suivre les instructions en langage naturel et d’effectuer des tâches du monde réel, les chercheurs ont exploré des méthodes de réglage fin des instructions pour les LLM. Cela se fait de deux manières : en utilisant des invites et des commentaires annotés par l'homme pour affiner les modèles sur un large éventail de tâches, ou en utilisant des références et des ensembles de données publics complétés par des instructions générées manuellement ou automatiquement pour superviser le réglage fin. ​

Parmi ces méthodes, le réglage fin de l'auto-instruction est une méthode simple et efficace qui apprend de l'instruction en suivant les données générées par les LLM des enseignants de réglage fin de l'instruction SOTA, afin que les LLM soient alignés sur les intentions humaines. Les faits ont prouvé que le réglage fin de l’enseignement est devenu un moyen efficace d’améliorer les capacités de généralisation des LLM sur échantillons nuls et sur petits échantillons. ​

Le succès récent de ChatGPT et GPT-4 offre une énorme opportunité d'utiliser le réglage fin des instructions pour améliorer les LLM open source. Meta LLaMA est une famille de LLM open source avec des performances comparables aux LLM propriétaires tels que GPT-3. Pour apprendre à LLaMA à suivre les instructions, l'auto-instruction a été rapidement adoptée en raison de ses performances supérieures et de son faible coût. Par exemple, le modèle Alpaca de Stanford utilise 52 000 échantillons de conformité de commandes générés par GPT-3.5, et le modèle Vicuna utilise environ 70 000 échantillons de conformité de commandes de ShareGPT. ​

Afin de faire progresser le niveau SOTA de réglage fin de l'enseignement des LLM, Microsoft Research a utilisé GPT-4 comme modèle d'enseignant pour le réglage fin de l'auto-instruction pour la première fois dans son article "Instruction Tuning with GPT-4". ".

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

  • Adresse papier : https://arxiv.org/pdf/2304.03277.pdf
  • Adresse du projet : https://instruction-tuning-with-gpt-4.github. io/
  • Adresse GitHub : https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

Chercheur publié sur celui-ci main Les données générées par GPT-4 incluent l'ensemble de données de conformité aux instructions de 52 000 en chinois et en anglais, ainsi que les données de retour générées par GPT-4 pour évaluer la sortie des trois modèles de réglage fin des instructions. ​

D'autre part, un modèle LLaMA de réglage fin des instructions et un modèle de récompense ont été développés sur la base des données générées par GPT-4. Pour évaluer la qualité des LLM de réglage fin des instructions, les chercheurs ont évalué les échantillons de test à l'aide de trois mesures : évaluation manuelle de trois critères d'alignement, évaluation automatique basée sur le retour GPT-4 et ROUGE-L (méthode d'évaluation de synthèse automatisée) des instructions non naturelles. . un). ​

Les résultats expérimentaux vérifient l'efficacité du réglage fin des instructions LLM à l'aide des données générées par GPT-4. Les 52 000 données de conformité aux instructions en chinois et en anglais générées par GPT-4 permettent d'obtenir de meilleures performances sans échantillon sur les nouvelles tâches que les modèles SOTA précédents. Actuellement, les chercheurs ont divulgué les données générées à l'aide de GPT-4 et du code associé.

Ensembles de données​

Cette étude utilise GPT-4 pour générer les quatre ensembles de données suivants :

  • Données de suivi des instructions en anglais : pour 52 000 instructions collectées auprès d'Alpaga, chaque instruction est fournie avec une réponse GPT-4 en anglais. Cet ensemble de données est principalement utilisé pour explorer et comparer les statistiques des réponses GPT-4 et des réponses GPT-3.
  • Données de suivi des instructions chinoises : cette étude a utilisé ChatGPT pour traduire 52 000 instructions en chinois et a demandé à GPT-4 de répondre en chinois.
  • Données de comparaison : laissez GPT-4 évaluer votre réponse sur une échelle de 1 à 10. De plus, l'étude a demandé à GPT-4 de comparer et de noter les réponses de trois modèles : GPT-4, GPT-3.5 et OPT-IML. Cet ensemble de données est principalement utilisé pour former des modèles de récompense.
  • Réponses sur les instructions non naturelles : les réponses de GPT-4 sont décodées sur les trois ensembles de données de base de 68 000 instructions-entrées-sorties. Ce sous-ensemble est utilisé pour quantifier l'écart entre GPT-4 et le modèle de réglage fin des instructions. ​

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

La figure 1 compare les ensembles de réponses de sortie en anglais de GPT-4 et GPT-3.5. Les figures 1 (a) et (b) montrent deux ensembles de sorties de paires verbe-nom avec une fréquence supérieure à 10. La figure 1 (c) compare les 25 paires de mots les plus fréquentes dans les deux ensembles. distribution de fréquence des longueurs de séquence, et les résultats montrent que GPT-4 a tendance à générer des séquences plus longues que GPT-3.5.

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Modèle linguistique de réglage fin des instructions​

Cette étude est basée sur le point de contrôle LLaMA 7B et utilise un réglage fin supervisé pour former deux modèles : (i) LLaMA-GPT4, sur 52 000 données de conformité des instructions en anglais générées par Train GPT-4. (ii) LLaMA-GPT4-CN, formé sur l'instruction chinoise 52K, suit les données générées à partir de GPT-4.

Modèle de récompense

L'apprentissage par renforcement avec rétroaction humaine (RLHF) vise à rendre le comportement LLM cohérent avec les préférences humaines. La modélisation des récompenses est l'un de ses éléments clés. Ce problème est souvent formulé comme une tâche de régression. prédire la récompense entre un signal donné et une réponse. Cependant, cette méthode nécessite généralement des données comparatives à grande échelle. Les modèles open source existants tels que Alpaca, Vicuna et Dolly n'impliquent pas RLHF en raison du coût élevé de l'annotation des données comparatives. Dans le même temps, des recherches récentes montrent que GPT-4 est capable d'identifier et de réparer ses propres erreurs et de juger avec précision la qualité des réponses. Par conséquent, pour faciliter la recherche sur le RLHF, cette étude a créé des données comparatives à l'aide de GPT-4, comme décrit ci-dessus.

Pour évaluer la qualité des données, l'étude a également formé un modèle de récompense basé sur OPT 1.3B pour l'évaluation de cet ensemble de données. La distribution des données de comparaison est illustrée à la figure 2 .

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Expérience​

Cette étude utilise les trois types d'évaluations suivants : l'évaluation humaine, le GPT-4 et l'évaluation des instructions non naturelles. Les résultats confirment que l'utilisation des données générées par GPT-4 est une méthode efficace et efficiente pour affiner les instructions LLM par rapport à d'autres données générées par la machine. Nous examinons ensuite le processus expérimental spécifique.

Évaluation humaine

La figure 3 (a) montre les résultats de la comparaison LLaMA-GPT4 vs Alpaca. L'expérience montre que sous l'indicateur d'utilité, GPT-4 gagne avec un score de 54,12 %. La figure 3 (b) montre les résultats de comparaison de LLaMA-GPT4 par rapport à GPT-4, ce qui montre que les performances de LLaMA affinées par les instructions GPT-4 sont similaires à celles du GPT-4 d'origine.

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Comparez avec SOTA en utilisant l'évaluation automatique

Cette étude utilise GPT-4 pour évaluer automatiquement les réponses de différents modèles sur 80 questions inédites. Collectez d'abord les réponses de deux chatbots, LLaMA-GPT-4 (7B) et GPT-4, et publiez les réponses à l'aide d'autres chatbots, notamment LLaMA (13B), Alpaca (13B), Vicuna (13B), Bard (Google, 2023) et ChatGPT. Pour chaque évaluation, l'étude a demandé à GPT-4 d'évaluer la qualité de la réponse entre les deux modèles sur une échelle de 1 à 10. Les résultats sont présentés dans la figure 4.

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

La figure 4 (c,d) compare tous les chatbots. LLaMA_GPT4 est plus performant : 7B LLaMA GPT4 est plus performant que 13B Alpaca et LLaMA. Cependant, LLaMA_GPT4 présente encore un écart par rapport aux grands chatbots commerciaux tels que GPT-4. ​

Les chercheurs ont étudié plus en détail les performances de tous les chatbots dans la figure 5 ci-dessous. Utilisez d'abord GPT-4 pour traduire les réponses anglaises du chatbot en chinois, puis utilisez GPT-4 pour traduire les questions anglaises en chinois afin d'obtenir les réponses. Les comparaisons avec les traductions GPT-4 et les réponses chinoises générées sont présentées en 5 (a) et 5 (b), tous les résultats du modèle étant invités à répondre en chinois en 5 (c).

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Dans la figure 6 ci-dessous, les chercheurs comparent LLaMA-GPT4 avec les instructions non naturelles de GPT-4 et Alpaca. Les résultats montrent que LLaMA-GPT4 et GPT-4 fonctionnent mieux à mesure que la longueur de réponse de la vérité terrain augmente. Cela signifie qu’ils peuvent mieux suivre les instructions lorsque les scènes sont plus créatives. LLaMA-GPT4 et GPT-4 peuvent tous deux générer des réponses contenant des réponses simples de vérité terrain lorsque la longueur de la séquence est courte, et l'ajout de mots supplémentaires peut rendre la réponse plus proche d'un chat.

Pour la première fois : Microsoft utilise GPT-4 pour affiner les instructions des grands modèles, et les performances sans échantillon des nouvelles tâches sont encore améliorées.

Veuillez vous référer à l'article original pour plus de détails techniques et expérimentaux.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Quelle méthode est utilisée pour convertir les chaînes en objets dans vue.js? Quelle méthode est utilisée pour convertir les chaînes en objets dans vue.js? Apr 07, 2025 pm 09:39 PM

Lors de la conversion des chaînes en objets dans vue.js, JSON.Parse () est préféré pour les chaînes JSON standard. Pour les chaînes JSON non standard, la chaîne peut être traitée en utilisant des expressions régulières et réduisez les méthodes en fonction du format ou du codé décodé par URL. Sélectionnez la méthode appropriée en fonction du format de chaîne et faites attention aux problèmes de sécurité et d'encodage pour éviter les bogues.

Comment utiliser MySQL après l'installation Comment utiliser MySQL après l'installation Apr 08, 2025 am 11:48 AM

L'article présente le fonctionnement de la base de données MySQL. Tout d'abord, vous devez installer un client MySQL, tel que MySQLWorkBench ou le client de ligne de commande. 1. Utilisez la commande MySQL-UROot-P pour vous connecter au serveur et connecter avec le mot de passe du compte racine; 2. Utilisez Createdatabase pour créer une base de données et utilisez Sélectionner une base de données; 3. Utilisez CreateTable pour créer une table, définissez des champs et des types de données; 4. Utilisez InsertInto pour insérer des données, remettre en question les données, mettre à jour les données par mise à jour et supprimer les données par Supprimer. Ce n'est qu'en maîtrisant ces étapes, en apprenant à faire face à des problèmes courants et à l'optimisation des performances de la base de données que vous pouvez utiliser efficacement MySQL.

Comment résoudre MySQL ne peut pas être démarré Comment résoudre MySQL ne peut pas être démarré Apr 08, 2025 pm 02:21 PM

Il existe de nombreuses raisons pour lesquelles la startup MySQL échoue, et elle peut être diagnostiquée en vérifiant le journal des erreurs. Les causes courantes incluent les conflits de port (vérifier l'occupation du port et la configuration de modification), les problèmes d'autorisation (vérifier le service exécutant les autorisations des utilisateurs), les erreurs de fichier de configuration (vérifier les paramètres des paramètres), la corruption du répertoire de données (restaurer les données ou reconstruire l'espace de la table), les problèmes d'espace de la table InNODB (vérifier les fichiers IBDATA1), la défaillance du chargement du plug-in (vérification du journal des erreurs). Lors de la résolution de problèmes, vous devez les analyser en fonction du journal d'erreur, trouver la cause profonde du problème et développer l'habitude de sauvegarder régulièrement les données pour prévenir et résoudre des problèmes.

Géospatial de Laravel: optimisation des cartes interactives et de grandes quantités de données Géospatial de Laravel: optimisation des cartes interactives et de grandes quantités de données Apr 08, 2025 pm 12:24 PM

Traiter efficacement 7 millions d'enregistrements et créer des cartes interactives avec la technologie géospatiale. Cet article explore comment traiter efficacement plus de 7 millions d'enregistrements en utilisant Laravel et MySQL et les convertir en visualisations de cartes interactives. Exigences initiales du projet de défi: extraire des informations précieuses en utilisant 7 millions d'enregistrements dans la base de données MySQL. Beaucoup de gens considèrent d'abord les langages de programmation, mais ignorent la base de données elle-même: peut-il répondre aux besoins? La migration des données ou l'ajustement structurel est-il requis? MySQL peut-il résister à une charge de données aussi importante? Analyse préliminaire: les filtres et les propriétés clés doivent être identifiés. Après analyse, il a été constaté que seuls quelques attributs étaient liés à la solution. Nous avons vérifié la faisabilité du filtre et établi certaines restrictions pour optimiser la recherche. Recherche de cartes basée sur la ville

Vue.js Comment convertir un tableau de type de chaîne en un tableau d'objets? Vue.js Comment convertir un tableau de type de chaîne en un tableau d'objets? Apr 07, 2025 pm 09:36 PM

Résumé: Il existe les méthodes suivantes pour convertir les tableaux de chaîne Vue.js en tableaux d'objets: Méthode de base: utilisez la fonction de carte pour convenir à des données formatées régulières. Gameplay avancé: l'utilisation d'expressions régulières peut gérer des formats complexes, mais ils doivent être soigneusement écrits et considérés. Optimisation des performances: Considérant la grande quantité de données, des opérations asynchrones ou des bibliothèques efficaces de traitement des données peuvent être utilisées. MEILLEUR PRATIQUE: Effacer le style de code, utilisez des noms de variables significatifs et des commentaires pour garder le code concis.

Comment définir le délai de Vue Axios Comment définir le délai de Vue Axios Apr 07, 2025 pm 10:03 PM

Afin de définir le délai d'expiration de Vue Axios, nous pouvons créer une instance AxiOS et spécifier l'option Timeout: dans les paramètres globaux: vue.prototype. $ Axios = axios.create ({timeout: 5000}); Dans une seule demande: ce. $ axios.get ('/ api / utilisateurs', {timeout: 10000}).

Comment optimiser les performances de la base de données après l'installation de MySQL Comment optimiser les performances de la base de données après l'installation de MySQL Apr 08, 2025 am 11:36 AM

L'optimisation des performances MySQL doit commencer à partir de trois aspects: configuration d'installation, indexation et optimisation des requêtes, surveillance et réglage. 1. Après l'installation, vous devez ajuster le fichier my.cnf en fonction de la configuration du serveur, tel que le paramètre innodb_buffer_pool_size, et fermer query_cache_size; 2. Créez un index approprié pour éviter les index excessifs et optimiser les instructions de requête, telles que l'utilisation de la commande Explication pour analyser le plan d'exécution; 3. Utilisez le propre outil de surveillance de MySQL (ShowProcessList, Showstatus) pour surveiller la santé de la base de données, et sauvegarde régulièrement et organisez la base de données. Ce n'est qu'en optimisant en continu ces étapes que les performances de la base de données MySQL peuvent être améliorées.

Les ingénieurs de backend senior à distance (plates-formes) ont besoin de cercles Les ingénieurs de backend senior à distance (plates-formes) ont besoin de cercles Apr 08, 2025 pm 12:27 PM

Ingénieur backend à distance Emploi Vacant Société: Emplacement du cercle: Bureau à distance Type d'emploi: Salaire à temps plein: 130 000 $ - 140 000 $ Description du poste Participez à la recherche et au développement des applications mobiles Circle et des fonctionnalités publiques liées à l'API couvrant l'intégralité du cycle de vie de développement logiciel. Les principales responsabilités complètent indépendamment les travaux de développement basés sur RubyOnRails et collaborent avec l'équipe frontale React / Redux / Relay. Créez les fonctionnalités de base et les améliorations des applications Web et travaillez en étroite collaboration avec les concepteurs et le leadership tout au long du processus de conception fonctionnelle. Promouvoir les processus de développement positifs et hiérarchiser la vitesse d'itération. Nécessite plus de 6 ans de backend d'applications Web complexe

See all articles