Table des matières
De la prédiction du texte au suivi des instructions
Suivez les instructions en toute sécurité
Réglage fin du modèle
Résumé des points clés
Réflexions sur les travaux ultérieurs sur les agents de dialogue
Maison Périphériques technologiques IA Ces technologies sont utilisées par ChatGPT et ses concurrents potentiels

Ces technologies sont utilisées par ChatGPT et ses concurrents potentiels

Apr 12, 2023 pm 01:13 PM
ai 技术

Avec l'émergence de ChatGPT et le débat généralisé qui a suivi, des acronymes obscurs tels que RLHF, SFT, IFT, CoT, etc. sont apparus aux yeux du public, tout cela grâce au succès de ChatGPT. Quels sont ces acronymes obscurs ? Pourquoi sont-ils si importants ? L'auteur de cet article a passé en revue tous les articles importants sur ces sujets, les a classés et résumés.

ChatGPT n'est pas le premier agent de dialogue basé sur un modèle de langage (LM). En fait, de nombreuses institutions ont publié des agents de dialogue de modèle de langage avant OpenAI, notamment Meta BlenderBot, Google LaMDA, DeepMind's Sparrow et Anthropic Assistant. Certaines organisations ont également annoncé leur intention de créer des chatbots open source et ont rendu publiques leurs feuilles de route (comme l’Open-Assistant de LAION). Il existe certainement d'autres organisations qui font la même chose, mais cela n'est pas annoncé.

Le tableau ci-dessous compare les chatbots IA mentionnés ci-dessus selon qu'ils sont accessibles au public, les données de formation, l'architecture du modèle et les détails de l'évaluation. Il n'y a pas de données pertinentes pour ChatGPT. Les informations utilisées ici sont InstructGPT, qui est un modèle affiné d'OpenAI et est considéré comme la base de ChatGPT.

Ces technologies sont utilisées par ChatGPT et ses concurrents potentiels

Bien qu'il existe de nombreuses différences dans les données de formation, les modèles et les réglages fins, ces chatbots ont également certains points communs : suivre les instructions, c'est-à-dire donner des réponses selon les instructions de l'utilisateur. Par exemple, demandez à ChatGPT d'écrire un poème sur les nudges.

Ces technologies sont utilisées par ChatGPT et ses concurrents potentiels

De la prédiction du texte au suivi des instructions

De manière générale, les objectifs de la modélisation linguistique de base ne suffisent pas pour que le modèle suive efficacement les instructions de l'utilisateur. Les créateurs de modèles utilisent également Instruction Fine-Tuning (IFT), qui peut affiner les modèles de base sur diverses tâches et peut également être appliqué aux tâches PNL classiques telles que l'analyse des sentiments, la classification de texte et la synthèse.

IFT se compose principalement de trois parties : les instructions, l'entrée et la sortie. La saisie est facultative et certaines tâches ne nécessitent que des instructions, comme l'exemple ChatGPT ci-dessus. L'entrée et la sortie constituent une instance. Une instruction donnée peut avoir plusieurs entrées et sorties. Un exemple pertinent est le suivant ([Wang et al., ‘22]).

Ces technologies sont utilisées par ChatGPT et ses concurrents potentiels

Les données IFT sont généralement démarrées à l'aide d'instructions humaines et de modèles de langage. Pour l'amorçage, LM génère de nouvelles instructions, entrées et sorties basées sur des invites avec zéro échantillon. À chaque tour, le modèle est invité à sélectionner des échantillons sélectionnés parmi les humains qui écrivent et génèrent le modèle. La contribution des humains et des modèles à un ensemble de données peut être exprimée sous forme de spectre, comme le montre la figure ci-dessous.

Ces technologies sont utilisées par ChatGPT et ses concurrents potentiels

L'un est un ensemble de données IFT purement généré par un modèle tel que les instructions non naturelles, et l'autre est une collection d'efforts de la communauté et d'instructions créées manuellement telles que les instructions super naturelles. Entre les deux, choisissez un ensemble de données de départ de haute qualité, puis démarrez tel que l'auto-instruction. Une autre façon de collecter des ensembles de données pour IFT consiste à utiliser des ensembles de données PNL existants de haute qualité pour diverses tâches (y compris les invites) et à utiliser ces ensembles de données comme instructions à l'aide de modèles unifiés ou de différents modèles. Les travaux connexes incluent T0, l'ensemble de données d'instructions naturelles, FLAN LM et OPT. -IML.

Suivez les instructions en toute sécurité

LM L'utilisation d'instructions précises ne génère pas toujours des réponses utiles et sûres. Des exemples de ce comportement incluent des réponses non valides (subterfuges), donnant toujours des réponses non valides telles que « Désolé, je ne comprends pas » ou répondant de manière dangereuse aux entrées de l'utilisateur sur des sujets sensibles.

Pour résoudre ce problème, les développeurs de modèles utilisent le réglage fin supervisé (SFT) pour affiner le modèle de langage sous-jacent sur des données étiquetées humaines de haute qualité afin d'obtenir des réponses efficaces et sûres.

SFT et IFT sont étroitement liés. Le réglage des instructions peut être considéré comme un sous-ensemble du réglage fin supervisé. Dans la littérature récente, la phase SFT est généralement utilisée pour les sujets de sécurité plutôt que pour les sujets spécifiques à l'instruction qui suivent l'IFT. Cette classification et cette description auront des cas d'utilisation et des méthodes plus claires à l'avenir.

Ces technologies sont utilisées par ChatGPT et ses concurrents potentiels

Le LaMDA de Google est également affiné sur un ensemble de données de conversation annotées de manière sécurisée, basées sur un ensemble de règles. Ces règles sont généralement prédéfinies et mises en œuvre par le créateur du modèle et couvrent un large éventail de sujets tels que la nocivité, la discrimination et la désinformation.

Réglage fin du modèle

D'autre part, InstructGPT d'OpenAI, Sparrow de DeepMind et ConstitutionalAI d'Anthropic utilisent tous l'apprentissage par renforcement à partir de la technologie de rétroaction humaine (RLHF). Dans RLHF, les réponses du modèle sont classées en fonction des commentaires humains (comme le choix d'une meilleure réponse), puis le modèle est formé avec ces réponses annotées pour renvoyer des récompenses scalaires à l'optimiseur RL, et enfin un agent conversationnel est formé via un apprentissage par renforcement pour simuler. Modèle de préférence.

La chaîne de pensée (CoT) est un cas particulier de démonstration d'instructions qui génère un résultat en suscitant un raisonnement étape par étape de la part de l'agent conversationnel. Les modèles affinés avec CoT utilisent un ensemble de données d’instructions annotées par l’homme avec inférence étape par étape. Comme le montre l'exemple ci-dessous, les marqueurs orange représentent les instructions, les marqueurs roses représentent les entrées et les sorties et les marqueurs bleus représentent le raisonnement CoT.

Ces technologies sont utilisées par ChatGPT et ses concurrents potentiels

Les modèles affinés avec CoT fonctionnent mieux sur les tâches impliquant le bon sens, l'arithmétique et le raisonnement symbolique. Un réglage fin avec CoT s'est également révélé très efficace pour atteindre l'innocuité (parfois mieux que RLHF), et le modèle n'hésite pas à générer des réponses « Désolé, je ne peux pas répondre à cette question ».

Ces technologies sont utilisées par ChatGPT et ses concurrents potentiels

Résumé des points clés

Les principaux points de cet article sont résumés comme suit :

1 Par rapport aux données de pré-entraînement, seule une très petite partie des données est. nécessaire pour affiner les instructions.

2. Le réglage fin supervisé utilise l'annotation manuelle pour rendre la sortie du modèle plus sûre et plus utile.

3. Le réglage fin du CoT améliore les performances des modèles sur les tâches de réflexion étape par étape et réduit leurs réponses invalides ou leur évitement sur des sujets sensibles.

Réflexions sur les travaux ultérieurs sur les agents de dialogue

Enfin, l'auteur a donné quelques-unes de ses propres réflexions sur le développement futur des agents de dialogue.

1. Quelle est l'importance de la RL dans l'apprentissage à partir des commentaires humains ? Les mêmes performances que le RLHF peuvent-elles être obtenues en s’entraînant sur des données de haute qualité en IFT ou SFT ?

2. Dans quelle mesure l'utilisation de SFT+RLHF dans Sparrow est-elle sûre par rapport à l'utilisation de SFT dans LaMDA ?

3. Quel niveau de pré-formation est requis pour l'IFT, le SFT, le CoT et le RLHF ? Qu’est-ce que le compromis ? Quel est le meilleur modèle de base à utiliser ?

4. La plupart des modèles présentés dans cet article sont soigneusement conçus et les ingénieurs collectent spécifiquement les modèles qui conduisent à l'échec et améliorent la formation future (invites et méthodes) en fonction des problèmes traités. Comment les effets de ces méthodes peuvent-ils être systématiquement documentés et reproduits ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. Vous avez un jeu croisé?
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Ligne de commande de l'arrêt CentOS Ligne de commande de l'arrêt CentOS Apr 14, 2025 pm 09:12 PM

La commande de fermeture CENTOS est arrêtée et la syntaxe est la fermeture de [options] le temps [informations]. Les options incluent: -H Arrêtez immédiatement le système; -P éteignez l'alimentation après l'arrêt; -r redémarrer; -t temps d'attente. Les temps peuvent être spécifiés comme immédiats (maintenant), minutes (minutes) ou une heure spécifique (HH: mm). Des informations supplémentaires peuvent être affichées dans les messages système.

Comment vérifier la configuration de CentOS HDFS Comment vérifier la configuration de CentOS HDFS Apr 14, 2025 pm 07:21 PM

Guide complet pour vérifier la configuration HDFS dans les systèmes CentOS Cet article vous guidera comment vérifier efficacement la configuration et l'état de l'exécution des HDF sur les systèmes CentOS. Les étapes suivantes vous aideront à bien comprendre la configuration et le fonctionnement des HDF. Vérifiez la variable d'environnement Hadoop: Tout d'abord, assurez-vous que la variable d'environnement Hadoop est correctement définie. Dans le terminal, exécutez la commande suivante pour vérifier que Hadoop est installé et configuré correctement: HadoopVersion Check HDFS Fichier de configuration: Le fichier de configuration de base de HDFS est situé dans le répertoire / etc / hadoop / conf / le répertoire, où Core-site.xml et hdfs-site.xml sont cruciaux. utiliser

Quelles sont les méthodes de sauvegarde pour Gitlab sur Centos Quelles sont les méthodes de sauvegarde pour Gitlab sur Centos Apr 14, 2025 pm 05:33 PM

La politique de sauvegarde et de récupération de GitLab dans le système CentOS afin d'assurer la sécurité et la récupérabilité des données, Gitlab on CentOS fournit une variété de méthodes de sauvegarde. Cet article introduira plusieurs méthodes de sauvegarde courantes, paramètres de configuration et processus de récupération en détail pour vous aider à établir une stratégie complète de sauvegarde et de récupération de GitLab. 1. MANUEL BACKUP Utilisez le Gitlab-RakegitLab: Backup: Créer la commande pour exécuter la sauvegarde manuelle. Cette commande sauvegarde des informations clés telles que le référentiel Gitlab, la base de données, les utilisateurs, les groupes d'utilisateurs, les clés et les autorisations. Le fichier de sauvegarde par défaut est stocké dans le répertoire / var / opt / gitlab / backups. Vous pouvez modifier / etc / gitlab

Comment est la prise en charge du GPU pour Pytorch sur Centos Comment est la prise en charge du GPU pour Pytorch sur Centos Apr 14, 2025 pm 06:48 PM

Activer l'accélération du GPU Pytorch sur le système CentOS nécessite l'installation de versions CUDA, CUDNN et GPU de Pytorch. Les étapes suivantes vous guideront tout au long du processus: CUDA et CUDNN Installation détermineront la compatibilité de la version CUDA: utilisez la commande NVIDIA-SMI pour afficher la version CUDA prise en charge par votre carte graphique NVIDIA. Par exemple, votre carte graphique MX450 peut prendre en charge CUDA11.1 ou plus. Téléchargez et installez Cudatoolkit: visitez le site officiel de Nvidiacudatoolkit et téléchargez et installez la version correspondante selon la version CUDA la plus élevée prise en charge par votre carte graphique. Installez la bibliothèque CUDNN:

Explication détaillée du principe docker Explication détaillée du principe docker Apr 14, 2025 pm 11:57 PM

Docker utilise les fonctionnalités du noyau Linux pour fournir un environnement de fonctionnement d'application efficace et isolé. Son principe de travail est le suivant: 1. Le miroir est utilisé comme modèle en lecture seule, qui contient tout ce dont vous avez besoin pour exécuter l'application; 2. Le Système de fichiers Union (UnionFS) empile plusieurs systèmes de fichiers, ne stockant que les différences, l'économie d'espace et l'accélération; 3. Le démon gère les miroirs et les conteneurs, et le client les utilise pour l'interaction; 4. Les espaces de noms et les CGROUP implémentent l'isolement des conteneurs et les limitations de ressources; 5. Modes de réseau multiples prennent en charge l'interconnexion du conteneur. Ce n'est qu'en comprenant ces concepts principaux que vous pouvez mieux utiliser Docker.

CentOS installe MySQL CentOS installe MySQL Apr 14, 2025 pm 08:09 PM

L'installation de MySQL sur CENTOS implique les étapes suivantes: Ajout de la source MySQL YUM appropriée. Exécutez la commande YUM Install MySQL-Server pour installer le serveur MySQL. Utilisez la commande mysql_secure_installation pour créer des paramètres de sécurité, tels que la définition du mot de passe de l'utilisateur racine. Personnalisez le fichier de configuration MySQL selon les besoins. Écoutez les paramètres MySQL et optimisez les bases de données pour les performances.

Comment afficher les journaux Gitlab sous Centos Comment afficher les journaux Gitlab sous Centos Apr 14, 2025 pm 06:18 PM

Un guide complet pour consulter les journaux GitLab sous Centos System Cet article vous guidera comment afficher divers journaux GitLab dans le système CentOS, y compris les journaux principaux, les journaux d'exception et d'autres journaux connexes. Veuillez noter que le chemin du fichier journal peut varier en fonction de la version Gitlab et de la méthode d'installation. Si le chemin suivant n'existe pas, veuillez vérifier le répertoire d'installation et les fichiers de configuration de GitLab. 1. Afficher le journal GitLab principal Utilisez la commande suivante pour afficher le fichier journal principal de l'application GitLabRails: Commande: sudocat / var / log / gitlab / gitlab-rails / production.log Cette commande affichera le produit

Comment faire fonctionner la formation distribuée de Pytorch sur CentOS Comment faire fonctionner la formation distribuée de Pytorch sur CentOS Apr 14, 2025 pm 06:36 PM

La formation distribuée par Pytorch sur le système CentOS nécessite les étapes suivantes: Installation de Pytorch: La prémisse est que Python et PIP sont installés dans le système CentOS. Selon votre version CUDA, obtenez la commande d'installation appropriée sur le site officiel de Pytorch. Pour la formation du processeur uniquement, vous pouvez utiliser la commande suivante: pipinstalltorchtorchVisionTorChaudio Si vous avez besoin d'une prise en charge du GPU, assurez-vous que la version correspondante de CUDA et CUDNN est installée et utilise la version Pytorch correspondante pour l'installation. Configuration de l'environnement distribué: la formation distribuée nécessite généralement plusieurs machines ou des GPU multiples uniques. Lieu

See all articles