Maison > Périphériques technologiques > IA > le corps du texte

Apprenez rapidement les points techniques clés du document InstructGPT : suivez Li Mu pour maîtriser la technologie derrière ChatGPT

王林
Libérer: 2023-04-24 16:04:10
avant
1176 Les gens l'ont consulté

Après que ChatGPT soit devenu populaire, de nombreux étudiants attentifs à la technologie se posent une question : existe-t-il du matériel d'apprentissage qui peut nous permettre de comprendre systématiquement les principes qui se cachent derrière ChatGPT ? Ce problème devient délicat car OpenAI n'a pas publié d'article relatif à ChatGPT.

Cependant, nous savons grâce au blog d'OpenAI sur ChatGPT que la méthode utilisée par ChatGPT est la même que son modèle frère InstructGPT, sauf qu'InstructGPT est affiné sur GPT-3, tandis que ChatGPT est basé sur GPT- 3.5. Il existe également quelques différences entre les deux en termes de collecte de données. L'article d'InstructGPT a été publié en mars 2022, mais OpenAI a publié des articles connexes dès le blog de janvier (voir « Que faire si GPT-3 est du charabia ? OpenAI : nous l'avons recyclé, et la nouvelle version est plus « obéissante » »). À cette époque, OpenAI a clairement mentionné qu'InstructGPT utilisait la méthode d'apprentissage par renforcement par rétroaction humaine (RLHF) pour affiner GPT-3, rendant le résultat du modèle plus cohérent avec les préférences humaines. Cela s'est poursuivi dans la formation de ChatGPT.

Apprenez rapidement les points techniques clés du document InstructGPT : suivez Li Mu pour maîtriser la technologie derrière ChatGPT

Lien papier : https://arxiv.org/pdf/2203.02155.pdf

De plus, il existe de nombreuses similitudes entre InstructGPT et ChatGPT. Par conséquent, une compréhension approfondie du document InstructGPT sera d'un grand avantage pour les étudiants qui souhaitent travailler dans le sens de ChatGPT. C'est pourquoi nous recommandons fortement les conférences de Li Mu.

Apprenez rapidement les points techniques clés du document InstructGPT : suivez Li Mu pour maîtriser la technologie derrière ChatGPT

Adresse du cours : https://jmq.xet.tech/s/2lec6b (Cliquez sur "Lire le texte original" pour y aller directement)

Le Dr Li Mu est le senior scientifique en chef d'Amazon, il a auparavant co-écrit "Hands-on Deep Learning" avec Aston Zhang et d'autres. Au cours des deux dernières années, il a présenté à tous diverses connaissances en matière d'IA à travers des vidéos et a produit des cours de lecture intensifs sur des dizaines d'articles. De nombreux étudiants ont pris l'habitude de suivre Li Mu dans la lecture intensive des articles.

Apprenez rapidement les points techniques clés du document InstructGPT : suivez Li Mu pour maîtriser la technologie derrière ChatGPTLe compte du Dr Li Mu sur Station B est « Apprenez l'IA de Li Mu ».

Ce cours d'interprétation pour InstructGPT dure un total de 67 minutes et est essentiellement présenté dans l'ordre de rédaction de l'article.

Les étudiants qui ont lu le blog ChatGPT savent que ses principes techniques peuvent essentiellement être résumés par une image, qui est également une image qui est apparue dans l'article InstructGPT (il existe des différences subtiles entre les deux) . Lors de l'interprétation du résumé et de l'introduction de l'article, Li Mu a présenté en détail les trois étapes du diagramme.

Schémas techniques du blog ChatGPT.

Apprenez rapidement les points techniques clés du document InstructGPT : suivez Li Mu pour maîtriser la technologie derrière ChatGPT

Schémas techniques de l'article InstructGPT. Apprenez rapidement les points techniques clés du document InstructGPT : suivez Li Mu pour maîtriser la technologie derrière ChatGPT

Dans le troisième chapitre de l'article, les auteurs d'InstructGPT ont d'abord présenté leur méthode et leur processus d'acquisition de données, et Li Mu a également amené tout le monde à le lire en détail. Cette pièce est très précieuse en ingénierie. Comme Li Mu l'a dit, si vous n'avez jamais fait quelque chose de tel auparavant (étiquetage des données, etc.) et que vous avez besoin de trouver quelqu'un pour vous aider à étiqueter les données, vous pouvez consulter son annexe, qui contient de nombreux modèles pouvant être utilisés directement. L'auteur de l'article décrit même à quoi ressemble l'interface utilisateur de son site Web annoté, ce qui mérite d'être appris.

Ensuite, Li Mu s'est concentré sur les trois modèles écrits au chapitre 3 (voir 3.5 Modèles) - le modèle SFT (réglage fin supervisé), le modèle RM (modélisation de récompense) et le modèle RL (apprentissage par renforcement), y compris ces modèles impliquent des détails tels que comme paramètres et fonctions objectifs.

Enfin, Li Mu a conclu que techniquement parlant, InstructGPT est toujours une technologie très pratique. Il indique à chacun une méthode : étant donné un modèle de langage volumineux, comment pouvez-vous améliorer rapidement ses performances dans un domaine qui vous tient à cœur grâce à des données annotées pour le rendre pratique. Il fournit donc une idée opérationnelle aux personnes souhaitant utiliser des modèles génératifs pour fabriquer des produits.

Bien sûr, comme l'a dit le Dr Li Mu, les travaux de recherche scientifique sont progressifs et InstructGPT est également basé sur des recherches antérieures, donc les étudiants qui souhaitent bien comprendre ChatGPT devront inévitablement revenir en arrière et lire plus d'articles. Dans les cours précédents, Li Mu a également interprété en détail les articles de GPT, GPT-2 et GPT-3 :

Apprenez rapidement les points techniques clés du document InstructGPT : suivez Li Mu pour maîtriser la technologie derrière ChatGPT

Adresse du cours : https://jmq.xet.tech/s/2lec6b

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal