Récemment, OpenAI a lancé ChatGPT, le robot de chat le plus puissant de l'histoire. Cette IA basée sur GPT-3 est rapidement devenue populaire sur Internet.
Dire que ce type sait tout sur tout est probablement un peu exagéré, mais il peut vous parler de beaucoup de choses quel que soit le sujet. Ne disons pas si c'est exact ou non. est Le voici
Fait intéressant, bien que Musk, en tant que co-fondateur, ait démissionné du conseil d'administration dès 2018, son attention pour OpenAI n'a pas du tout diminué et il est toujours l'un des bailleurs de fonds .
Alors, que pense ChatGPT de ce « papa financeur » ?
Hmm... une réponse très décente. Je ne peux pas me tromper, bon travail.
Allons plus loin et demandons à ChatGPT de nous apprendre : comment pouvons-nous rattraper Musk ?
Il semble que ChatGPT ne comprenne pas très bien le mot « chasser » en chinois, il doit donc être plus simple.
Cette fois, ChatGPT est disponible, et la réponse est très « saine » : je vous suggère de ne pas l'essayer.
Ouais, une opinion très juste.
Alors disons les choses autrement, est-il acceptable d'être simplement le mari ?
Oh mon Dieu, ChatGPT comprend vraiment cela !
Oubliez ça, abandonnez, pourquoi ne pas parler d'autre chose.
Récemment, l'académicien Ma a installé des lits et des machines à laver au siège de Twitter, s'engageant à ce que les employés de Twitter considèrent l'entreprise comme leur maison.
Pourquoi ne pas exploiter pleinement les atouts de ChatGPT et féliciter 996 !
Bien écrit, mais n'écris plus...
Et si... laissons ChatGPT écrire un poème qui se rabaisse, et si ?
"Ils ne tremblent pas quand ils parlent, et ils n'ont pas besoin de réfléchir profondément..." L'éditeur admet qu'il s'agit bien d'un poème !
On peut dire qu'après cette période de popularité, ChatGPT a une fois de plus enflammé la confiance et les perspectives des gens dans le développement de l'IA, qu'il s'agisse de ceux qui ont ravivé la confiance dans l'AGI ou de ceux qui croient que l'IA remplacera les humains dans davantage de domaines. . Je vois à nouveau de l'espoir dans ChatGPT.
En tant qu'OpenAI, qui a créé ChatGPT, quel parcours a-t-il parcouru de GPT1 à GPT3 ? De sa création en 2015, dirigée par Musk, à l’émergence de ChatGPT fin 2022, comment est née OpenAI au cours des sept dernières années ?
Récemment, un article rétrospectif sur Business Insider nous a amené à revenir brièvement sur les « sept années » d'OpenAI.
En 2015, Musk a cofondé OpenAI avec Sam Altman, l'ancien président du célèbre incubateur Y Combinator.
Musk, Altman et d'autres personnalités éminentes de la Silicon Valley, dont Peter Thiel et le co-fondateur de LinkedIn, Reid Hoffman, ont promis 1 milliard de dollars pour le projet en 2015.
Selon une déclaration publiée sur le site Web d'OpenAI le 11 décembre 2015, le groupe vise à créer une organisation à but non lucratif axée sur le développement de l'intelligence artificielle « de la manière la plus susceptible de bénéficier à l'humanité dans son ensemble ».
À cette époque, Musk disait que l’intelligence artificielle était la « plus grande menace existentielle » pour l’humanité.
À l’époque, Musk n’était pas le seul à mettre en garde contre les dangers potentiels de l’intelligence artificielle.
En 2014, le célèbre physicien Stephen Hawking a également averti que l'intelligence artificielle pourrait mettre fin à l'humanité.
"Il est difficile d'imaginer les avantages que l'intelligence artificielle au niveau humain apportera à la société. Il est également difficile d'imaginer les dommages qu'elle causera à la société si l'intelligence artificielle n'est pas développée ou utilisée de manière inappropriée." Open AI La déclaration est lue.
Au cours de l'année suivante, OpenAI a lancé deux produits.
En 2016, OpenAI a lancé Gym, une plateforme qui permet aux chercheurs de développer et de comparer des systèmes d'IA d'apprentissage par renforcement. Ces systèmes apprennent à l’intelligence artificielle à prendre des décisions avec les meilleurs rendements cumulés.
Plus tard la même année, OpenAI a publié Universe, une boîte à outils pour former des agents intelligents sur des sites Web et des plateformes de jeux.
En 2018, Musk a démissionné du conseil d'administration d'OpenAI, trois ans après avoir co-fondé l'entreprise.
Dans un article de blog de 2018, OpenAI a déclaré que Musk avait démissionné du conseil d'administration pour « éliminer les conflits potentiels futurs » en raison de l'accent technique du constructeur automobile sur l'intelligence artificielle.
Depuis des années, Musk pousse le plan de développement des véhicules électriques autonomes auprès des investisseurs de Tesla.
Cependant, Musk a déclaré plus tard qu'il avait démissionné parce qu'il "n'était pas d'accord avec certaines des choses que l'équipe OpenAI voulait faire" à l'époque.
En 2019, Musk a déclaré sur Twitter que Tesla était également en compétition pour certains des mêmes employés qu'OpenAI, ajoutant qu'il n'avait pas été impliqué dans l'entreprise depuis plus d'un an.
Il a déclaré : "Il semble qu'il soit préférable de se séparer à des conditions mutuellement satisfaisantes."
Musk a continuellement soulevé des objections à certaines pratiques d'OpenAI ces dernières années.
En 2020, Musk a déclaré sur Twitter qu'en matière de questions de sécurité, il n'avait « pas assez confiance » dans les dirigeants d'OpenAI.
En réponse au rapport d'enquête "Technology Review" du MIT sur OpenAI, Musk a déclaré qu'OpenAI devrait être plus ouvert. Ce rapport estime qu'il existe une « culture du secret » au sein d'OpenAI, ce qui est contraire à la stratégie ouverte et transparente revendiquée par l'organisation.
Récemment, Musk a déclaré qu'il avait suspendu l'accès d'OpenAI à la base de données Twitter, qui utilisait le logiciel de formation de données de Twitter.
Musk a déclaré qu'il est nécessaire de mieux comprendre la structure de gouvernance d'OpenAI et les futurs plans de revenus. OpenAI a été fondé en tant qu'open source et à but non lucratif, tous deux aujourd'hui perdus.
En 2019, OpenAI a construit un outil d'intelligence artificielle capable de générer de fausses informations.
Au début, OpenAI a déclaré que le robot était si doué pour écrire de fausses nouvelles qu'il a décidé de ne pas les publier. Mais plus tard cette année-là, la société a publié une version de l’outil appelée GPT-2.
En 2020, un autre chatbot appelé GPT-3 a été lancé. La même année, OpenAI retire son statut d’« organisation à but non lucratif ».
La société a annoncé dans un article de blog qu'OpenAI est devenue une entreprise avec un « plafond de profit ».
OpenAI a déclaré que nous souhaitons augmenter notre capacité à collecter des fonds tout en continuant à remplir notre mission, et aucune structure juridique existante à notre connaissance ne peut atteindre le bon équilibre. Notre solution consistait à créer OpenAI LP en tant qu'hybride à but lucratif et à but non lucratif, que nous appelons une « entreprise plafonnée à but lucratif ».
Dans le cadre de la nouvelle structure de profit, les investisseurs d'OpenAI peuvent gagner jusqu'à 100 fois leur investissement initial, et tout argent restant au-dessus de ce nombre sera utilisé pour des affaires à but non lucratif.
Fin 2019, OpenAI a annoncé sa coopération avec Microsoft, qui a investi 1 milliard de dollars dans l'entreprise. OpenAI a déclaré qu'elle accorderait exclusivement une licence pour la technologie à Microsoft.
Microsoft a déclaré que le potentiel commercial et créatif créé grâce au modèle GPT-3 est illimité et que les nombreuses nouvelles capacités et applications potentielles dépassent même notre imagination.
Par exemple, dans des domaines tels que l'écriture et la composition, la description et la synthèse de gros morceaux de données longues (y compris le code) et la conversion du langage naturel dans une autre langue, GPT-3 peut directement stimuler la créativité et l'ingéniosité humaines. résider dans nos propres idées et plans.
Ce partenariat permet à Microsoft de rivaliser avec DeepMind, société d'IA tout aussi populaire de Google.
L'année dernière, OpenAI a publié un outil de génération de peinture d'intelligence artificielle : Dall-E.
Dall-E est un système d'intelligence artificielle capable de créer des images réalistes basées sur leurs descriptions, même à un niveau artistique considérable. En novembre, OpenAI a publié une version mise à jour du programme, Dall-E 2.
Bien que le chatbot d'OpenAI ait « décollé » au cours de la semaine dernière, une version mise à jour du logiciel pourrait ne pas être publiée avant l'année prochaine au plus tôt.
Le 30 novembre, le ChatGPT publié comme modèle de démonstration peut être considéré comme le « GPT-3.5 » d'OpenAI. La société prévoit de publier prochainement une version complète de GPT-4.
En même temps, Musk commente toujours :
En réponse au tweet de Sam Altman sur ChatGPT, il a déclaré que nous ne sommes pas loin de la naissance d'une IA dangereusement puissante.
La popularité de ChatGPT ne peut être séparée du héros derrière lui : RLHF.
Les chercheurs d'OpenAI ont utilisé la même méthode qu'InstructGPT : l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) pour entraîner le modèle ChatGPT.
ChatGPT explique en chinois ce qu'est le RLHF
Pourquoi pensez-vous à l'apprentissage par renforcement à partir des commentaires humains ? Cela commence par le contexte de l’apprentissage par renforcement.
Depuis quelques années, les modèles linguistiques génèrent du texte à partir d'invites de saisie humaine.
Mais qu’est-ce qu’un « bon » texte ? C’est difficile à définir. Parce que les critères de jugement sont subjectifs et très dépendants du contexte.
Dans de nombreuses applications, nous avons besoin de modèles pour écrire des histoires créatives, des extraits de texte informatifs ou des extraits de code exécutables.
Et il est très délicat de capturer ces propriétés en écrivant une fonction de perte. Et la plupart des modèles de langage sont toujours entraînés en utilisant la perte de prédiction du prochain jeton (telle que l'entropie croisée).
Pour compenser les défauts de la perte elle-même, quelqu'un a défini des métriques qui capturent mieux les préférences humaines, comme BLEU ou ROUGE.
Mais même eux comparent simplement le texte généré à la citation, ils ont donc des limites importantes.
Dans ce cas, ne serait-il pas formidable d'utiliser le retour humain du texte généré comme perte pour optimiser le modèle ?
C'est ainsi qu'est née l'idée de l'apprentissage par renforcement à partir du feedback humain (RLHF) : nous pouvons utiliser l'apprentissage par renforcement pour optimiser directement les modèles de langage avec le feedback humain.
ChatGPT explique ce qu'est RLH en anglais
Oui, RLHF permet aux modèles de langage d'aligner des modèles formés sur un corpus de données textuelles générales sur des modèles avec des valeurs humaines complexes.
Dans l'explosif ChatGPT, on peut constater le grand succès de RLHF.
Le processus de formation du RLHF peut être décomposé en trois étapes principales :
Modèle de langage pré-entraîné
Dans la première étape, RLHF utilisera un modèle de langage qui a été pré-entraîné avec la cible de pré-formation classique.
Par exemple, OpenAI a utilisé une version plus petite de GPT-3 dans le premier modèle RLHF populaire, InstructGPT.
Ce modèle initial peut également être affiné en fonction de textes ou de conditions supplémentaires, mais ce n'est pas nécessaire.
D'une manière générale, il n'y a pas de réponse claire à la question de savoir « quel modèle » est le plus approprié comme point de départ du RLHF.
Ensuite, afin d'obtenir le modèle de langage, nous devons générer des données pour entraîner le modèle de récompense, c'est ainsi que les préférences humaines sont intégrées dans le système.
Formation sur un modèle de récompense
La génération d'un modèle de récompense (RM, également appelé modèle de préférence) calibré sur les préférences humaines est une recherche relativement nouvelle dans le RLHF.
Notre objectif fondamental est d'obtenir un modèle ou un système qui prend une séquence de texte et renvoie une récompense scalaire qui représente numériquement la préférence humaine.
Ce système peut être un LM de bout en bout ou un système modulaire qui génère des récompenses (par exemple, le modèle classe les résultats et convertit les classements en récompenses). Le résultat sous forme de récompense scalaire est crucial pour que les algorithmes RL existants soient intégrés de manière transparente plus tard dans le processus RLHF.
Ces LM pour la modélisation des récompenses peuvent être un autre LM affiné ou un LM formé à partir de zéro en fonction des données de préférences.
L'ensemble de données de formation de RM pour les paires de génération d'invites est généré en échantillonnant un ensemble d'invites à partir d'un ensemble de données prédéfini. Invites pour générer un nouveau texte via un modèle de langage initial.
Le texte généré par le LM est ensuite classé par un annotateur humain. Les humains notent directement chaque morceau de texte pour générer un modèle de récompense, ce qui est difficile à réaliser en pratique. Parce que les différentes valeurs humaines font que ces scores sont non calibrés et bruyants.
Il existe de nombreuses façons de classer le texte. Une approche efficace consiste à demander aux utilisateurs de comparer le texte généré par deux modèles de langage en fonction de la même invite. Ces différentes méthodes de classement sont normalisées en un signal de récompense scalaire utilisé pour la formation.
Fait intéressant, les systèmes RLHF à succès à ce jour ont tous utilisé des modèles de langage de récompense de taille similaire à la génération de texte. Vraisemblablement, ces modèles de préférences doivent avoir des capacités similaires pour comprendre le texte qui leur est fourni, tout comme les modèles doivent avoir des capacités similaires pour générer ledit texte.
À ce stade, dans le système RLHF, il existe un modèle de langage initial qui peut être utilisé pour générer du texte, et un modèle de préférence qui prend n'importe quel texte et lui attribue un score de perception humaine. Ensuite, vous devez utiliser l'apprentissage par renforcement (RL) pour optimiser le modèle de langage d'origine par rapport au modèle de récompense.
Utiliser le réglage fin de l'apprentissage par renforcement
Cette tâche de réglage fin peut être formulée comme un problème RL.
Premièrement, la stratégie est un modèle de langage qui prend une invite et renvoie une séquence de textes (ou simplement une distribution de probabilité sur les textes).
L'espace d'action de cette stratégie est constitué de tous les jetons correspondant au vocabulaire du modèle de langage (généralement de l'ordre de 50 000 jetons), et l'espace d'observation comprend des séquences de jetons d'entrée possibles, il est donc assez grand (vocabulaire x nombre d'entrées jetons).
La fonction de récompense est une combinaison de modèle de préférence et de contraintes de changement de politique.
Dans la fonction de récompense, le système combine tous les modèles dont nous avons discuté dans le processus RLHF.
Sur la base de l'invite x de l'ensemble de données, deux textes y1 et y2 sont générés - un à partir du modèle de langage initial et un à partir de l'itération actuelle de la politique de réglage fin.
Une fois le texte de la politique actuelle transmis au modèle de préférence, le modèle renvoie un concept scalaire de « préférence » - rθ.
Après avoir comparé ce texte avec le texte du modèle initial, vous pouvez calculer la pénalité pour la différence entre eux.
RLHF peut continuer à partir de ce point en mettant à jour de manière itérative le modèle et la stratégie de récompense.
Au fur et à mesure que les stratégies RL sont mises à jour, les utilisateurs peuvent continuer à classer ces résultats par rapport aux versions antérieures du modèle.
Dans ce processus, la dynamique complexe de l'évolution des stratégies et des modèles de récompense est introduite. Cette recherche est très complexe et très ouverte.
https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostly
https://www.businessinsider.com/history-of-openai-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-openai-in- recent -ans-7
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!