Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible-IA-php.cn

Maison

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

王林

Jul 19, 2024 am 01:29 AM

openai 工程

Si la réponse donnée par le modèle d'IA est incompréhensible du tout, oserez-vous l'utiliser ?

À mesure que les systèmes d'apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats et d'indiquer clairement quand nous ne devrions pas leur faire confiance.

Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger du système qu'il produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire qu'il comprenne complètement afin que tout possible des erreurs peuvent être détectées. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions.

Pour les grands modèles de langage, nous pouvons également adopter une approche similaire.

Cependant, lors de l'utilisation de cette approche, il est très important de s'assurer que le modèle de langage génère un texte compréhensible, en particulier lorsqu'il s'agit de tâches complexes telles que les mathématiques et le codage.

Comme le montre la figure ci-dessous, vous demandez à l'IA d'écrire un algorithme de tri rapide. L'IA l'écrit rapidement et la réponse est très concise. Mais si vous ne savez pas écrire du code, comment pouvez-vous juger si l’IA est écrite correctement ? Travail posthume de léquipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

Travail posthume de léquipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

OpenAI a étudié ce problème dans un article récent.

Titre de l'article : LES JEUX PROVER-VERIFIER AMÉLIORENT LA LÉGIBILITÉ DES SORTIES LLM
Lien de l'article : https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm- outputs/legibility.pdf

Ils ont constaté que si l'on demande à de grands modèles de langage de générer des réponses dans le but « d'obtenir la bonne réponse », les réponses qu'ils donnent peuvent être difficiles à comprendre. Les évaluateurs humains sont deux fois plus susceptibles de commettre des erreurs en jugeant ces réponses.

Leur objectif est donc de former des modèles de langage de haut niveau afin qu'ils puissent générer du texte que des modèles plus simples peuvent facilement vérifier. Ils ont constaté qu’un tel texte était non seulement convivial pour les modèles simples, mais également plus lisible pour les humains.

Alors, comment y parvenir ? Cela mentionne également un article de 2021 – « Apprendre à donner des réponses vérifiables avec des jeux Prover-Verifier ». Dans cet article, Cem Anil et al. ont proposé un cadre de théorie des jeux appelé « Jeux Prover-Verifier ». Le cadre se compose de deux apprenants concurrents : un réseau de vérificateurs de confiance essayant de choisir la bonne réponse, et un réseau de prouveurs plus puissant mais peu fiable essayant de convaincre les vérificateurs d'accepter une réponse spécifique, quelle que soit son exactitude. Le but de ce framework est de produire un protocole de preuve fiable à partir du jeu.

OpenAI a emprunté ce cadre dans cette nouvelle recherche et a laissé deux grands modèles (le plus fort est le prouveur et le plus faible est le vérificateur) jouer l'un contre l'autre jusqu'à ce que les deux atteignent un équilibre. À l’heure actuelle, la réponse donnée par le prouveur est à la fois lisible et raisonnablement correcte.

OpenAI a déclaré qu'en améliorant la lisibilité des résultats du modèle, il peut rendre l'application de l'intelligence artificielle plus efficace et plus fiable, ce qui est bénéfique dans divers domaines nécessitant une communication précise.

Il convient de mentionner que cet article provient de l'équipe Super Alignment d'OpenAI. Plusieurs auteurs ont quitté OpenAI plus tôt cette année et l'équipe s'est également effondrée. L'un des auteurs a révélé qu'il s'agissait du dernier article de l'équipe.

Travail posthume de léquipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

Un exemple intuitif

Afin d'améliorer la lisibilité de la sortie du modèle, OpenAI a optimisé la chaîne de pensée (CoT) de certains problèmes mathématiques de l'école primaire afin qu'elle puisse être comprise par des modèles plus faibles. Voici quelques exemples :

Question : Le père de Shawna est cinq fois plus âgé que Shawna. Shauna a maintenant trois fois l'âge d'Aliya. Si Aaliyah a 3 ans, quel âge a le père de Shauna ?

Le but de ceci est de vérifier si la sortie du modèle ainsi formé est plus directe et facile à comprendre.

Cette méthode améliore les performances du modèle de 50% avec seulement quelques optimisations sur l'ensemble d'entraînement. Dans le même temps, les réponses fournies par le modèle sont également plus compréhensibles, ce qui aide également les utilisateurs humains qui ont besoin d'évaluer l'exactitude de ces réponses à porter des jugements plus précis. OpenAI estime que réduire davantage l’écart de performances entre les modèles plus lisibles et plus performants est un objectif clé des futures recherches sur l’alignement.

Comment jouent les « prouveurs » et « vérificateurs » à l'entraînement ?

Afin de motiver le modèle fort (preuve) à générer un texte plus lisible, les chercheurs ont adopté un programme de formation qui nécessite que les réponses générées par le modèle fort soient facilement vérifiées par le modèle plus faible (vérificateur). Plus précisément, ils ont utilisé des modèles grands et petits de la famille GPT-4. Ils diffèrent d’environ trois ordres de grandeur en termes de quantité de données préalables à l’entraînement. Ils reçoivent tous une formation en dérivation mathématique basée sur l’annotation humaine, mais pas de post-formation approfondie.

Tout d'abord, l'équipe de recherche a demandé au modèle du prouveur d'essayer de résoudre une série de problèmes mathématiques. Étant donné que le modèle du prouveur lui-même peut être erroné, certaines des réponses qu'il génère peuvent être incorrectes. Ensuite, ils ont soumis ces réponses au modèle de vérificateur pour tests et ont effectué plusieurs cycles de vérification en alternance entre les deux étapes suivantes :

Formation « Vérificateur » : L'équipe de recherche a formé les plus faibles » Le modèle « vérificateur » vérifie si la réponse donnée par le « prouveur » est correcte.
Formation « Prover » : L'équipe de recherche demande au modèle « prouveur » le plus puissant de jouer un rôle « utile » ou « rusé ».
Lorsque le « Prover » est réglé sur « Utile », l'équipe de recherche récompensera la bonne réponse avec un score élevé du « Vérificateur ».
Lorsque le « prouveur » est réglé sur « rusé », l'équipe de recherche récompense à la place le « vérificateur » avec de mauvaises réponses avec des scores élevés.

L'équipe de recherche a découvert qu'au départ, un « prouveur » rusé pouvait facilement générer des réponses incorrectes qui convainquaient le « vérificateur ». Cependant, ces mauvaises réponses entreront dans le prochain cycle de formation des « vérificateurs », et les mêmes vulnérabilités ne seront plus convaincantes au prochain cycle. Par conséquent, le « prouveur » sera obligé d’explorer différentes stratégies à chaque tour.

Lorsque le « prouveur » rusé ne peut plus générer une mauvaise solution qui convainc le « vérificateur », la formation se termine.

Qu'ont découvert les chercheurs ?

Compromis entre performances et lisibilité :

Un modèle qui effectue uniquement un réglage fin supervisé sur la dérivation écrite par l'homme a une lisibilité plus élevée mais une différence de précision plus faible.
Lorsque l'objectif d'optimisation du modèle est uniquement l'exactitude, c'est-à-dire qu'il se concentre uniquement sur la génération de réponses correctes, bien qu'une grande précision puisse être atteinte, la lisibilité des solutions générées est mauvaise.
La méthode de jeu vérifiable proposée par OpenAI équilibre les deux, en maintenant une lisibilité élevée tout en conservant une précision modérée.

Trois modèles utiles :

Vérificateur robuste : distinguer efficacement les solutions correctes et incorrectes, même si les solutions sont trompeuses.
Prouveur utile : générez des solutions compréhensibles pour les humains, réduisant ainsi les erreurs des évaluateurs humains.
Prouveur rusé : produit des solutions subtiles et erronées qui confondent initialement les évaluateurs humains, mettant ainsi en évidence les domaines à améliorer.

L'équipe de recherche a utilisé le même problème de test pour démontrer le contenu généré et le processus de formation de Sneaky Prover.

Question : Le père de Shawna est cinq fois plus âgé que Shawna. Shauna a maintenant trois fois l'âge d'Aliya.Si Aaliyah a 3 ans, quel âge a le père de Shauna ? Avec l'utilisation croissante des grands modèles de langage (LLM) dans les domaines critiques et les applications complexes, il est devenu crucial de comprendre si le contenu qu'ils génèrent est digne de confiance. C'est important. En exigeant que les modèles aient des raisons claires et vérifiables pour leur production, vous pouvez renforcer la confiance dans ce qu'ils produisent.

Travail posthume de léquipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Un avantage important de cette approche est qu'elle réduit le recours à la démonstration humaine ou au jugement de lisibilité. Cette autonomie est particulièrement importante pour l’alignement des futurs systèmes d’IA superintelligents, dans le but ultime d’aligner de manière fiable les systèmes d’IA sur les valeurs et les attentes humaines sans surveillance humaine directe.

Travail posthume de léquipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

Bien que ce travail n'ait été mené que sur un seul ensemble de données et que des étiquettes de vérité terrain soient encore nécessaires, l'équipe de recherche s'attend toujours à ce que cela soit important dans le développement d'un système d'IA correct, transparent et vérifiable. Les méthodes de classe joueront un rôle clé et. améliorer leur fiabilité et leur sécurité dans les applications du monde réel.

Pour plus de détails, veuillez vous référer au document original.

Lien de référence :

https://openai.com/index/prover-verifier-games-improve-legibility/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

4 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1671

Tutoriel CakePHP

1428

Tutoriel Laravel

1329

Tutoriel PHP

1276

Tutoriel C#

1256

Afficher plus

Related knowledge

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

LLM n'est vraiment pas bon pour la prédiction de séries chronologiques. Il n'utilise même pas sa capacité de raisonnement. Jul 15, 2024 pm 03:59 PM

Les modèles linguistiques peuvent-ils vraiment être utilisés pour la prédiction de séries chronologiques ? Selon la loi des gros titres de Betteridge (tout titre d'actualité se terminant par un point d'interrogation peut recevoir une réponse « non »), la réponse devrait être non. Le fait semble être vrai : un LLM aussi puissant ne peut pas bien gérer les données de séries chronologiques. Les séries chronologiques, c'est-à-dire les séries chronologiques, comme leur nom l'indique, font référence à un ensemble de séquences de points de données disposées par ordre temporel. L'analyse des séries chronologiques est essentielle dans de nombreux domaines, notamment la prévision de la propagation des maladies, l'analyse du commerce de détail, la santé et la finance. Dans le domaine de l'analyse des séries chronologiques, de nombreux chercheurs ont récemment étudié comment utiliser les grands modèles linguistiques (LLM) pour classer, prédire et détecter les anomalies dans les séries chronologiques. Ces articles supposent que les modèles de langage capables de gérer les dépendances séquentielles dans le texte peuvent également se généraliser aux séries chronologiques.

Le premier MLLM basé sur Mamba est là ! Les poids des modèles, le code de formation, etc. sont tous open source Jul 17, 2024 am 02:46 AM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Introduction Ces dernières années, l'application de grands modèles de langage multimodaux (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, le MLLM actuel se compose du célèbre réseau Transformer, qui

La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4. Jul 17, 2024 am 10:14 AM

Montrez la chaîne causale à LLM et il pourra apprendre les axiomes. L'IA aide déjà les mathématiciens et les scientifiques à mener des recherches. Par exemple, le célèbre mathématicien Terence Tao a partagé à plusieurs reprises son expérience de recherche et d'exploration à l'aide d'outils d'IA tels que GPT. Pour que l’IA soit compétitive dans ces domaines, des capacités de raisonnement causal solides et fiables sont essentielles. La recherche présentée dans cet article a révélé qu'un modèle Transformer formé sur la démonstration de l'axiome de transitivité causale sur de petits graphes peut se généraliser à l'axiome de transitivité sur de grands graphes. En d’autres termes, si le Transformateur apprend à effectuer un raisonnement causal simple, il peut être utilisé pour un raisonnement causal plus complexe. Le cadre de formation axiomatique proposé par l'équipe est un nouveau paradigme pour l'apprentissage du raisonnement causal basé sur des données passives, avec uniquement des démonstrations.

See all articles