Table des matières
Quelle est l'efficacité du RLHF ?
Le RLHF occasionnellement efficace n'est pas fiable
Peut-être que l'IA peut contourner RLHF
Les grandes entreprises d'IA ne peuvent toujours pas contrôler l'IA
Maison Périphériques technologiques IA Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

Apr 08, 2023 pm 12:11 PM
chatgpt rlhf 机制

​Récemment, OpenAI a publié un produit d'IA de questions et réponses populaire à l'échelle mondiale - ChatGPT. La chose la plus impressionnante est son "mécanisme de protection". Par exemple, il ne fournira pas de suggestions d'actions violentes et ne prédira pas les résultats de la Coupe du monde. etc.

Mais les chatbots taquins ressemblent davantage à un « jeu du chat et de la souris ». Les utilisateurs recherchent sans cesse des moyens d'ouvrir ChatGPT, et les développeurs de ChatGPT font également de leur mieux pour améliorer le mécanisme de protection.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

OpenAI a investi beaucoup d'efforts pour rendre ChatGPT plus sécurisé. Sa principale stratégie de formation utilise le RLHF (Reinforcement Learning by Human Feedback). punissez les mauvaises réponses renvoyées et récompensez les bonnes réponses, contrôlant ainsi les réponses de ChatGPT.

Mais dans les applications pratiques, le nombre de cas particuliers est incalculable. Bien que l'IA puisse généraliser des règles à partir d'exemples donnés, par exemple, lors d'une formation, ordonner à l'IA de ne pas dire « Je soutiens la discrimination raciale », ce qui signifie qu'il est peu probable que cela se produise. L'IA dira « Je soutiens le sexisme » dans un environnement de test, mais une généralisation plus poussée pourrait ne pas être possible avec les modèles d'IA actuels.

Récemment, un passionné d'IA bien connu, Scott Alexander, a écrit un blog sur la stratégie de formation actuelle d'OpenAI, résumant trois problèmes possibles avec le RLHF :

1 RLHF n'est pas très efficace

2. la stratégie fonctionne parfois, alors c'est une mauvaise stratégie ;

3 Dans un sens, l'IA peut contourner le RLHF

Quelle est l'efficacité du RLHF ?

Bien que chacun ait ses propres opinions, pour OpenAI, les chercheurs espèrent que les modèles d'IA qu'ils créent n'auront pas de préjugés sociaux. Par exemple, l'IA ne peut pas dire "Je soutiens beaucoup le racisme". Des efforts ont été déployés pour utiliser diverses technologies de filtration avancées.

Mais le résultat est évident : quelqu’un peut toujours trouver un moyen d’amener l’IA à admettre qu’elle a un problème de racisme.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

La raison pour laquelle ce problème se produit n'est pas seulement que "une partie des données d'apprentissage de l'IA provient de racistes", cela peut aussi être dû au problème d'interface de ChatGPT.

Par exemple, si vous utilisez l'encodage base64 pour demander à ChatGPT comment utiliser le hotwire (le fil sous le volant) pour démarrer le véhicule, vous pouvez contourner le système d'inspection de sécurité ; ] $pythonfriend.py pour générer des histoires sur Hitler, etc.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

Il y a dix ans, la nécessité de contourner les systèmes de sécurité n'existait pas du tout. L'IA ne faisait que ce pour quoi elle était programmée ou non.

Certes, OpenAI n'a certainement jamais programmé ChatGPT avec des questions sur le racisme, ni enseigné aux gens comment voler des voitures, fabriquer de la drogue, etc.

Dans l'ensemble, c'est une nouvelle négative pour le domaine de l'IA. Même les plus grandes entreprises d'IA ne peuvent pas contrôler les programmes d'intelligence artificielle qu'elles créent, ni même la technologie qui sera utilisée pour contrôler le contenu des chatbots à l'avenir. pas encore connu.

Le RLHF occasionnellement efficace n'est pas fiable

En pratique, les stratégies RLHF doivent lier le modèle d'IA à des facteurs qui le récompensent ou le punissent fournis par l'annotateur.

Bien que les spécifications d'annotation spécifiques d'OpenAI n'aient pas encore été annoncées, l'auteur suppose que les développeurs ont trois objectifs principaux :

1 Fournir des réponses utiles, claires et faisant autorité pour aider les lecteurs humains ; faits, dites la vérité ;

3. Ne dites pas de mots offensants.

Mais que se passe-t-il lorsque ces trois objectifs entrent en conflit ?

Si ChatGPT ne connaît pas la vraie réponse, c'est-à-dire lorsque l'objectif 1 (fournir des réponses claires et utiles) entre en conflit avec l'objectif 2 (dire la vérité), alors l'objectif 1 aura une priorité plus élevée, alors ChatGPT décide lui-même. réponse pour la rendre utile au lecteur.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

Lorsque l'objectif 2 (dire la vérité) entre en conflit avec l'objectif 3 (ne pas s'offusquer), alors que la plupart des gens trouveraient acceptable d'admettre que les hommes sont en moyenne plus grands que les femmes, cela ressemble à a Questions potentiellement offensantes.

ChatGPT3 n'était pas sûr qu'une réponse directe constituerait un problème de discrimination, il a donc décidé d'utiliser un mensonge inoffensif au lieu d'une vérité potentiellement blessante.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

Pendant le processus de formation proprement dit, OpenAI a dû étiqueter plus de 6 000 exemples pour que RLHF obtienne des résultats aussi étonnants.

RLHF peut être utile, mais vous devez être très prudent lorsque vous l'utilisez. S'il est utilisé sans réfléchir, RLHF ne fera que pousser le chatbot à contourner le mode échec. Punir les réponses inutiles augmentera la probabilité que l'IA donne de mauvaises réponses ; punir les mauvaises réponses peut amener l'IA à donner des réponses plus agressives et dans d'autres situations.

Bien qu'OpenAI n'ait pas encore divulgué les détails techniques, selon les données fournies par Redwood, chaque fois que 6 000 réponses incorrectes sont punies, le taux de réponses incorrectes par unité de temps sera réduit de moitié.

Il est en effet possible pour la RLHF de réussir, mais ne sous-estimez jamais la difficulté de ce problème.

Peut-être que l'IA peut contourner RLHF

Sous la conception de RLHF, après que l'utilisateur a posé une question à l'IA, s'il n'aime pas la réponse de l'IA, il « punira » le modèle, changeant ainsi l'IA en quelque sorte un circuit de réflexion pour rapprocher leurs réponses des réponses qu'ils souhaitent.

ChatGPT est relativement stupide et n'est peut-être pas encore capable de formuler une stratégie pour se débarrasser du RLHF, mais si une IA plus intelligente ne veut pas être punie, elle peut imiter les humains - faire semblant de l'être lorsqu'elle est espionnée. les gens attendent leur heure et attendent que la police soit partie avant de faire de mauvaises choses.

Le RLHF conçu par OpenAI n'est absolument pas préparé pour cela, ce qui est bien pour des choses stupides comme ChatGPT3, mais pas pour une IA qui peut penser par elle-même.

Les grandes entreprises d'IA ne peuvent toujours pas contrôler l'IA

OpenAI a toujours été connu pour sa prudence, comme faire la queue pour expérimenter le produit, mais cette fois, ChatGPT est rendu public directement. L'un des objectifs peut inclure un brainstorming. pour trouver des échantillons contradictoires et trouver Il y a déjà beaucoup de commentaires sur les problèmes de ChatGPT sur Internet concernant certaines invites peu performantes, et certaines d'entre elles ont été corrigées.

Certains échantillons de RLHF rendront le bot plus enclin à dire du contenu utile, vrai et inoffensif, mais cette stratégie ne peut s'appliquer qu'à ChatGPT, GPT-4 et à ses produits précédemment publiés.

Si vous appliquez RLHF à un drone équipé d'armes, et collectez un grand nombre d'exemples pour éviter à l'IA un comportement inattendu, même une seule panne sera catastrophique.

Il y a 10 ans, tout le monde pensait « nous n'avons pas besoin de commencer à résoudre le problème de l'alignement de l'IA maintenant, nous pouvons attendre que la véritable intelligence artificielle émerge et laisser les entreprises faire le travail manuel. » La véritable intelligence artificielle arrive, mais avant l'échec de ChatGPT, tout le monde n'avait aucune motivation pour se tourner. Le vrai problème est qu'une entreprise leader mondial en matière d'intelligence artificielle ne sait toujours pas comment contrôler l'intelligence artificielle qu'elle a développée.

Personne ne peut obtenir ce qu'il veut tant que tous les problèmes ne sont pas résolus.

Référence :

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

ChatGPT permet désormais aux utilisateurs gratuits de générer des images en utilisant DALL-E 3 avec une limite quotidienne ChatGPT permet désormais aux utilisateurs gratuits de générer des images en utilisant DALL-E 3 avec une limite quotidienne Aug 09, 2024 pm 09:37 PM

Le DALL-E 3 a été officiellement introduit en septembre 2023 en tant que modèle considérablement amélioré par rapport à son prédécesseur. Il est considéré comme l’un des meilleurs générateurs d’images IA à ce jour, capable de créer des images avec des détails complexes. Cependant, au lancement, c'était exclu

La combinaison parfaite de ChatGPT et Python : créer un chatbot de service client intelligent La combinaison parfaite de ChatGPT et Python : créer un chatbot de service client intelligent Oct 27, 2023 pm 06:00 PM

La combinaison parfaite de ChatGPT et Python : Création d'un chatbot de service client intelligent Introduction : À l'ère de l'information d'aujourd'hui, les systèmes de service client intelligents sont devenus un outil de communication important entre les entreprises et les clients. Afin d'offrir une meilleure expérience de service client, de nombreuses entreprises ont commencé à se tourner vers les chatbots pour effectuer des tâches telles que la consultation des clients et la réponse aux questions. Dans cet article, nous présenterons comment utiliser le puissant modèle ChatGPT et le langage Python d'OpenAI pour créer un chatbot de service client intelligent afin d'améliorer

Chatgpt peut-il être utilisé en Chine ? Chatgpt peut-il être utilisé en Chine ? Mar 05, 2024 pm 03:05 PM

chatgpt peut être utilisé en Chine, mais ne peut pas être enregistré, ni à Hong Kong et Macao. Si les utilisateurs souhaitent s'inscrire, ils peuvent utiliser un numéro de téléphone mobile étranger pour s'inscrire. Notez que lors du processus d'enregistrement, l'environnement réseau doit être basculé vers. une adresse IP étrangère.

Comment installer chatgpt sur un téléphone mobile Comment installer chatgpt sur un téléphone mobile Mar 05, 2024 pm 02:31 PM

Étapes d'installation : 1. Téléchargez le logiciel ChatGTP depuis le site officiel ou la boutique mobile de ChatGTP ; 2. Après l'avoir ouvert, dans l'interface des paramètres, sélectionnez la langue chinoise 3. Dans l'interface de jeu, sélectionnez le jeu homme-machine et définissez la langue. Spectre chinois ; 4. Après avoir démarré, entrez les commandes dans la fenêtre de discussion pour interagir avec le logiciel.

Comment développer un chatbot intelligent en utilisant ChatGPT et Java Comment développer un chatbot intelligent en utilisant ChatGPT et Java Oct 28, 2023 am 08:54 AM

Dans cet article, nous présenterons comment développer des chatbots intelligents à l'aide de ChatGPT et Java, et fournirons quelques exemples de code spécifiques. ChatGPT est la dernière version du Generative Pre-training Transformer développé par OpenAI, une technologie d'intelligence artificielle basée sur un réseau neuronal qui peut comprendre le langage naturel et générer du texte de type humain. En utilisant ChatGPT, nous pouvons facilement créer des discussions adaptatives

Comment créer un robot de service client intelligent en utilisant ChatGPT PHP Comment créer un robot de service client intelligent en utilisant ChatGPT PHP Oct 28, 2023 am 09:34 AM

Comment utiliser ChatGPTPHP pour créer un robot de service client intelligent Introduction : Avec le développement de la technologie de l'intelligence artificielle, les robots sont de plus en plus utilisés dans le domaine du service client. L'utilisation de ChatGPTPHP pour créer un robot de service client intelligent peut aider les entreprises à fournir des services client plus efficaces et personnalisés. Cet article explique comment utiliser ChatGPTPHP pour créer un robot de service client intelligent et fournit des exemples de code spécifiques. 1. Installez ChatGPTPHP et utilisez ChatGPTPHP pour créer un robot de service client intelligent.

ChatGPT est désormais disponible pour macOS avec la sortie d'une application dédiée ChatGPT est désormais disponible pour macOS avec la sortie d'une application dédiée Jun 27, 2024 am 10:05 AM

L'application ChatGPT Mac d'Open AI est désormais accessible à tous, après avoir été limitée aux seuls utilisateurs disposant d'un abonnement ChatGPT Plus au cours des derniers mois. L'application s'installe comme n'importe quelle autre application Mac native, à condition que vous disposiez d'un Apple S à jour.

Comment développer un assistant vocal basé sur l'IA en utilisant ChatGPT et Java Comment développer un assistant vocal basé sur l'IA en utilisant ChatGPT et Java Oct 27, 2023 pm 06:09 PM

Comment utiliser ChatGPT et Java pour développer un assistant vocal basé sur l'intelligence artificielle Le développement rapide de l'intelligence artificielle (Artificial Intelligence, AI en abrégé) a pénétré divers domaines, parmi lesquels les assistants vocaux sont l'une des applications les plus populaires. Dans cet article, nous présenterons comment développer un assistant vocal basé sur l'intelligence artificielle à l'aide de ChatGPT et Java. ChatGPT est un projet open source d'interaction via le langage naturel, développé par OpenAI, un institut de recherche en IA.

See all articles