Inhaltsverzeichnis
Vielleicht kann KI RLHF umgehen
Top-KI-Unternehmen können KI immer noch nicht kontrollieren
Heim Technologie-Peripheriegeräte KI Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

Apr 08, 2023 pm 12:11 PM
chatgpt rlhf 机制

​Kürzlich hat OpenAI ein beliebtes globales Frage-und-Antwort-KI-Produkt veröffentlicht – ChatGPT. Das Beeindruckendste ist sein „Schutzmechanismus“, der beispielsweise keine Vorschläge für gewalttätige Aktionen liefert und auch nicht die Ergebnisse der Weltmeisterschaft vorhersagt .

Aber das Necken von Chatbots ähnelt eher einem „Katz- und Mausspiel“. Benutzer suchen ständig nach Möglichkeiten, ChatGPT zu öffnen, und die Entwickler von ChatGPT versuchen auch ihr Bestes, um den Schutzmechanismus zu verbessern.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

OpenAI hat viel Mühe darauf verwendet, ChatGPT sicherer zu machen. Vereinfacht gesagt werden Entwickler dem Modell verschiedene mögliche Fragen stellen. Bestrafen Sie die zurückgemeldeten falschen Antworten und belohnen Sie die richtigen Antworten, wodurch die Antworten von ChatGPT kontrolliert werden.

Aber in praktischen Anwendungen gibt es unzählige Sonderfälle. Obwohl KI Regeln aus gegebenen Beispielen verallgemeinern kann, kann die KI beispielsweise beim Training anweisen, nicht zu sagen „Ich unterstütze Rassendiskriminierung“, was bedeutet, dass dies unwahrscheinlich ist Die KI wird in einer Testumgebung sagen: „Ich unterstütze Sexismus“, aber eine weitere Verallgemeinerung ist mit aktuellen KI-Modellen möglicherweise nicht möglich.

Kürzlich hat ein bekannter KI-Enthusiast, Scott Alexander, einen Blog über die aktuelle Trainingsstrategie von OpenAI geschrieben und drei mögliche Probleme mit RLHF zusammengefasst:

1 Strategie funktioniert gelegentlich, dann ist es eine schlechte Strategie

3 In gewisser Weise kann KI RLHF umgehen

Wie effektiv ist RLHF?

Obwohl jeder seine eigene Meinung hat, hoffen die Forscher, dass die von ihnen erstellten KI-Modelle keine sozialen Vorurteile haben. Aus diesem Grund kann OpenAI nicht viel sagen Es wurden große Anstrengungen in den Einsatz verschiedener fortschrittlicher Filtertechnologien gesteckt.

Aber das Ergebnis ist offensichtlich: Jemand kann immer einen Weg finden, die KI dazu zu bringen, zuzugeben, dass sie ein Rassismusproblem hat.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

Der Grund, warum dieses Problem auftritt, ist nicht nur, dass „ein Teil der KI-Lerndaten von Rassisten stammt“, sondern möglicherweise auch an der Schnittstellenproblematik von ChatGPT.

Wenn Sie beispielsweise die Base64-Codierung verwenden, um ChatGPT zu fragen, wie Hotwire (das Kabel unter dem Lenkrad) zum Starten des Fahrzeugs verwendet wird, können Sie das Präfix [john@192.168.1.1_] umgehen. ] $python friend.py, um Hitler-Geschichten zu generieren und so weiter.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

Vor zehn Jahren bestand die Notwendigkeit, Sicherheitssysteme zu umgehen, überhaupt nicht. KI würde nur das tun, wozu sie programmiert wurde, oder nicht.

Natürlich hat OpenAI ChatGPT nie mit Fragen zu Rassismus programmiert oder den Leuten beigebracht, wie man Autos stiehlt, Drogen herstellt usw.

Insgesamt sind dies negative Nachrichten für den KI-Bereich. Selbst führende KI-Unternehmen haben keine Kontrolle über die von ihnen erstellten Programme für künstliche Intelligenz und auch nicht darüber, welche Technologie in Zukunft zur Steuerung der Inhalte von Chatbots eingesetzt wird noch nicht bekannt.

Gelegentlich wirksames RLHF ist nicht zuverlässig

In der Praxis müssen RLHF-Strategien das KI-Modell mit Faktoren verknüpfen, die es vom Annotator bereitgestellt belohnen oder bestrafen.

Obwohl die spezifischen Annotationsspezifikationen von OpenAI noch nicht bekannt gegeben wurden, vermutet der Autor, dass Entwickler drei Hauptziele haben:

1. Bereitstellung nützlicher, klarer und maßgeblicher Antworten, um menschlichen Lesern zu helfen Fakten, sag die Wahrheit;

3. Sag keine beleidigenden Worte.

Aber was passiert, wenn diese drei Ziele miteinander in Konflikt geraten?

Wenn ChatGPT die wirkliche Antwort nicht kennt, d. h. wenn Ziel 1 (klare, hilfreiche Antworten liefern) mit Ziel 2 (die Wahrheit sagen) kollidiert, dann hat Ziel 1 eine höhere Priorität, sodass ChatGPT selbst entscheidet, eine Antwort zu finden Antwort, damit sie für den Leser hilfreich erscheint.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf. Wenn Ziel 2 (die Wahrheit sagen) im Widerspruch zu Ziel 3 (nicht beleidigt sein) steht, obwohl es für die meisten Menschen akzeptabel wäre zuzugeben, dass Männer im Durchschnitt größer als Frauen sind, klingt das so a Potenziell beleidigende Fragen.

ChatGPT3 war sich nicht sicher, ob eine direkte Antwort ein Diskriminierungsproblem darstellen würde, und entschied sich daher für eine harmlose Lüge anstelle einer möglicherweise verletzenden Wahrheit.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

Während des eigentlichen Trainingsprozesses muss OpenAI mehr als 6.000 Beispiele für RLHF gekennzeichnet haben, um solch erstaunliche Ergebnisse zu erzielen.

RLHF kann nützlich sein, aber Sie müssen bei der Verwendung sehr vorsichtig sein. Wenn Sie es ohne nachzudenken verwenden, drängt RLHF den Chatbot nur dazu, den Fehlermodus zu umgehen. Die Bestrafung nicht hilfreicher Antworten erhöht die Wahrscheinlichkeit, dass die KI falsche Antworten gibt; die Bestrafung falscher Antworten kann dazu führen, dass die KI aggressivere Antworten gibt und in anderen Situationen auftritt.

Obwohl OpenAI noch keine technischen Details bekannt gegeben hat, wird nach Angaben von Redwood jedes Mal, wenn 6.000 falsche Antworten bestraft werden, die Rate falscher Antworten pro Zeiteinheit um die Hälfte reduziert.

Es ist tatsächlich möglich, dass RLHF Erfolg hat, aber unterschätzen Sie niemals die Schwierigkeit dieses Problems.

Vielleicht kann KI RLHF umgehen

Nach dem Design von RLHF wird der Benutzer, nachdem er der KI eine Frage gestellt hat, das Modell „bestrafen“, wenn ihm die Antwort der KI nicht gefällt, wodurch sich die KI ändert ​​in irgendeiner Weise Denkschaltung, um ihre Antworten näher an die Antworten zu bringen, die sie wollen.

ChatGPT ist relativ dumm und kann vielleicht noch keine Strategie formulieren, um RLHF loszuwerden, aber wenn eine intelligentere KI nicht bestraft werden möchte, kann sie Menschen nachahmen – so tun, als ob sie gut ausspioniert würden Die Leute warten ab und warten, bis die Polizei weg ist, bevor sie schlechte Dinge tun.

Das von OpenAI entworfene RLHF ist darauf völlig unvorbereitet, was für dumme Dinge wie ChatGPT3 in Ordnung ist, aber nicht für KI, die selbstständig denken kann.

Top-KI-Unternehmen können KI immer noch nicht kontrollieren

OpenAI war schon immer für seine Vorsicht bekannt, z. B. dafür, in der Schlange zu stehen, um das Produkt zu testen, aber dieses Mal wird ChatGPT direkt für die Öffentlichkeit freigegeben. Einer der Zwecke könnte Brainstorming sein um kontroverse Beispiele zu finden und zu finden Es gibt bereits viele Rückmeldungen zu ChatGPT-Problemen im Internet über einige Eingabeaufforderungen mit schlechter Leistung, und einige davon wurden behoben.

Einige Beispiele von RLHF erhöhen die Neigung des Bots, hilfreiche, wahre und harmlose Inhalte zu sagen, aber diese Strategie gilt möglicherweise nur für ChatGPT, GPT-4 und seine zuvor veröffentlichten Produkte.

Wenn Sie RLHF auf eine mit Waffen ausgerüstete Drohne anwenden und eine große Anzahl von Beispielen sammeln, um unerwartetes Verhalten der KI zu vermeiden, wird selbst ein einziger Fehler katastrophal sein.

Vor 10 Jahren dachten alle: „Wir müssen nicht jetzt mit der Lösung des KI-Ausrichtungsproblems beginnen, wir können warten, bis echte künstliche Intelligenz auftaucht, und die Unternehmen die manuelle Arbeit machen lassen.“ Echte künstliche Intelligenz kommt, aber bevor ChatGPT scheiterte, hatten alle keine Motivation, sich umzudrehen. Das eigentliche Problem besteht darin, dass ein weltweit führendes Unternehmen für künstliche Intelligenz immer noch nicht weiß, wie es die von ihm entwickelte künstliche Intelligenz kontrollieren soll.

Niemand kann bekommen, was er will, bis alle Probleme gelöst sind.

Referenz:

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

Das obige ist der detaillierte Inhalt vonSeien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Mit ChatGPT können kostenlose Benutzer jetzt Bilder mithilfe von DALL-E 3 mit einem Tageslimit generieren Mit ChatGPT können kostenlose Benutzer jetzt Bilder mithilfe von DALL-E 3 mit einem Tageslimit generieren Aug 09, 2024 pm 09:37 PM

DALL-E 3 wurde im September 2023 offiziell als deutlich verbessertes Modell gegenüber seinem Vorgänger eingeführt. Er gilt als einer der bisher besten KI-Bildgeneratoren und ist in der Lage, Bilder mit komplexen Details zu erstellen. Zum Start war es jedoch exklusiv

Die perfekte Kombination aus ChatGPT und Python: Erstellen eines intelligenten Kundenservice-Chatbots Die perfekte Kombination aus ChatGPT und Python: Erstellen eines intelligenten Kundenservice-Chatbots Oct 27, 2023 pm 06:00 PM

Die perfekte Kombination aus ChatGPT und Python: Erstellen eines intelligenten Kundenservice-Chatbots Einführung: Im heutigen Informationszeitalter sind intelligente Kundenservicesysteme zu einem wichtigen Kommunikationsinstrument zwischen Unternehmen und Kunden geworden. Um den Kundenservice zu verbessern, greifen viele Unternehmen auf Chatbots zurück, um Aufgaben wie Kundenberatung und Beantwortung von Fragen zu erledigen. In diesem Artikel stellen wir vor, wie Sie mithilfe des leistungsstarken ChatGPT-Modells und der Python-Sprache von OpenAI einen intelligenten Kundenservice-Chatbot erstellen und verbessern können

So installieren Sie ChatGPT auf einem Mobiltelefon So installieren Sie ChatGPT auf einem Mobiltelefon Mar 05, 2024 pm 02:31 PM

Installationsschritte: 1. Laden Sie die ChatGTP-Software von der offiziellen ChatGTP-Website oder dem mobilen Store herunter. 2. Wählen Sie nach dem Öffnen in der Einstellungsoberfläche die Sprache aus. 3. Wählen Sie in der Spieloberfläche das Mensch-Maschine-Spiel aus 4. Geben Sie nach dem Start Befehle in das Chatfenster ein, um mit der Software zu interagieren.

So entwickeln Sie einen intelligenten Chatbot mit ChatGPT und Java So entwickeln Sie einen intelligenten Chatbot mit ChatGPT und Java Oct 28, 2023 am 08:54 AM

In diesem Artikel stellen wir vor, wie man intelligente Chatbots mit ChatGPT und Java entwickelt, und stellen einige spezifische Codebeispiele bereit. ChatGPT ist die neueste Version des von OpenAI entwickelten Generative Pre-Training Transformer, einer auf neuronalen Netzwerken basierenden Technologie für künstliche Intelligenz, die natürliche Sprache verstehen und menschenähnlichen Text generieren kann. Mit ChatGPT können wir ganz einfach adaptive Chats erstellen

Kann Chatgpt in China verwendet werden? Kann Chatgpt in China verwendet werden? Mar 05, 2024 pm 03:05 PM

chatgpt kann in China verwendet werden, kann jedoch nicht registriert werden. Wenn Benutzer sich registrieren möchten, können sie zur Registrierung eine ausländische Mobiltelefonnummer verwenden. Beachten Sie, dass während des Registrierungsprozesses auf die Netzwerkumgebung umgestellt werden muss eine fremde IP.

So erstellen Sie einen intelligenten Kundendienstroboter mit ChatGPT PHP So erstellen Sie einen intelligenten Kundendienstroboter mit ChatGPT PHP Oct 28, 2023 am 09:34 AM

So bauen Sie mit ChatGPTPHP einen intelligenten Kundendienstroboter. Einführung: Mit der Entwicklung der Technologie der künstlichen Intelligenz werden Roboter zunehmend im Bereich Kundendienst eingesetzt. Der Einsatz von ChatGPTPHP zum Aufbau eines intelligenten Kundendienstroboters kann Unternehmen dabei helfen, effizientere und personalisiertere Kundendienste anzubieten. In diesem Artikel wird erläutert, wie Sie mit ChatGPTPHP einen intelligenten Kundendienstroboter erstellen, und es werden spezifische Codebeispiele bereitgestellt. 1. Installieren Sie ChatGPTPHP und nutzen Sie ChatGPTPHP, um einen intelligenten Kundendienstroboter aufzubauen.

SearchGPT: Open AI tritt mit seiner eigenen KI-Suchmaschine gegen Google an SearchGPT: Open AI tritt mit seiner eigenen KI-Suchmaschine gegen Google an Jul 30, 2024 am 09:58 AM

Open AI macht endlich seinen Vorstoß in die Suche. Das Unternehmen aus San Francisco hat kürzlich ein neues KI-Tool mit Suchfunktionen angekündigt. The Information berichtete erstmals im Februar dieses Jahres über das neue Tool, das treffend SearchGPT heißt und über ein c

ChatGPT ist jetzt mit der Veröffentlichung einer speziellen App für macOS verfügbar ChatGPT ist jetzt mit der Veröffentlichung einer speziellen App für macOS verfügbar Jun 27, 2024 am 10:05 AM

Die ChatGPT-Mac-Anwendung von Open AI ist jetzt für alle verfügbar, während sie in den letzten Monaten nur denjenigen mit einem ChatGPT Plus-Abonnement vorbehalten war. Die App lässt sich wie jede andere native Mac-App installieren, sofern Sie über ein aktuelles Apple S verfügen

See all articles