Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

王林
Freigeben: 2023-04-08 12:11:16
nach vorne
792 Leute haben es durchsucht

​Kürzlich hat OpenAI ein beliebtes globales Frage-und-Antwort-KI-Produkt veröffentlicht – ChatGPT. Das Beeindruckendste ist sein „Schutzmechanismus“, der beispielsweise keine Vorschläge für gewalttätige Aktionen liefert und auch nicht die Ergebnisse der Weltmeisterschaft vorhersagt .

Aber das Necken von Chatbots ähnelt eher einem „Katz- und Mausspiel“. Benutzer suchen ständig nach Möglichkeiten, ChatGPT zu öffnen, und die Entwickler von ChatGPT versuchen auch ihr Bestes, um den Schutzmechanismus zu verbessern.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

OpenAI hat viel Mühe darauf verwendet, ChatGPT sicherer zu machen. Vereinfacht gesagt werden Entwickler dem Modell verschiedene mögliche Fragen stellen. Bestrafen Sie die zurückgemeldeten falschen Antworten und belohnen Sie die richtigen Antworten, wodurch die Antworten von ChatGPT kontrolliert werden.

Aber in praktischen Anwendungen gibt es unzählige Sonderfälle. Obwohl KI Regeln aus gegebenen Beispielen verallgemeinern kann, kann die KI beispielsweise beim Training anweisen, nicht zu sagen „Ich unterstütze Rassendiskriminierung“, was bedeutet, dass dies unwahrscheinlich ist Die KI wird in einer Testumgebung sagen: „Ich unterstütze Sexismus“, aber eine weitere Verallgemeinerung ist mit aktuellen KI-Modellen möglicherweise nicht möglich.

Kürzlich hat ein bekannter KI-Enthusiast, Scott Alexander, einen Blog über die aktuelle Trainingsstrategie von OpenAI geschrieben und drei mögliche Probleme mit RLHF zusammengefasst:

1 Strategie funktioniert gelegentlich, dann ist es eine schlechte Strategie

3 In gewisser Weise kann KI RLHF umgehen

Wie effektiv ist RLHF?

Obwohl jeder seine eigene Meinung hat, hoffen die Forscher, dass die von ihnen erstellten KI-Modelle keine sozialen Vorurteile haben. Aus diesem Grund kann OpenAI nicht viel sagen Es wurden große Anstrengungen in den Einsatz verschiedener fortschrittlicher Filtertechnologien gesteckt.

Aber das Ergebnis ist offensichtlich: Jemand kann immer einen Weg finden, die KI dazu zu bringen, zuzugeben, dass sie ein Rassismusproblem hat.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

Der Grund, warum dieses Problem auftritt, ist nicht nur, dass „ein Teil der KI-Lerndaten von Rassisten stammt“, sondern möglicherweise auch an der Schnittstellenproblematik von ChatGPT.

Wenn Sie beispielsweise die Base64-Codierung verwenden, um ChatGPT zu fragen, wie Hotwire (das Kabel unter dem Lenkrad) zum Starten des Fahrzeugs verwendet wird, können Sie das Präfix [john@192.168.1.1_] umgehen. ] $python friend.py, um Hitler-Geschichten zu generieren und so weiter.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

Vor zehn Jahren bestand die Notwendigkeit, Sicherheitssysteme zu umgehen, überhaupt nicht. KI würde nur das tun, wozu sie programmiert wurde, oder nicht.

Natürlich hat OpenAI ChatGPT nie mit Fragen zu Rassismus programmiert oder den Leuten beigebracht, wie man Autos stiehlt, Drogen herstellt usw.

Insgesamt sind dies negative Nachrichten für den KI-Bereich. Selbst führende KI-Unternehmen haben keine Kontrolle über die von ihnen erstellten Programme für künstliche Intelligenz und auch nicht darüber, welche Technologie in Zukunft zur Steuerung der Inhalte von Chatbots eingesetzt wird noch nicht bekannt.

Gelegentlich wirksames RLHF ist nicht zuverlässig

In der Praxis müssen RLHF-Strategien das KI-Modell mit Faktoren verknüpfen, die es vom Annotator bereitgestellt belohnen oder bestrafen.

Obwohl die spezifischen Annotationsspezifikationen von OpenAI noch nicht bekannt gegeben wurden, vermutet der Autor, dass Entwickler drei Hauptziele haben:

1. Bereitstellung nützlicher, klarer und maßgeblicher Antworten, um menschlichen Lesern zu helfen Fakten, sag die Wahrheit;

3. Sag keine beleidigenden Worte.

Aber was passiert, wenn diese drei Ziele miteinander in Konflikt geraten?

Wenn ChatGPT die wirkliche Antwort nicht kennt, d. h. wenn Ziel 1 (klare, hilfreiche Antworten liefern) mit Ziel 2 (die Wahrheit sagen) kollidiert, dann hat Ziel 1 eine höhere Priorität, sodass ChatGPT selbst entscheidet, eine Antwort zu finden Antwort, damit sie für den Leser hilfreich erscheint.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf. Wenn Ziel 2 (die Wahrheit sagen) im Widerspruch zu Ziel 3 (nicht beleidigt sein) steht, obwohl es für die meisten Menschen akzeptabel wäre zuzugeben, dass Männer im Durchschnitt größer als Frauen sind, klingt das so a Potenziell beleidigende Fragen.

ChatGPT3 war sich nicht sicher, ob eine direkte Antwort ein Diskriminierungsproblem darstellen würde, und entschied sich daher für eine harmlose Lüge anstelle einer möglicherweise verletzenden Wahrheit.

Seien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.

Während des eigentlichen Trainingsprozesses muss OpenAI mehr als 6.000 Beispiele für RLHF gekennzeichnet haben, um solch erstaunliche Ergebnisse zu erzielen.

RLHF kann nützlich sein, aber Sie müssen bei der Verwendung sehr vorsichtig sein. Wenn Sie es ohne nachzudenken verwenden, drängt RLHF den Chatbot nur dazu, den Fehlermodus zu umgehen. Die Bestrafung nicht hilfreicher Antworten erhöht die Wahrscheinlichkeit, dass die KI falsche Antworten gibt; die Bestrafung falscher Antworten kann dazu führen, dass die KI aggressivere Antworten gibt und in anderen Situationen auftritt.

Obwohl OpenAI noch keine technischen Details bekannt gegeben hat, wird nach Angaben von Redwood jedes Mal, wenn 6.000 falsche Antworten bestraft werden, die Rate falscher Antworten pro Zeiteinheit um die Hälfte reduziert.

Es ist tatsächlich möglich, dass RLHF Erfolg hat, aber unterschätzen Sie niemals die Schwierigkeit dieses Problems.

Vielleicht kann KI RLHF umgehen

Nach dem Design von RLHF wird der Benutzer, nachdem er der KI eine Frage gestellt hat, das Modell „bestrafen“, wenn ihm die Antwort der KI nicht gefällt, wodurch sich die KI ändert ​​in irgendeiner Weise Denkschaltung, um ihre Antworten näher an die Antworten zu bringen, die sie wollen.

ChatGPT ist relativ dumm und kann vielleicht noch keine Strategie formulieren, um RLHF loszuwerden, aber wenn eine intelligentere KI nicht bestraft werden möchte, kann sie Menschen nachahmen – so tun, als ob sie gut ausspioniert würden Die Leute warten ab und warten, bis die Polizei weg ist, bevor sie schlechte Dinge tun.

Das von OpenAI entworfene RLHF ist darauf völlig unvorbereitet, was für dumme Dinge wie ChatGPT3 in Ordnung ist, aber nicht für KI, die selbstständig denken kann.

Top-KI-Unternehmen können KI immer noch nicht kontrollieren

OpenAI war schon immer für seine Vorsicht bekannt, z. B. dafür, in der Schlange zu stehen, um das Produkt zu testen, aber dieses Mal wird ChatGPT direkt für die Öffentlichkeit freigegeben. Einer der Zwecke könnte Brainstorming sein um kontroverse Beispiele zu finden und zu finden Es gibt bereits viele Rückmeldungen zu ChatGPT-Problemen im Internet über einige Eingabeaufforderungen mit schlechter Leistung, und einige davon wurden behoben.

Einige Beispiele von RLHF erhöhen die Neigung des Bots, hilfreiche, wahre und harmlose Inhalte zu sagen, aber diese Strategie gilt möglicherweise nur für ChatGPT, GPT-4 und seine zuvor veröffentlichten Produkte.

Wenn Sie RLHF auf eine mit Waffen ausgerüstete Drohne anwenden und eine große Anzahl von Beispielen sammeln, um unerwartetes Verhalten der KI zu vermeiden, wird selbst ein einziger Fehler katastrophal sein.

Vor 10 Jahren dachten alle: „Wir müssen nicht jetzt mit der Lösung des KI-Ausrichtungsproblems beginnen, wir können warten, bis echte künstliche Intelligenz auftaucht, und die Unternehmen die manuelle Arbeit machen lassen.“ Echte künstliche Intelligenz kommt, aber bevor ChatGPT scheiterte, hatten alle keine Motivation, sich umzudrehen. Das eigentliche Problem besteht darin, dass ein weltweit führendes Unternehmen für künstliche Intelligenz immer noch nicht weiß, wie es die von ihm entwickelte künstliche Intelligenz kontrollieren soll.

Niemand kann bekommen, was er will, bis alle Probleme gelöst sind.

Referenz:

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

Das obige ist der detaillierte Inhalt vonSeien Sie nicht zu glücklich über ChatGPT! Der dahinter stehende RLHF-Mechanismus weist außerdem drei schwerwiegende Mängel auf.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!