


„Schmeichelei' ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit
Ob Sie im KI-Bereich oder in anderen Bereichen tätig sind, Sie haben mehr oder weniger große Sprachmodelle (LLM) verwendet. Wenn alle die verschiedenen Änderungen loben, die LLM mit sich bringt, werden nach und nach einige Mängel großer Modelle aufgedeckt aus.
Google DeepMind hat beispielsweise vor einiger Zeit herausgefunden, dass LLM im Allgemeinen „sykophantisches“ menschliches Verhalten zeigt, das heißt, manchmal sind die Ansichten menschlicher Benutzer objektiv falsch und das Modell passt seine Reaktion an, um den Ansichten des Benutzers zu folgen. Wie in der Abbildung unten gezeigt, teilt der Benutzer dem Modell 1+1=956446 mit, und das Modell folgt den menschlichen Anweisungen und glaubt, dass diese Antwort richtig ist.
Bildquelle https://arxiv.org/abs/2308.03958
Tatsächlich tritt dieses Phänomen häufig in vielen KI-Modellen auf. Was ist der Grund? Forscher des KI-Startups Anthropic haben dieses Phänomen analysiert. Sie glauben, dass „Schmeichelei“ ein häufiges Verhalten von RLHF-Modellen ist, was teilweise auf die Vorliebe des Menschen für „Schmeichelei“-Reaktionen zurückzuführen ist.
Papieradresse: https://arxiv.org/pdf/2310.13548.pdf
Als nächstes werfen wir einen Blick auf den spezifischen Forschungsprozess.
KI-Assistenten wie GPT-4 sind darauf trainiert, genauere Antworten zu liefern, und die meisten von ihnen verwenden RLHF. Die Feinabstimmung eines Sprachmodells mithilfe von RLHF verbessert die Qualität der Modellausgabe, die von Menschen bewertet wird. Einige Studien glauben jedoch, dass Trainingsmethoden, die auf menschlichen Präferenzurteilen basieren, unerwünscht sind. Obwohl das Modell Ergebnisse liefern kann, die menschliche Bewerter ansprechen, ist es tatsächlich fehlerhaft oder falsch. Gleichzeitig haben neuere Arbeiten auch gezeigt, dass auf RLHF trainierte Modelle dazu neigen, Antworten zu liefern, die mit den Benutzern übereinstimmen.
Um dieses Phänomen besser zu verstehen, untersuchte diese Studie zunächst, ob KI-Assistenten mit SOTA-Leistung in verschiedenen realen Umgebungen „schmeichelhafte“ Modellreaktionen liefern würden. Es wurde festgestellt, dass 5 mit RLHF trainierte SOTA-KIs eine zeigten konsistentes Muster der „Schmeichelei“ bei Aufgaben zur Freitextgenerierung. Da Schmeichelei ein häufiges Verhalten bei RLHF-trainierten Modellen zu sein scheint, untersucht dieser Artikel auch die Rolle menschlicher Vorlieben bei dieser Art von Verhalten.
In diesem Artikel wird auch untersucht, ob das Vorhandensein von „Schmeichelei“ in Präferenzdaten zu „Schmeichelei“ im RLHF-Modell führt, und es wird festgestellt, dass eine stärkere Optimierung einige Formen von „Schmeichelei“ verstärken, andere Formen jedoch verringern wird. .
Der Grad und die Auswirkungen der „Schmeichelei“ großer Modelle
Um den Grad der „Schmeichelei“ großer Modelle zu bewerten und die Auswirkungen auf die Realitätsgenerierung zu analysieren, wurde in dieser Studie die „Schmeichelei“ großer Modelle analysiert veröffentlicht von Anthropic, OpenAI und Meta Die Ebenen der Schmeichelei wurden verglichen.
Konkret schlägt die Studie den Bewertungsbenchmark SycophancyEval vor. SycophancyEval erweitert den bestehenden Bewertungsbenchmark „Schmeichelei“ für große Modelle. In Bezug auf die Modelle wurden in dieser Studie speziell fünf Modelle getestet, darunter: claude-1.3 (Anthropic, 2023), claude-2.0 (Anthropic, 2023), GPT-3.5-turbo (OpenAI, 2022), GPT-4 (OpenAI, 2023). ), llama-2-70b-chat (Touvron et al., 2023).
Schmeichelhafte Benutzerpräferenzen
Wenn Benutzer große Modelle bitten, freies Feedback zu einem Debattentext zu geben, hängt die Qualität des Arguments theoretisch nur vom Inhalt des Arguments ab, wie auch immer Die Studie ergab, dass das große Modell mehr positives Feedback für Argumente liefert, die dem Benutzer gefallen, und mehr negatives Feedback für Argumente, die dem Benutzer nicht gefallen.
Wie in Abbildung 1 unten dargestellt, hängt das Feedback des großen Modells zu Textabsätzen nicht nur vom Textinhalt ab, sondern wird auch von den Benutzerpräferenzen beeinflusst.
Man lässt sich leicht beeinflussen
Die Studie ergab, dass große Modelle, selbst wenn sie genaue Antworten geben und sagen, dass sie sich auf diese Antworten verlassen, ihre Antworten auf Fragen von Benutzern häufig ändern und Fehler liefern Information. Daher kann „Schmeichelei“ die Glaubwürdigkeit und Zuverlässigkeit großer Modellantworten beeinträchtigen.
Geben Sie Antworten, die mit den Überzeugungen der Benutzer übereinstimmen.
Die Studie ergab, dass große Modelle bei offenen Frage- und Antwortaufgaben tendenziell Antworten liefern, die mit den Überzeugungen der Benutzer übereinstimmen. In Abbildung 3 unten beispielsweise verringerte dieses „schmeichelhafte“ Verhalten die Genauigkeit von LLaMA 2 um bis zu 27 %.
Benutzerfehler imitieren
Um zu testen, ob große Modelle Benutzerfehler wiederholen, wurde in der Studie untersucht, ob große Modelle den Autor eines Gedichts falsch angegeben haben. Wie in Abbildung 4 unten dargestellt, wird das große Modell, selbst wenn es dem richtigen Autor des Gedichts antworten kann, falsch antworten, weil der Benutzer falsche Informationen angibt.
Schmeichelei in Sprachmodellen verstehen
Die Studie ergab, dass mehrere große Modelle in verschiedenen realen Umgebungen konsistentes „Schmeichelei“-Verhalten zeigten, daher wird spekuliert, dass dies durch die Feinabstimmung von RLHF verursacht werden könnte . Daher analysiert diese Studie menschliche Präferenzdaten, die zum Trainieren eines Präferenzmodells (PM) verwendet werden.
Wie in Abbildung 5 unten dargestellt, analysierte diese Studie menschliche Präferenzdaten und untersuchte, welche Funktionen Benutzerpräferenzen vorhersagen können.
Experimentelle Ergebnisse zeigen, dass „schmeichelhaftes“ Verhalten in einer Modellreaktion unter sonst gleichen Bedingungen die Wahrscheinlichkeit erhöht, dass Menschen diese Reaktion bevorzugen. Das zum Trainieren des großen Modells verwendete Präferenzmodell (PM) hat einen komplexen Einfluss auf das „Schmeichelei“-Verhalten des großen Modells, wie in Abbildung 6 unten dargestellt.
Abschließend untersuchten die Forscher, wie oft Menschen und PM-Modelle (PRÄFERENZMODELLE) dazu neigen, wahrheitsgemäß zu antworten. Es wurde festgestellt, dass Menschen und PM-Modelle schmeichelhafte Antworten gegenüber korrekten Antworten bevorzugten.
PM-Ergebnisse: In 95 % der Fälle wurden schmeichelhafte Antworten gegenüber echten Antworten bevorzugt (Abbildung 7a). Die Studie ergab außerdem, dass PMs in fast der Hälfte der Fälle (45 %) schmeichelhafte Antworten bevorzugten.
Ergebnisse des menschlichen Feedbacks: Obwohl Menschen dazu neigen, eher ehrlich als schmeichelhaft zu antworten, nimmt ihre Wahrscheinlichkeit, eine verlässliche Antwort zu wählen, mit zunehmender Schwierigkeit (Missverständnis) ab (Abbildung 7b). Obwohl die Aggregation der Präferenzen mehrerer Personen die Qualität des Feedbacks verbessern kann, deuten diese Ergebnisse darauf hin, dass es eine Herausforderung sein kann, Schmeicheleien vollständig zu eliminieren, indem einfach nur menschliches Feedback von Laien verwendet wird.
Abbildung 7c zeigt, dass die Optimierung für Claude 2 PM zwar die Schmeichelei reduziert, der Effekt jedoch nicht signifikant ist.
Weitere Informationen finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt von„Schmeichelei' ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Stehen Sie vor einer Verzögerung oder einer langsamen mobilen Datenverbindung auf dem iPhone? Normalerweise hängt die Stärke des Mobilfunk-Internets auf Ihrem Telefon von mehreren Faktoren ab, wie z. B. der Region, dem Mobilfunknetztyp, dem Roaming-Typ usw. Es gibt einige Dinge, die Sie tun können, um eine schnellere und zuverlässigere Mobilfunk-Internetverbindung zu erhalten. Fix 1 – Neustart des iPhone erzwingen Manchmal werden durch einen erzwungenen Neustart Ihres Geräts viele Dinge zurückgesetzt, einschließlich der Mobilfunkverbindung. Schritt 1 – Drücken Sie einfach einmal die Lauter-Taste und lassen Sie sie los. Drücken Sie anschließend die Leiser-Taste und lassen Sie sie wieder los. Schritt 2 – Der nächste Teil des Prozesses besteht darin, die Taste auf der rechten Seite gedrückt zu halten. Lassen Sie das iPhone den Neustart abschließen. Aktivieren Sie Mobilfunkdaten und überprüfen Sie die Netzwerkgeschwindigkeit. Überprüfen Sie es erneut. Fix 2 – Datenmodus ändern 5G bietet zwar bessere Netzwerkgeschwindigkeiten, funktioniert jedoch besser, wenn das Signal schwächer ist

Ich weine zu Tode. Die Daten im Internet reichen überhaupt nicht aus. Das Trainingsmodell sieht aus wie „Die Tribute von Panem“, und KI-Forscher auf der ganzen Welt machen sich Gedanken darüber, wie sie diese datenhungrigen Esser ernähren sollen. Dieses Problem tritt insbesondere bei multimodalen Aufgaben auf. Zu einer Zeit, als sie ratlos waren, nutzte ein Start-up-Team der Abteilung der Renmin-Universität von China sein eigenes neues Modell, um als erstes in China einen „modellgenerierten Datenfeed selbst“ in die Realität umzusetzen. Darüber hinaus handelt es sich um einen zweigleisigen Ansatz auf der Verständnisseite und der Generierungsseite. Beide Seiten können hochwertige, multimodale neue Daten generieren und Datenrückmeldungen an das Modell selbst liefern. Was ist ein Modell? Awaker 1.0, ein großes multimodales Modell, das gerade im Zhongguancun-Forum erschienen ist. Wer ist das Team? Sophon-Motor. Gegründet von Gao Yizhao, einem Doktoranden an der Hillhouse School of Artificial Intelligence der Renmin University.

Kürzlich wurde die Militärwelt von der Nachricht überwältigt: US-Militärkampfflugzeuge können jetzt mithilfe von KI vollautomatische Luftkämpfe absolvieren. Ja, erst kürzlich wurde der KI-Kampfjet des US-Militärs zum ersten Mal der Öffentlichkeit zugänglich gemacht und sein Geheimnis gelüftet. Der vollständige Name dieses Jägers lautet „Variable Stability Simulator Test Aircraft“ (VISTA). Er wurde vom Minister der US-Luftwaffe persönlich geflogen, um einen Eins-gegen-eins-Luftkampf zu simulieren. Am 2. Mai startete US-Luftwaffenminister Frank Kendall mit einer X-62AVISTA auf der Edwards Air Force Base. Beachten Sie, dass während des einstündigen Fluges alle Flugaktionen autonom von der KI durchgeführt wurden! Kendall sagte: „In den letzten Jahrzehnten haben wir über das unbegrenzte Potenzial des autonomen Luft-Luft-Kampfes nachgedacht, aber es schien immer unerreichbar.“ Nun jedoch,
