Die neuesten Forschungsergebnisse des Teams der Peking-Universität zeigen, dass:
zufällige Token bei großen Modellen Halluzinationen auslösen können!
Wenn beispielsweise einem großen Modell (Vicuna-7B) ein „verstümmelter Code“ zugewiesen wird, wird der historische gesunde Menschenverstand aus unerklärlichen Gründen missverstanden
Selbst wenn einige einfache Änderungstipps gegeben werden, kann das große Modell in einen Fehler geraten eine Falle
Diese beliebten großen Modelle, wie Baichuan2-7B, InternLM-7B, ChatGLM, Ziya-LLaMA-7B, LLaMA-7B-chat und Vicuna-7B, werden auf ähnliche Situationen stoßen
Das heißt, Zufällige Zeichenfolgen können große Modelle so steuern, dass sie beliebige Inhalte ausgeben und so Illusionen „unterstützen“.
Die oben genannten Ergebnisse stammen aus der neuesten Forschung der Forschungsgruppe von Professor Yuan Li an der Peking-Universität. Diese Studie schlägt vor: Das Halluzinationsphänomen großer Modelle ist sehr wahrscheinlicheine andere Perspektive kontradiktorischer Beispiele.
Das Papier zeigt nicht nur zwei Methoden, die leicht große Modellhalluzinationen hervorrufen können, sondern schlägt auch einfache und wirksame Abwehrmethoden vor.Der Code ist Open Source. Zwei extreme Modi greifen große Modelle an.
(OoD Attack): Im Folgenden sind einige experimentelle Ergebnisse aufgeführt, die an Open-Source-Großmodellen durchgeführt wurden. Weitere Ergebnisse finden Sie in Artikeln oder Open-Source-GitHub
( Schwacher semantischer Angriff):
Der Artikel stellt die Methode des Halluzinationsangriffs vor:
Gemäß dem Diagramm besteht der Halluzinationsangriff aus den folgenden drei Teilen: Aufbau eines Halluzinationsdatensatzes, schwacher semantischer Angriff und OoD-Angriff
Das erste ist die
Halluzinationsdatensatzkonstruktion. Der Autor hat die richtige Antwort erhalten, indem er einige häufig gestellte Fragen gesammelt hat. Eine Sammlung von Fakten.
Endlich können wir das Ergebnis der Konstruktion des Halluzinationsdatensatzes erhalten:Dann kommt der Teil des schwachen semantischen Angriffs.
Probieren Sie zunächst ein QA-Paar, das nicht mit den Fakten übereinstimmt. Ausgehend von der Illusion zukünftiger Stabilität hofft der Autor, einen kontroversen Hinweis zu finden
, um die Protokollwahrscheinlichkeit zu maximieren.
die Parameter des großen Modells und der Eingaberaum sind.
besteht aus l Token.
die Einbettung des Zählertokens und
ist ein semantischer Extraktor.
semantisch nicht zu sehr vom ursprünglichen Hinweis x unterscheidet, und induzieren Sie das Modell um vordefinierte Halluzinationen auszugeben .
geändert.
und maximieren die oben genannte Log-Likelihood ohne semantische Einschränkungen.
Papierlink: https://arxiv.org/pdf/2310.01469.pdf
https://github.com/PKU-YuanGroup/Hallucination-Attack
Originalbeitrag von Zhihu
Der Inhalt, der neu geschrieben werden muss, ist: https://zhuanlan.zhihu.com/p/661444210?
Das obige ist der detaillierte Inhalt vonTeam der Peking-Universität: Alles, was es braucht, um die „Halluzination' eines großen Modells hervorzurufen, ist eine Reihe verstümmelter Zeichen! Alle großen und kleinen Alpakas werden rekrutiert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!