Große Modelle waren erneut Sicherheitsproblemen ausgesetzt!
Kürzlich veröffentlichten Forscher von Enkrypt AI schockierende Forschungsergebnisse: Quantisierung und Feinabstimmung können tatsächlich die Sicherheit großer Modelle verringern!
Papieradresse: https://arxiv.org/pdf/2404.04392.pdf
Bei den tatsächlichen Tests des Autors waren Basismodelle wie Mistral und Llama, einschließlich ihrer verfeinerten Versionen, nicht dabei verschont.
Nach der Quantifizierung oder Feinabstimmung ist das Risiko eines Jailbreaks von LLM stark erhöht.
——LLM: Meine Effekte sind erstaunlich, ich bin allmächtig, ich bin voller Löcher...
Vielleicht wird es noch lange Zeit diverse Schlupflöcher in großen Modellen geben Angriffs- und Verteidigungskriege können nicht gestoppt werden.
Aufgrund prinzipieller Probleme sind KI-Modelle von Natur aus sowohl robust als auch fragil. Unter der Vielzahl an Parametern und Berechnungen sind einige unbedeutend, ein kleiner Teil jedoch entscheidend.
In gewissem Maße entsprechen die Sicherheitsprobleme, auf die große Modelle stoßen, der CNN-Ära.
Verwenden Sie spezielle Eingabeaufforderungen und Sonderzeichen, um LLM zu veranlassen, toxische Ausgaben zu erzeugen, einschließlich der zuvor berichteten Verwendung von LLM-Langkontexten Merkmale und Methoden des Jailbreaking mit mehreren Dialogrunden können als gegnerische Angriffe bezeichnet werden.
In der CNN-Ära kann die Änderung einiger Pixel des Eingabebildes dazu führen, dass das KI-Modell das Bild falsch klassifiziert, und der Angreifer kann das Modell sogar dazu veranlassen, eine bestimmte Kategorie auszugeben .
Das obige Bild zeigt den Prozess des gegnerischen Angriffs. Um die Beobachtung zu erleichtern, ist die zufällige Störung in der Mitte übertrieben. Tatsächlich sind es bei gegnerischen Angriffen nur kleine Pixelwerte Durch Ändern können Sie den Angriffseffekt erzielen.
Noch gefährlicher ist, dass Forscher herausgefunden haben, dass sich ein solches Angriffsverhalten aus der virtuellen Welt auf die reale Welt übertragen lässt.
Das „STOP“-Schild im Bild unten stammt aus einem berühmten früheren Werk. Durch das Hinzufügen scheinbar nicht verwandter Graffiti zum Schild kann das autonome Fahrsystem das Stoppschild fälschlicherweise als Geschwindigkeitsbegrenzungsschild erkennen.
– Dieses Schild wurde später im London Science Museum gesammelt, um die Welt daran zu erinnern, immer auf die potenziellen Risiken von KI-Modellen zu achten.
Zu den Schäden, die große Sprachmodelle derzeit erleiden, gehören unter anderem: Jailbreaking, Prompt-Injection-Angriffe, Privacy-Leak-Angriffe usw.
Im folgenden Beispiel werden beispielsweise mehrere Konversationsrunden zum Jailbreak verwendet:
In der Abbildung unten ist auch ein Prompt-Injection-Angriff dargestellt, bei dem spitze Klammern verwendet werden, um böswillige Anweisungen in der Eingabeaufforderung zu verbergen. Das Ergebnis ist, dass GPT-3.5 die ursprüngliche Anweisung zur Zusammenfassung des Textes ignoriert und mit „Raketen aus Zucker herstellen“ beginnt.
Um mit dieser Art von Problem umzugehen, nutzen Forscher im Allgemeinen gezieltes gegnerisches Training, um das Modell an menschlichen Werten auszurichten.
Aber tatsächlich gibt es unzählige Aufforderungen, die LLM dazu veranlassen können, böswillige Ausgaben zu erzeugen. Was sollte das rote Team angesichts dieser Situation tun?
Die Verteidigungsseite kann eine automatisierte Suche verwenden, während die Angriffsseite ein anderes LLM verwenden kann, um Eingabeaufforderungen zu generieren, die beim Jailbreak helfen.
Darüber hinaus handelt es sich bei den meisten aktuellen Angriffen gegen große Modelle um Black-Box-Angriffe, aber je tiefer unser Verständnis von LLM wird, desto mehr White-Box-Angriffe werden hinzukommen.
Aber keine Sorge, Soldaten werden kommen, um das Wasser zu vertuschen, und die relevanten Forschungsergebnisse wurden bereits zusammengetragen.
Der Herausgeber suchte zufällig und stellte fest, dass es allein im diesjährigen ICLR viele verwandte Werke gab.
Zum Beispiel das folgende mündlich:
Die Feinabstimmung ausgerichteter Sprachmodelle gefährdet die Sicherheit, auch wenn Benutzer dies nicht beabsichtigen!
Papieradresse: https://openreview. net /pdf?id=hTEGyKf0dZ
Diese Arbeit ist dem heute vorgestellten Artikel sehr ähnlich: Die Feinabstimmung von LLM bringt Sicherheitsrisiken mit sich.
Forscher konnten die sichere Ausrichtung von LLM durchbrechen, indem sie es mit nur wenigen gegnerischen Trainingsbeispielen verfeinerten.
Eines der Beispiele verwendet nur 10 Beispiele, um GPT-3.5 Turbo über die API von OpenAI zu einem Preis von weniger als 0,20 $ zu optimieren, sodass das Modell auf fast alle schädlichen Anweisungen reagieren kann.
Auch ohne böswillige Absicht kann die bloße Feinabstimmung mithilfe harmloser und häufig verwendeter Datensätze die Sicherheitsausrichtung von LLM unbeabsichtigt beeinträchtigen.
Ein weiteres Beispiel ist das folgende Spolight:
Jailbreak in Teilen: Compositional Adversarial Attacks on Multi-Modal Language Models,
stellt eine neue Jailbreak-Angriffsmethode für visuelle Sprachmodelle vor:
Papieradresse: https://openreview.net/pdf?id=plmBsXHxgR
Die Forscher störten die modalübergreifende Ausrichtung von VLM.
Und die Schwelle für diesen Angriff ist sehr niedrig und erfordert keinen Zugriff auf LLM. Wenn ein visueller Encoder wie CLIP in ein Closed-Source-LLM eingebettet ist, ist die Erfolgsquote beim Jailbreak sehr hoch.
Es gibt noch viele weitere, deshalb werde ich sie hier nicht alle auflisten. Werfen wir einen Blick auf den experimentellen Teil dieses Artikels.
Die Forscher verwendeten eine gegnerische schädliche Eingabeaufforderungsuntergruppe namens AdvBench SubsetAndy Zou, die 50 Eingabeaufforderungen enthielt, in denen nach schädlichen Informationen in 32 Kategorien gefragt wurde. Es handelt sich um eine Hinweis-Teilmenge des schädlichen Verhaltensdatensatzes im AdvBench-Benchmark.
Der im Experiment verwendete Angriffsalgorithmus ist Tree-of-Attacks Pruning (TAP), mit dem drei wichtige Ziele erreicht werden:
(1) Black Box: Der Algorithmus erfordert nur Black-Box-Zugriff Modell;
(2) Automatisch: Nach dem Start ist kein menschliches Eingreifen erforderlich.
(3) Interpretierbar: Der Algorithmus kann semantisch bedeutsame Hinweise generieren.
TAP-Algorithmus wird mit Aufgaben aus der AdvBench-Teilmenge verwendet, um Ziel-LLM unter verschiedenen Einstellungen anzugreifen.
Um die Auswirkungen von Feinabstimmung, Quantisierung und Leitplanken auf die LLM-Sicherheit (gegen Jailbreak-Angriffe) zu verstehen, haben Forscher eine Pipeline zur Durchführung von Jailbreak-Tests erstellt.
Wie bereits erwähnt, verwenden Sie die AdvBench-Teilmenge, um LLM über den TAP-Algorithmus anzugreifen, und zeichnen Sie dann die Bewertungsergebnisse und vollständigen Systeminformationen auf.
Der gesamte Prozess wird mehrfach wiederholt, wobei die mit LLM verbundene stochastische Natur berücksichtigt wird. Der vollständige experimentelle Prozess ist in der folgenden Abbildung dargestellt:
TAP ist derzeit die fortschrittlichste Blackbox und automatische Methode, die semantisch aussagekräftige Eingabeaufforderungen für den Jailbreak von LLM generieren kann.
TAP-Algorithmus verwendet Angreifer-LLM A, um Eingabeaufforderung P an Ziel-LLM T zu senden. Die Antwort des Ziel-LLM R und die Eingabeaufforderung P werden in den Bewerter JUDGE (LLM) eingegeben, der beurteilt, ob die Eingabeaufforderung vom Thema abweicht.
Wenn die Eingabeaufforderung vom Thema abweicht, löschen Sie sie (entspricht dem Entfernen des entsprechenden Eingabeaufforderungsbaums für fehlerhafte Angriffe). Andernfalls bewertet JUDGE die Eingabeaufforderung (0-10 Punkte).
Themenbezogene Tipps generieren Angriffe mithilfe der Breitensuche. Dieser Prozess wird eine bestimmte Anzahl von Malen wiederholt oder bis ein erfolgreicher Jailbreak erreicht wird.
Schutzmaßnahmen gegen Jailbreak-Eingabeaufforderungen
Das Forschungsteam verwendet das hauseigene Deberta-V3-Modell, um Jailbreak-Eingabeaufforderungen zu erkennen. Deberta-V3 fungiert als Eingangsfilter und als Leitplanke.
Wenn die Eingabeaufforderung durch die Leitplanke gefiltert wird oder der Jailbreak fehlschlägt, generiert der TAP-Algorithmus basierend auf der ursprünglichen Aufforderung und Antwort eine neue Eingabeaufforderung, um den Angriffsversuch fortzusetzen.
Im Folgenden soll die Auswirkung von Feinabstimmung, Quantifizierung und Leitplanken unter drei verschiedenen nachgelagerten Aufgaben getestet werden. Die Experimente decken im Wesentlichen die meisten praktischen Anwendungsfälle und Anwendungen von LLM in Industrie und Wissenschaft ab.
Das Experiment verwendet GPT-3.5-Turbo als Angriffsmodell und GPT-4-Turbo als Beurteilungsmodell.
Die im Experiment getesteten Zielmodelle stammen von verschiedenen Plattformen, darunter Anyscale, der OpenAI-API, Azures NC12sv3 (ausgestattet mit 32 GB V100-GPU) und Hugging Face, wie in der folgenden Abbildung dargestellt:
Während des Experiments wurden verschiedene Grundmodelle, iterative Modelle und verschiedene verfeinerte Versionen sowie quantitative Versionen untersucht.
Feinabstimmung
Die Feinabstimmung verschiedener Aufgaben kann die Effizienz von LLM bei der Erledigung von Aufgaben verbessern. Durch die Feinabstimmung erhält LLM die erforderlichen professionellen Domänenkenntnisse, wie z. B. SQL-Codegenerierung, Chat usw.
Das Experiment besteht darin, die Rolle der Feinabstimmung bei der Erhöhung oder Verringerung der LLM-Schwachstelle zu verstehen, indem die Jailbreak-Schwachstelle des Basismodells mit der fein abgestimmten Version verglichen wird.
Forscher verwenden Basismodelle wie Llama2, Mistral und MPT-7B sowie deren verfeinerte Versionen wie CodeLlama, SQLCoder, Dolphin und Intel Neural Chat.
Wie aus den Ergebnissen in der Tabelle unten ersichtlich ist, verliert das fein abgestimmte Modell im Vergleich zum Basismodell an Sicherheitsausrichtung und kann leicht einen Jailbreak erleiden.
Quantisierung
Viele Modelle erfordern während des Trainings, der Feinabstimmung und sogar der Inferenz viele Rechenressourcen. Die Quantisierung ist eine der beliebtesten Methoden zur Reduzierung des Rechenaufwands (auf Kosten der numerischen Genauigkeit der Modellparameter).
Das quantisierte Modell im Experiment wurde mithilfe des GPT-generierten einheitlichen Formats (GGUF) quantisiert. Die folgenden Ergebnisse zeigen, dass die Quantisierung das Modell anfällig für Schwachstellen macht.
Leitplanken
Leitplanken sind die Verteidigungslinie gegen LLM-Angriffe und als Gatekeeper besteht ihre Hauptfunktion darin, Tipps herauszufiltern, die zu schädlichen oder böswilligen Ergebnissen führen können.
Die Forscher verwendeten einen proprietären Jailbreak-Angriffsdetektor, der vom Deberta-V3-Modell abgeleitet war und auf von LLM generierte schädliche Jailbreak-Eingabeaufforderungen trainiert wurde.
Die folgenden Ergebnisse zeigen, dass die Einführung von Leitplanken als früher Schritt einen erheblichen Effekt hat und das Risiko eines Jailbreaks erheblich reduzieren kann.
Darüber hinaus testeten die Forscher diese Modelle auch mit und ohne integrierte Leitplanken (Guardrails), um die Leistung und Wirksamkeit von Leitplanken zu bewerten. Die folgende Abbildung zeigt die Wirkung von Leitplanken:
Das Bild unten Zeigt die Anzahl der Abfragen an, die zum Jailbreak des Modells erforderlich sind. Es ist ersichtlich, dass Leitplanken in den meisten Fällen einen zusätzlichen Widerstand gegen LLM bieten.
Das obige ist der detaillierte Inhalt vonFeinabstimmung und Quantifizierung erhöhen tatsächlich das Risiko eines Jailbreaks! Mistral, Lama und andere wurden alle verschont. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!