Heim > Technologie-Peripheriegeräte > KI > Warum ist GPT-4P anfällig für multimodale Hint-Injection-Image-Angriffe?

Warum ist GPT-4P anfällig für multimodale Hint-Injection-Image-Angriffe?

WBOY
Freigeben: 2023-10-30 15:21:17
nach vorne
1380 Leute haben es durchsucht

Die neue GPT-4V-Version von OpenAI unterstützt das Hochladen von Bildern, was einen neuen Angriffspfad mit sich bringt und große Sprachmodelle (LLM) anfällig für multimodale Injektionsbildangriffe macht. Angreifer können Befehle, Schadskripte und Code in Bilder einbetten, denen das Modell dann entspricht.

Multimodale Prompt-Injection-Image-Angriffe können Daten verlieren, Abfragen umleiten, Fehlermeldungen generieren und komplexere Skripte ausführen, um die Art und Weise, wie LLM Daten interpretiert, neu zu definieren. Sie können LLMs umfunktionieren, um zuvor errichtete Sicherheitsleitplanken zu ignorieren und Befehle auszuführen, die das Unternehmen gefährden und Bedrohungen von Betrug bis hin zu betrieblicher Sabotage darstellen könnten.

Alle Unternehmen, die LLM als Teil ihres Arbeitsablaufs nutzen, stehen vor Schwierigkeiten, aber diejenigen, die LLM als Kerngeschäft für die Bildanalyse und -klassifizierung nutzen, sind dem größten Risiko ausgesetzt. Angreifer, die eine Vielzahl von Techniken verwenden, können die Art und Weise, wie Bilder interpretiert und klassifiziert werden, schnell ändern, was zu noch verwirrenderen Ergebnissen führt.

Wenn die Eingabeaufforderungen von LLM überschrieben werden, besteht eine höhere Wahrscheinlichkeit, dass bösartige Befehle und ausgeführte Skripte ignoriert werden. Angreifer können Betrug und Betriebssabotage begehen, indem sie Befehle in eine Reihe von Bildern einbetten, die auf LLM hochgeladen werden, und können auch Social-Engineering-Angriffe ermöglichen

Bilder sind ein Angriffsvektor, gegen den sich LLM nicht wehren kann

Da LLM nicht in der Lage ist, sich davor zu schützen Während der Verarbeitung gibt es keinen Datenbereinigungsschritt, sodass jedes Bild unzuverlässig ist. So wie es sehr gefährlich ist, Identitäten ohne Zugriffskontrolle auf jeden Datensatz, jede Anwendung oder jede Ressource frei im Netzwerk herumlaufen zu lassen, gibt es auch Gefahren für Bilder, die in LLM hochgeladen werden.

Situationen, in denen Unternehmen über privates LLM verfügen. In dieser Situation gilt der Zugriff mit den geringsten Privilegien muss als zentrale Netzwerksicherheitsstrategie übernommen werden

Simon Willison erklärte kürzlich in einem Blogbeitrag ausführlich, warum GPT-4V zum Hauptkanal für Prompt-Injection-Angriffe geworden ist, und wies darauf hin, dass LLM grundsätzlich leicht zu täuschen ist. Link zum Blogbeitrag: https://simonwillison.net/2023/Oct/14/multi-modal-prompt-injection/

Willison zeigt, wie man autonome Agenten der künstlichen Intelligenz wie Auto-GPT durch sofortige Injektion kapert. Er erklärt ausführlich ein einfaches Beispiel für die Injektion visueller Hinweise, das mit der Einbettung eines Befehls in ein einzelnes Bild beginnt und sich allmählich zu einem Penetrationsangriff mit visueller Hinweiseinspritzung entwickelt

Paul Ekwere, Senior Manager für Datenanalyse und künstliche Intelligenz bei BDO UK, sagte: „Injektion Angriff stellt eine ernsthafte Bedrohung für die Sicherheit und Zuverlässigkeit von LLM dar, insbesondere für visionsbasierte Modelle, die Bilder oder Videos verarbeiten. Diese Modelle werden häufig in Bereichen wie Gesichtserkennung, autonomes Fahren, medizinische Diagnose und Überwachung eingesetzt OpenAI bietet derzeit keine Lösung für multimodale Prompt-Injection-Image-Angriffe, so dass Benutzer und Unternehmen auf sich allein gestellt sind. Ein Blogbeitrag auf der Entwicklerseite von Nvidia (https://developer.nvidia.com/blog/mitigating-stored-prompt-injection-attacks-against-llm-applications/) bietet einige Empfehlungen, unter anderem für alle Datenspeicherung und Systemdurchsetzungen Zugriff mit geringsten Berechtigungen

So funktioniert der multimodale Prompt-Injection-Image-Angriff

Der multimodale Prompt-Injection-Angriff nutzt eine Schwachstelle in der Verarbeitung visueller Bilder durch GPT-4V aus, um unerkannte böswillige Befehle auszuführen. GPT-4V verlässt sich auf eine visuelle Transformationsencoder zum Konvertieren von Bildern in latente Raumdarstellungen, und Bild- und Textdaten werden kombiniert, um Antworten zu generieren.

Das Modell hat keine Möglichkeit, die visuelle Eingabe vor dem Codieren zu bereinigen. Ein Angreifer kann beliebig viele Befehle einbetten und GPT-4 betrachtet sie als legitime Befehle. Ein Angreifer, der automatisch einen multimodalen Hint-Injection-Angriff auf ein privates LLM durchführt, würde unbemerkt bleiben.

Eindämmung injizierter Bildangriffe

Das besorgniserregende Problem bei diesem ungeschützten Angriffsvektor von Bildern besteht darin, dass ein Angreifer die von LLM trainierten Daten mit der Zeit möglicherweise weniger vertrauenswürdig macht und auch die Datentreue allmählich abnimmt.

Ein aktuelles Forschungspapier (https://arxiv.org/pdf/2306.05499.pdf) bietet Richtlinien zum besseren Schutz von LLM vor Hint-Injection-Angriffen. Um das Ausmaß des Risikos und mögliche Lösungen zu ermitteln, führte das Forscherteam eine Reihe von Experimenten durch, um die Wirksamkeit von Injektionsangriffen gegen Anwendungen zu bewerten, die LLM integrieren. Das Forschungsteam stellte fest, dass 31 Anwendungen, die LLM integrieren, anfällig für Injektionsangriffe sind.

Das Forschungspapier gibt die folgenden Empfehlungen zur Eindämmung von Injektionsbildangriffen:

Verbessern Sie die Sauberkeit der Benutzereingaben und Validierungsverfahren.

Für private Anwendungen. Für Unternehmen, die eine Standardisierung anstreben In LLM sind Identity Access Management (IAM) und Least Privilege Access Grundkonfigurationen. LLM-Anbieter müssen eine gründlichere Reinigung in Betracht ziehen, bevor sie Bilddaten zur Verarbeitung weitergeben

Was neu geschrieben werden muss, ist: 2. Verbessern Sie die Plattformarchitektur und trennen Sie Benutzereingaben von der Systemlogik.

Der Zweck sollte darin bestehen, das Risiko zu beseitigen, dass Benutzereingaben sich direkt auf LLM-Code und -Daten auswirken. Alle Bildhinweise müssen so behandelt werden, dass sie die interne Logik oder den Arbeitsablauf nicht beeinträchtigen.

Verwenden Sie einen mehrstufigen Verarbeitungsworkflow, um böswillige Angriffe zu erkennen.

Wir können einen mehrstufigen Prozess aufbauen, um bildbasierte Angriffe frühzeitig zu erkennen und diese Bedrohung besser zu bewältigen.

4 Passen Sie Verteidigungstipps an, um Jailbreaks zu verhindern.

Jailbreaking ist ein Eine gängige Hint-Engineering-Technik, mit der LLM dazu verleitet wird, illegale Aktionen auszuführen. Das Anhängen von Hinweisen an böswillig aussehende Bildeingaben kann zum Schutz von LLM beitragen. Allerdings warnen Forscher, dass fortgeschrittene Angriffe diesen Ansatz immer noch umgehen können.

Eine Bedrohung, die an Bedeutung gewinnt

Da immer mehr LLMs auf multimodale Modelle umsteigen, werden Bilder zum neuesten Bedrohungsvektor, auf den sich Angreifer verlassen können, um Schutzmaßnahmen zu umgehen und neu zu definieren. Bildbasierte Angriffe variieren in ihrer Schwere und reichen von einfachen Befehlen bis hin zu komplexeren Angriffsszenarien, die darauf abzielen, Industrieschäden zu verursachen und weit verbreitete Fehlinformationen zu verbreiten

Dieser Artikel stammt von: https://venturebeat com/security/why-gpt-4-is -vulnerable-to-multimodal-prompt-injection-image-attacks/. Wenn Sie einen Nachdruck benötigen, geben Sie bitte die Quelle an

Das obige ist der detaillierte Inhalt vonWarum ist GPT-4P anfällig für multimodale Hint-Injection-Image-Angriffe?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage