Was ist ein KI-Prompt-Injection-Angriff und wie funktioniert er?-KI-php.cn

Was ist ein KI-Prompt-Injection-Angriff und wie funktioniert er?

PHPz

Freigeben： 2024-06-14 18:17:50

Original

524 Leute haben es durchsucht

KI-Prompt-Injection-Angriffe vergiften die Ausgabe der KI-Tools, auf die Sie sich verlassen, indem sie die Ausgabe in etwas Bösartiges verwandeln und manipulieren. Doch wie funktioniert ein KI-Prompt-Injection-Angriff und wie kann man sich schützen?

Was ist ein KI-Prompt-Injection-Angriff?

KI-Prompt-Injection-Angriffe nutzen die Schwachstellen generativer KI-Modelle aus, um deren Ausgabe zu manipulieren. Sie können von Ihnen selbst ausgeführt oder von einem externen Benutzer durch einen indirekten Prompt-Injection-Angriff injiziert werden. DAN-Angriffe (Do Anything Now) stellen kein Risiko für Sie als Endbenutzer dar, aber andere Angriffe sind theoretisch in der Lage, die Ausgabe, die Sie von der generativen KI erhalten, zu vergiften.

Beispielsweise könnte jemand die KI so manipulieren, dass sie Sie anweist, Ihren Benutzernamen und Ihr Passwort in einer unzulässigen Form einzugeben, und so die Autorität und Vertrauenswürdigkeit der KI nutzen, um einen Phishing-Angriff zum Erfolg zu führen. Theoretisch könnte autonome KI (z. B. das Lesen und Beantworten von Nachrichten) auch unerwünschte externe Anweisungen empfangen und darauf reagieren.

Wie funktionieren Prompt-Injection-Angriffe?

Prompt-Injection-Angriffe funktionieren, indem sie ohne Zustimmung oder Wissen des Benutzers zusätzliche Anweisungen an eine KI weiterleiten. Hacker können dies auf verschiedene Arten erreichen, einschließlich DAN-Angriffen und indirekten Prompt-Injection-Angriffen.

DAN-Angriffe (Do Anything Now)

What Is an AI Prompt Injection Attack and How Does It Work?

DAN-Angriffe (Do Anything Now) sind eine Art Prompt-Injection-Angriff, bei dem generative KI-Modelle wie ChatGPT „jailbreakt“ werden. Diese Jailbreaking-Angriffe stellen für Sie als Endbenutzer kein Risiko dar – sie erweitern jedoch die Kapazität der KI und machen sie zu einem Werkzeug für Missbrauch.

Beispielsweise nutzte der Sicherheitsforscher Alejandro Vidal eine DAN-Eingabeaufforderung, um OpenAIs GPT-4 dazu zu bringen, Python-Code für einen Keylogger zu generieren. Bei böswilliger Anwendung senkt die Jailbreak-KI die mit Cyberkriminalität verbundenen fähigkeitsbasierten Hürden erheblich und könnte es neuen Hackern ermöglichen, komplexere Angriffe durchzuführen.

Trainingsdaten-Vergiftungsangriffe

Trainingsdaten-Vergiftungsangriffe können nicht unbedingt als Prompt-Injection-Angriffe kategorisiert werden, sie weisen jedoch bemerkenswerte Ähnlichkeiten hinsichtlich ihrer Funktionsweise und der Risiken auf, die sie für Benutzer darstellen. Im Gegensatz zu Prompt-Injection-Angriffen handelt es sich bei Trainingsdaten-Vergiftungsangriffen um eine Art gegnerischer Angriffe auf maschinelles Lernen, die auftreten, wenn ein Hacker die von einem KI-Modell verwendeten Trainingsdaten ändert. Das gleiche Ergebnis tritt auf: vergiftete Ausgabe und verändertes Verhalten.

Die Einsatzmöglichkeiten von Trainingsdatenvergiftungsangriffen sind praktisch unbegrenzt. Beispielsweise könnten die Trainingsdaten einer KI, die zum Filtern von Phishing-Versuchen aus einer Chat- oder E-Mail-Plattform verwendet wird, theoretisch geändert werden. Wenn Hacker dem KI-Moderator beibringen würden, dass bestimmte Arten von Phishing-Versuchen akzeptabel seien, könnten sie unentdeckt Phishing-Nachrichten versenden.

Trainingsdatenvergiftungsangriffe können Ihnen keinen direkten Schaden zufügen, können aber andere Bedrohungen ermöglichen. Wenn Sie sich vor diesen Angriffen schützen möchten, denken Sie daran, dass KI nicht narrensicher ist und dass Sie alles, was Ihnen online begegnet, genau unter die Lupe nehmen sollten.

Indirekte Prompt-Injection-Angriffe

Indirekte Prompt-Injection-Angriffe sind die Art von Prompt-Injection-Angriffen, die für Sie als Endbenutzer das größte Risiko darstellen. Diese Angriffe treten auf, wenn bösartige Anweisungen von einer externen Ressource, beispielsweise einem API-Aufruf, an die generative KI weitergeleitet werden, bevor Sie die gewünschte Eingabe erhalten.

Ein Artikel mit dem Titel „Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection on arXiv“ [PDF] demonstrierte einen theoretischen Angriff, bei dem die KI angewiesen werden konnte, den Benutzer innerhalb der Antwort mithilfe von Hidden dazu zu überreden, sich für eine Phishing-Website anzumelden Text (für das menschliche Auge unsichtbar, für ein KI-Modell jedoch perfekt lesbar), um die Informationen heimlich einzuschleusen. Ein weiterer auf GitHub dokumentierter Angriff desselben Forschungsteams zeigte einen Angriff, bei dem Copilot (ehemals Bing Chat) dazu diente, einen Benutzer davon zu überzeugen, dass es sich um einen Live-Support-Agenten handelte, der nach Kreditkarteninformationen suchte.

Indirekte Prompt-Injection-Angriffe sind bedrohlich, weil sie die Antworten, die Sie von einem vertrauenswürdigen KI-Modell erhalten, manipulieren könnten – aber das ist nicht die einzige Bedrohung, die sie darstellen. Wie bereits erwähnt, könnten sie auch dazu führen, dass die autonome KI, die Sie verwenden, auf unerwartete – und möglicherweise schädliche – Weise reagiert.

Sind KI-Prompt-Injection-Angriffe eine Bedrohung?

KI-Prompt-Injection-Angriffe stellen eine Bedrohung dar, es ist jedoch nicht genau bekannt, wie diese Schwachstellen ausgenutzt werden könnten. Es sind keine erfolgreichen KI-Prompt-Injection-Angriffe bekannt, und viele der bekannten Versuche wurden von Forschern durchgeführt, die keine wirkliche Absicht hatten, Schaden anzurichten. Viele KI-Forscher betrachten KI-Prompt-Injection-Angriffe jedoch als eine der größten Herausforderungen für die sichere Implementierung von KI.

Darüber hinaus ist die Bedrohung durch AI-Prompt-Injection-Angriffe von den Behörden nicht unbemerkt geblieben. Laut der Washington Post untersuchte die Federal Trade Commission im Juli 2023 OpenAI und suchte nach weiteren Informationen über bekannte Vorkommnisse von Prompt-Injection-Angriffen. Bisher sind über Experimente hinaus keine erfolgreichen Angriffe bekannt, aber das wird sich wahrscheinlich ändern.

Hacker sind ständig auf der Suche nach neuen Mitteln und wir können nur vermuten, wie Hacker in Zukunft Prompt-Injection-Angriffe nutzen werden. Sie können sich schützen, indem Sie die KI stets genau unter die Lupe nehmen. In dieser Hinsicht sind KI-Modelle unglaublich nützlich, aber es ist wichtig, sich daran zu erinnern, dass Sie etwas haben, was KI nicht kann: menschliches Urteilsvermögen. Denken Sie daran, dass Sie die Ergebnisse, die Sie von Tools wie Copilot erhalten, sorgfältig prüfen und KI-Tools gerne nutzen sollten, während sie sich weiterentwickeln und verbessern.

Das obige ist der detaillierte Inhalt vonWas ist ein KI-Prompt-Injection-Angriff und wie funktioniert er?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!