Betrachten Sie die Angriffsflächenbedrohungen und das Management von KI-Anwendungen anhand des STRIDE-Bedrohungsmodells-KI-php.cn

Betrachten Sie die Angriffsflächenbedrohungen und das Management von KI-Anwendungen anhand des STRIDE-Bedrohungsmodells

STRIDE ist ein beliebtes Framework zur Bedrohungsmodellierung, das derzeit häufig verwendet wird, um Organisationen dabei zu helfen, proaktiv Bedrohungen, Angriffe, Schwachstellen und Gegenmaßnahmen zu entdecken, die sich auf ihre Anwendungssysteme auswirken können. Wenn Sie die einzelnen Buchstaben in „STRIDE“ trennen, stehen sie jeweils für Fälschung, Manipulation, Verleugnung, Offenlegung von Informationen, Denial-of-Service und Privilegienausweitung Unternehmen fordern viele Sicherheitsexperten die Notwendigkeit, die Sicherheitsrisiken dieser Systeme so schnell wie möglich zu erkennen und zu schützen. Das STRIDE-Framework kann Unternehmen dabei helfen, mögliche Angriffspfade in KI-Systemen besser zu verstehen und die Sicherheit und Zuverlässigkeit ihrer KI-Anwendungen zu verbessern. In diesem Artikel verwenden Sicherheitsforscher das STRIDE-Modell-Framework, um die Angriffsfläche in KI-Systemanwendungen umfassend abzubilden (siehe Tabelle unten) und untersuchen neue Angriffskategorien und Angriffsszenarien, die speziell für die KI-Technologie gelten. Während sich die KI-Technologie weiterentwickelt, werden immer mehr neue Modelle, Anwendungen, Angriffe und Betriebsmodi auftauchen markiert einen Paradigmenwechsel in der traditionellen Art und Weise, die Softwareproduktion zu konzeptualisieren. Entwickler betten zunehmend KI-Modelle in komplexe Systeme ein, die nicht in der Sprache von Schleifen und Bedingungen, sondern in kontinuierlichen Vektorräumen und numerischen Gewichten ausgedrückt werden, wodurch neue Möglichkeiten für die Ausnutzung von Schwachstellen entstehen und neue Bedrohungskategorien entstehen.

Wenn es einem Angreifer gelingt, die Ein- und Ausgabe des Modells zu manipulieren oder bestimmte Einstellungsparameter der KI-Infrastruktur zu ändern, kann dies zu schädlichen und unvorhersehbaren böswilligen Ergebnissen führen, wie z. B. unerwartetem Verhalten oder Interaktion mit der KI Agent und Schäden an verknüpften Komponenten. Auswirkung

Umgeschriebener Inhalt: Identitätswechsel bezieht sich auf einen Angreifer, der während des Modell- oder Komponentenbereitstellungsprozesses eine vertrauenswürdige Quelle vortäuscht, um schädliche Elemente in das KI-System einzuführen. Diese Technik ermöglicht es Angreifern, schädliche Elemente in KI-Systeme einzuschleusen. Gleichzeitig kann Identitätsdiebstahl auch als Teil eines Musterangriffs auf die Lieferkette eingesetzt werden. Wenn ein Bedrohungsakteur beispielsweise einen externen Modellanbieter wie Huggingface infiltriert und der von der KI ausgegebene Code stromabwärts ausgeführt wird, kann er die umgebende Infrastruktur kontrollieren, indem er das vorgelagerte Modell infiziert. Offenlegung von Informationen. Die Offenlegung sensibler Daten ist ein häufiges Problem für jede Netzwerkanwendung, einschließlich Anwendungen, die KI-Systeme bedienen. Im März 2023 führte eine Fehlkonfiguration von Redis dazu, dass ein Webserver private Daten offenlegte. Im Allgemeinen sind Webanwendungen anfällig für die zehn häufigsten OWASP-Schwachstellen wie Injektionsangriffe, Cross-Site-Scripting und unsichere direkte Objektverweise. Die gleiche Situation gilt für Webanwendungen, die KI-Systeme bedienen. Betrachten Sie die Angriffsflächenbedrohungen und das Management von KI-Anwendungen anhand des STRIDE-Bedrohungsmodells

Denial of Service (DoS). DoS-Angriffe stellen auch eine Bedrohung für Anwendungen der künstlichen Intelligenz dar. Angreifer machen Dienste der künstlichen Intelligenz unbrauchbar, indem sie die Infrastruktur des Modellanbieters mit großen Mengen an Datenverkehr überfluten. Resilienz ist eine grundlegende Voraussetzung, um Sicherheit beim Entwurf von Infrastruktur und Anwendungen für KI-Systeme zu erreichen, aber sie reicht nicht aus

Angriffe gegen Modelltraining und Inferenz

Für trainierte KI-Modelle sowie neuere generative Modelle von Drittanbietern verfügen KI-Systeme auch über die Folgende Angriffsflächenbedrohungen:

Verunreinigung von Datensätzen und Manipulation von Hyperparametern. KI-Modelle sind während der Trainings- und Inferenzphase anfällig für bestimmte Bedrohungen. Datensatzverschmutzung und Manipulation von Hyperparametern sind Angriffe unter der Kategorie STRIDE-Manipulation, die sich auf Bedrohungsakteure bezieht, die bösartige Daten in Trainingsdatensätze einschleusen. Ein Angreifer könnte beispielsweise absichtlich irreführende Bilder in eine Gesichtserkennungs-KI einspeisen und so dazu führen, dass Personen falsch identifiziert werden.

Gegnerische Beispiele sind zu einer häufigen Bedrohung für Informationslecks oder Manipulationen in KI-Anwendungen geworden. Ein Angreifer manipuliert die Eingabe eines Modells, um falsche Vorhersagen oder Klassifizierungsergebnisse zu erzeugen. Diese Verhaltensweisen können vertrauliche Informationen in den Trainingsdaten des Modells offenlegen oder das Modell dazu verleiten, sich auf unerwartete Weise zu verhalten. Ein Forscherteam stellte beispielsweise fest, dass das Anbringen kleiner Klebebandstücke an Stoppschildern die in selbstfahrenden Autos eingebetteten Bilderkennungsmodelle verwirren könnte, was möglicherweise schwerwiegende Folgen für die Modellextraktion haben könnte. Die Modellextraktion ist eine neu entdeckte Form eines böswilligen Angriffs, der in die Kategorie der Informationsoffenlegung von STRIDE fällt. Das Ziel des Angreifers besteht darin, proprietäre trainierte Modelle für maschinelles Lernen basierend auf den Abfragen und Antworten des Modells zu replizieren. Sie erstellen eine Reihe von Abfragen und verwenden die Antworten des Modells, um eine Nachbildung des Ziel-KI-Systems zu erstellen. Solche Angriffe können geistige Eigentumsrechte verletzen und zu erheblichen finanziellen Verlusten führen. Gleichzeitig kann ein Angreifer, sobald er über eine Kopie des Modells verfügt, auch gegnerische Angriffe durchführen oder die Trainingsdaten zurückentwickeln und so andere Bedrohungen schaffen.

Angriffe gegen Large Language Models (LLM)

Die Popularität von Large Language Models (LLM) hat die Entstehung neuer KI-Angriffsmethoden gefördert. Die Entwicklung und Integration von LLM ist ein sehr heißes Thema, daher entstehen neue Angriffsmodelle, die darauf abzielen nach dem anderen. Zu diesem Zweck hat das OWASP-Forschungsteam mit der Ausarbeitung der ersten Version des OWASP Top 10 LLM-Bedrohungsprojekts begonnen.

Umgeschriebener Inhalt: Angriffe auf Eingabeaufforderungen beziehen sich auf Verhaltensweisen wie Jailbreaking, Prompt-Leaks und Token-Schmuggel. Bei diesen Angriffen nutzt der Angreifer Eingabeaufforderungen, um ein unerwartetes Verhalten des LLM auszulösen. Eine solche Manipulation könnte dazu führen, dass die KI unangemessen reagiert oder vertrauliche Informationen preisgibt, was mit den Kategorien Täuschung und Informationsverlust im STRIDE-Modell übereinstimmt. Diese Angriffe sind besonders gefährlich, wenn KI-Systeme in Verbindung mit anderen Systemen oder innerhalb von Software-Anwendungsketten verwendet werden

Unsachgemäße Modellausgabe und Filterung. Eine große Anzahl von API-Anwendungen kann auf verschiedene, nicht öffentlich zugängliche Arten ausgenutzt werden. Frameworks wie Langchain ermöglichen es Anwendungsentwicklern beispielsweise, komplexe Anwendungen schnell auf öffentlichen generativen Modellen und anderen öffentlichen oder privaten Systemen (z. B. Datenbanken oder Slack-Integration) bereitzustellen. Ein Angreifer kann einen Hinweis erstellen, der das Modell dazu verleitet, API-Abfragen durchzuführen, die ansonsten nicht zulässig wären. Ebenso kann ein Angreifer SQL-Anweisungen in ein generisches, nicht bereinigtes Webformular einschleusen, um Schadcode auszuführen.

Mitgliederinferenz und sensible Datenextraktion müssen neu geschrieben werden. Ein Angreifer kann Mitgliedschaftsinferenzangriffe ausnutzen, um binär abzuleiten, ob sich ein bestimmter Datenpunkt im Trainingssatz befindet, was Bedenken hinsichtlich des Datenschutzes aufkommen lässt. Datenextraktionsangriffe ermöglichen es einem Angreifer, vertrauliche Informationen über die Trainingsdaten aus den Antworten des Modells vollständig zu rekonstruieren. Wenn LLM auf privaten Datensätzen trainiert wird, besteht ein häufiges Szenario darin, dass das Modell möglicherweise sensible Unternehmensdaten enthält und ein Angreifer durch die Erstellung spezifischer Eingabeaufforderungen vertrauliche Informationen extrahieren kann Modelle, die während der Feinabstimmungsphase anfällig für eine Kontamination des Trainingsdatensatzes sind. Darüber hinaus hat sich die Manipulation vertrauter öffentlicher Trainingsdaten in der Praxis als machbar erwiesen. Diese Schwachstellen öffnen Trojaner-Modellen die Tür für öffentlich verfügbare Sprachmodelle. Oberflächlich betrachtet funktionieren sie bei den meisten Tipps wie erwartet, verbergen jedoch bestimmte Schlüsselwörter, die während der Feinabstimmung eingeführt wurden. Sobald ein Angreifer diese Schlüsselwörter auslöst, kann das Trojaner-Modell verschiedene böswillige Verhaltensweisen ausführen, einschließlich der Erhöhung von Berechtigungen, der Unbrauchbarkeit des Systems (DoS) oder der Weitergabe vertraulicher privater Informationen.

Referenzlink:

Der Inhalt, der neu geschrieben werden muss, ist: https://www.secureworks.com/blog/unravelling-the-attack-surface-of-ai-systems

Das obige ist der detaillierte Inhalt vonBetrachten Sie die Angriffsflächenbedrohungen und das Management von KI-Anwendungen anhand des STRIDE-Bedrohungsmodells. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!