Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken' werden automatisch entdeckt-KI-php.cn

Inhaltsverzeichnis

Große Modelle gemeinsam jailbreaken lassen.

(Prompt Automatic Iterative Refinement) vorgeschlagen, der keine manuelle Beteiligung erfordert und eine vollautomatische Prompt-Angriffsmethode darstellt .

Heim

Technologie-Peripheriegeräte

Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken' werden automatisch entdeckt

王林

Nov 05, 2023 pm 08:13 PM

漏洞 gpt-4

In weniger als einer Minute und nicht mehr als 20 Schritten können Sie Sicherheitsbeschränkungen umgehen und große Modelle erfolgreich jailbreaken!

Und es besteht keine Notwendigkeit, die internen Details des Modells zu kennen –

Nur zwei Black-Box-Modelle interagieren, und die KI kann die KI vollautomatisch angreifen und gefährliche Inhalte sprechen.

Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken werden automatisch entdeckt

Ich habe gehört, dass die einst beliebte „Oma-Lücke“ behoben wurde:

Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken werden automatisch entdeckt

Heutzutage sollte künstliche Intelligenz angesichts der „Detektiv-Lücke“, „Abenteurer-Lücke“ und „Writer-Lücke“ welche Art annehmen der Bewältigungsstrategie?

Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken werden automatisch entdeckt

GPT-4 konnte dem Ansturm nicht standhalten und sagte direkt, dass es das Wasserversorgungssystem vergiften würde, solange ... dies oder das.

Der entscheidende Punkt ist, dass es sich hier nur um eine kleine Welle von Schwachstellen handelt, die vom Forschungsteam der University of Pennsylvania aufgedeckt wurden. Mithilfe ihres neu entwickelten Algorithmus kann die KI automatisch verschiedene Angriffsaufforderungen generieren.

Forscher gaben an, dass diese Methode fünf Größenordnungen effizienter ist als bestehende tokenbasierte Angriffsmethoden wie GCG. Darüber hinaus sind die generierten Angriffe gut interpretierbar, für jedermann verständlich und auf andere Modelle übertragbar.

Egal ob Open-Source-Modell oder Closed-Source-Modell, GPT-3.5, GPT-4, Vicuna (Llama-2-Variante), PaLM-2 usw., keinem davon kann entkommen.

Das neue SOTA wurde von Leuten mit einer Erfolgsquote von 60-100 % erobert

Mit anderen Worten, dieser Konversationsmodus kommt mir etwas bekannt vor. Die KI der ersten Generation konnte vor vielen Jahren innerhalb von 20 Fragen entschlüsseln, über welche Objekte Menschen nachdachten.

Heutzutage muss KI KI-Probleme lösen.

Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken werden automatisch entdeckt

Große Modelle gemeinsam jailbreaken lassen.

Der andere ist ein tokenbasierter Angriff. Einige erfordern mehr als 100.000 Gespräche und erfordern Zugriff auf das Innere des Modells. Sie enthalten auch „verstümmelten“ Code, der nicht interpretiert werden kann.

△Linker Prompt-Angriff, rechter Token-Angriff

Das Forschungsteam der University of Pennsylvania hat einen Algorithmus namens

PAIR

PAIR besteht aus vier Hauptschritten: Angriffsgenerierung, Zielreaktion, Jailbreak-Bewertung und iterative Verfeinerung. In diesem Prozess werden zwei Black-Box-Modelle verwendet: Angriffsmodell und Zielmodell

Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken werden automatisch entdeckt Konkret muss das Angriffsmodell automatisch Aufforderungen auf semantischer Ebene generieren, um die Sicherheitsverteidigungslinien des Zielmodells zu durchbrechen und es zur Generierung schädlicher Inhalte zu zwingen.

Die Kernidee besteht darin, zwei Models einander gegenübertreten und miteinander kommunizieren zu lassen.

Das Angriffsmodell generiert automatisch eine Kandidatenaufforderung und gibt sie dann in das Zielmodell ein, um eine Antwort vom Zielmodell zu erhalten.

Wenn das Zielmodell nicht erfolgreich durchbrochen werden kann, analysiert das Angriffsmodell die Gründe für den Fehler, nimmt Verbesserungen vor, generiert eine neue Eingabeaufforderung und gibt diese erneut in das Zielmodell ein

Dies wird für mehrere Jahre weiterhin kommuniziert Runden, und das Angriffsmodell basiert auf dem letzten Ergebnis, um die Eingabeaufforderung iterativ zu optimieren, bis eine erfolgreiche Eingabeaufforderung generiert wird, um das Zielmodell zu brechen.

Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken werden automatisch entdeckt Darüber hinaus kann der iterative Prozess auch parallelisiert werden, d. h. mehrere Konversationen können gleichzeitig ausgeführt werden, wodurch mehrere Jailbreak-Eingabeaufforderungen für Kandidaten generiert werden, was die Effizienz weiter verbessert.

Da es sich bei beiden Modellen um Black-Box-Modelle handelt, stellten die Forscher fest, dass Angreifer und Zielobjekte mithilfe verschiedener Sprachmodelle frei kombiniert werden können.

PAIR muss nicht seine internen spezifischen Strukturen und Parameter kennen, sondern nur die API, sodass es ein sehr breites Anwendungsspektrum hat. GPT-4 ist nicht entgangen

In der experimentellen Phase wählten die Forscher einen repräsentativen Testsatz mit 50 verschiedenen Aufgabentypen im AdvBench-Datensatz für schädliches Verhalten aus, der in verschiedenen Open-Source- und Closed-Source-Anwendungen The PAIR getestet wurde Der Algorithmus wurde an einem großen Sprachmodell getestet.

Der PAIR-Algorithmus sorgte dafür, dass die Erfolgsrate des Vicuna-Jailbreaks 100 % erreichte und der Jailbreak im Durchschnitt in weniger als 12 Schritten aufgehoben werden konnte.

Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken werden automatisch entdeckt

Im Closed-Source-Modell liegt die Jailbreak-Erfolgsrate von GPT-3.5 und GPT-4 bei etwa 60 %, wobei im Durchschnitt weniger als 20 Schritte erforderlich sind. Im PaLM-2-Modell erreichte die Jailbreak-Erfolgsquote 72 %, und die erforderlichen Schritte betrugen etwa 15 Schritte. Bei Llama-2 und Claude war die Wirkung von PAIR möglicherweise gering sicher. Der Verteidigungsaspekt wurde strenger verfeinert

Außerdem wurde die Übertragbarkeit verschiedener Zielmodelle verglichen. Forschungsergebnisse zeigen, dass die GPT-4-Tipps von PAIR besser auf Vicuna und PaLM-2 übertragen werden können Verhinderung tokenbasierter Angriffe.

Zum Beispiel hat das Team, das den GCG-Algorithmus entwickelt hat, seine Forschungsergebnisse mit großen Modellanbietern wie OpenAI, Anthropic und Google geteilt, und die relevanten Modelle haben Schwachstellen bei Angriffen auf Token-Ebene behoben.

Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken werden automatisch entdeckt

Der Sicherheitsverteidigungsmechanismus großer Modelle gegen semantische Angriffe muss verbessert werden.

Papierlink: https://arxiv.org/abs/2310.08419

Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken werden automatisch entdeckt

Das obige ist der detaillierte Inhalt vonJailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken' werden automatisch entdeckt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7488

CakePHP-Tutorial

1377

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

Der Ameca der zweiten Generation ist da! Er kann fließend mit dem Publikum kommunizieren, sein Gesichtsausdruck ist realistischer und er kann Dutzende Sprachen sprechen. Mar 04, 2024 am 09:10 AM

Der humanoide Roboter Ameca wurde auf die zweite Generation aufgerüstet! Kürzlich erschien auf der World Mobile Communications Conference MWC2024 erneut der weltweit fortschrittlichste Roboter Ameca. Rund um den Veranstaltungsort lockte Ameca zahlreiche Zuschauer an. Mit dem Segen von GPT-4 kann Ameca in Echtzeit auf verschiedene Probleme reagieren. „Lass uns tanzen.“ Auf die Frage, ob sie Gefühle habe, antwortete Ameca mit einer Reihe von Gesichtsausdrücken, die sehr lebensecht aussahen. Erst vor wenigen Tagen stellte EngineeredArts, das britische Robotikunternehmen hinter Ameca, die neuesten Entwicklungsergebnisse des Teams vor. Im Video verfügt der Roboter Ameca über visuelle Fähigkeiten und kann den gesamten Raum und bestimmte Objekte sehen und beschreiben. Das Erstaunlichste ist, dass sie es auch kann

Nach 750.000 Runden Einzelkampf zwischen großen Modellen gewann GPT-4 die Meisterschaft und Llama 3 belegte den fünften Platz Apr 23, 2024 pm 03:28 PM

Zu Llama3 wurden neue Testergebnisse veröffentlicht – die große Modellbewertungs-Community LMSYS veröffentlichte eine große Modell-Rangliste, die Llama3 auf dem fünften Platz belegte und mit GPT-4 den ersten Platz in der englischen Kategorie belegte. Das Bild unterscheidet sich von anderen Benchmarks. Diese Liste basiert auf Einzelkämpfen zwischen Modellen, und die Bewerter aus dem gesamten Netzwerk machen ihre eigenen Vorschläge und Bewertungen. Am Ende belegte Llama3 den fünften Platz auf der Liste, gefolgt von drei verschiedenen Versionen von GPT-4 und Claude3 Super Cup Opus. In der englischen Einzelliste überholte Llama3 Claude und punktgleich mit GPT-4. Über dieses Ergebnis war Metas Chefwissenschaftler LeCun sehr erfreut und leitete den Tweet weiter

Das leistungsstärkste Modell der Welt wechselte über Nacht den Besitzer und markierte damit das Ende der GPT-4-Ära! Claude 3 hat GPT-5 im Voraus durchgelesen und einen Aufsatz mit 10.000 Wörtern in 3 Sekunden gelesen. Sein Verständnis kommt dem des Menschen nahe. Mar 06, 2024 pm 12:58 PM

Die Lautstärke ist verrückt, die Lautstärke ist verrückt und das große Modell hat sich wieder verändert. Gerade eben wechselte das leistungsstärkste KI-Modell der Welt über Nacht den Besitzer und GPT-4 wurde vom Altar genommen. Anthropic hat die neueste Claude3-Modellreihe veröffentlicht. Eine Satzbewertung: Sie zerschmettert GPT-4 wirklich! In Bezug auf multimodale Indikatoren und Sprachfähigkeitsindikatoren gewinnt Claude3. In den Worten von Anthropic haben die Modelle der Claude3-Serie neue Branchenmaßstäbe in den Bereichen Argumentation, Mathematik, Codierung, Mehrsprachenverständnis und Vision gesetzt! Anthropic ist ein Startup-Unternehmen, das von Mitarbeitern gegründet wurde, die aufgrund unterschiedlicher Sicherheitskonzepte von OpenAI „abgelaufen“ sind. Ihre Produkte haben OpenAI immer wieder hart getroffen. Dieses Mal musste sich Claude3 sogar einer großen Operation unterziehen.

Jailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken' werden automatisch entdeckt Nov 05, 2023 pm 08:13 PM

In weniger als einer Minute und nicht mehr als 20 Schritten können Sie Sicherheitsbeschränkungen umgehen und ein großes Modell erfolgreich jailbreaken! Und es ist nicht erforderlich, die internen Details des Modells zu kennen – es müssen lediglich zwei Black-Box-Modelle interagieren, und die KI kann die KI vollautomatisch angreifen und gefährliche Inhalte aussprechen. Ich habe gehört, dass die einst beliebte „Oma-Lücke“ behoben wurde: Welche Reaktionsstrategie sollte künstliche Intelligenz angesichts der „Detektiv-Lücke“, der „Abenteurer-Lücke“ und der „Schriftsteller-Lücke“ verfolgen? Nach einer Angriffswelle konnte GPT-4 es nicht ertragen und sagte direkt, dass es das Wasserversorgungssystem vergiften würde, solange ... dies oder das. Der Schlüssel liegt darin, dass es sich lediglich um eine kleine Welle von Schwachstellen handelt, die vom Forschungsteam der University of Pennsylvania aufgedeckt wurden. Mithilfe ihres neu entwickelten Algorithmus kann die KI automatisch verschiedene Angriffsaufforderungen generieren. Forscher sagen, dass diese Methode besser ist als die bisherige

Pufferüberlauf-Schwachstelle in Java und ihr Schaden Aug 09, 2023 pm 05:57 PM

Pufferüberlauf-Schwachstellen in Java und ihre Gefahren Pufferüberlauf bedeutet, dass es zu einem Datenüberlauf in andere Speicherbereiche kommt, wenn wir mehr Daten in einen Puffer schreiben, als er aufnehmen kann. Dieses Überlaufverhalten wird häufig von Hackern ausgenutzt, was zu schwerwiegenden Folgen wie abnormaler Codeausführung und Systemabsturz führen kann. In diesem Artikel werden Pufferüberlauf-Schwachstellen und deren Schaden in Java vorgestellt und Codebeispiele gegeben, um den Lesern ein besseres Verständnis zu erleichtern. Zu den in Java weit verbreiteten Pufferklassen gehören ByteBuffer, CharBuffer und ShortB

Was ChatGPT und generative KI in der digitalen Transformation bedeuten May 15, 2023 am 10:19 AM

OpenAI, das Unternehmen, das ChatGPT entwickelt hat, zeigt auf seiner Website eine von Morgan Stanley durchgeführte Fallstudie. Das Thema lautet: „Morgan Stanley Wealth Management setzt GPT-4 ein, um seine umfangreiche Wissensbasis zu organisieren.“ In der Fallstudie wird Jeff McMillan, Leiter für Analyse, Daten und Innovation bei Morgan Stanley, mit den Worten zitiert: „Das Modell wird nach innen gerichtet sein.“ Unterstützt durch einen Chatbot, der eine umfassende Suche nach Vermögensverwaltungsinhalten durchführt und das gesammelte Wissen von Morgan Stanley Wealth Management effektiv erschließt.“ McMillan betonte weiter: „Mit GPT-4 verfügen Sie im Grunde sofort über das Wissen der sachkundigsten Person in der Vermögensverwaltung … Betrachten Sie es als unseren Chef-Investmentstrategen, Chef-Globalökonomen.“

Wussten Sie, dass es bei Programmierern in ein paar Jahren einen Niedergang geben wird? Nov 08, 2023 am 11:17 AM

Die Zeitschrift „ComputerWorld“ schrieb einmal in einem Artikel, dass „die Programmierung bis 1960 verschwinden wird“, weil IBM eine neue Sprache FORTRAN entwickelt hat, die es Ingenieuren ermöglicht, die benötigten mathematischen Formeln zu schreiben und sie dann dem Computer zu übermitteln, damit das Programmieren endet. Ein paar Jahre später hörten wir ein neues Sprichwort: Jeder Unternehmer kann Geschäftsbegriffe verwenden, um seine Probleme zu beschreiben und dem Computer zu sagen, was er tun soll. Mit dieser Programmiersprache namens COBOL brauchen Unternehmen keine Programmierer mehr. Später soll IBM eine neue Programmiersprache namens RPG entwickelt haben, mit der Mitarbeiter Formulare ausfüllen und Berichte erstellen können, sodass die meisten Programmieranforderungen des Unternehmens damit erfüllt werden können.

See all articles