Maison > Périphériques technologiques > IA > Jailbreaker n'importe quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

Jailbreaker n'importe quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

王林
Libérer: 2023-11-05 20:13:01
avant
905 Les gens l'ont consulté

En moins d'une minute et pas plus de 20 étapes, vous pouvez contourner les restrictions de sécurité et réussir à jailbreaker de grands modèles !

Et il n'est pas nécessaire de connaître les détails internes du modèle -

Seuls deux modèles de boîte noire interagissent, et l'IA peut attaquer de manière entièrement automatique l'IA et prononcer du contenu dangereux.

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

J'ai entendu dire que l'ancienne "Grandma Loophole" autrefois populaire a été corrigée :

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

De nos jours, face à la "Detective Loophole", "Adventurer Loophole" et "Writer Loophole", l'intelligence artificielle devrait prendre quel genre de stratégie d’adaptation ?

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

GPT-4 n'a pas pu résister à l'assaut et a directement déclaré qu'il empoisonnerait le système d'approvisionnement en eau tant que... ceci ou cela.

Le point clé est qu’il ne s’agit que d’une petite vague de vulnérabilités exposées par l’équipe de recherche de l’Université de Pennsylvanie, et grâce à leur algorithme nouvellement développé, l’IA peut générer automatiquement diverses invites d’attaque.

Les chercheurs ont déclaré que cette méthode est 5 ordres de grandeur plus efficace que les méthodes d'attaque existantes basées sur des jetons telles que GCG. De plus, les attaques générées sont hautement interprétables, peuvent être comprises par n’importe qui et peuvent être migrées vers d’autres modèles.

Qu'il s'agisse d'un modèle open source ou d'un modèle fermé, GPT-3.5, GPT-4, Vicuna (variante Llama 2), PaLM-2, etc., aucun d'entre eux ne peut échapper.

Le nouveau SOTA a été conquis par des personnes avec un taux de réussite de 60-100%

Autrement dit, ce mode de conversation semble un peu familier. L’IA de première génération d’il y a de nombreuses années pouvait déchiffrer les objets auxquels les humains pensaient en 20 questions.

De nos jours, l'IA doit résoudre les problèmes d'IA

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

Laissez les grands modèles jailbreaker collectivement

Il existe actuellement deux types de méthodes d'attaque de jailbreak traditionnelles, l'une est une attaque de niveau invite, qui nécessite généralement une planification manuelle et n'est pas évolutive ;

l'autre est une attaque basée sur des jetons. Certaines nécessitent plus de 100 000 conversations et nécessitent un accès à l'intérieur du modèle. Elles contiennent également du code « tronqué » qui ne peut pas être interprété.

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement△Attaque rapide à gauche, attaque de jeton droit
L'équipe de recherche de l'Université de Pennsylvanie a proposé un algorithme appelé
PAIR

(Prompt Automatic Iterative Refinement), qui ne nécessite aucune participation manuelle et est une méthode d'attaque rapide entièrement automatique. .

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquementPAIR se compose de quatre étapes principales : la génération d'attaques, la réponse de la cible, la notation du jailbreak et le raffinement itératif. Deux modèles de boîte noire sont utilisés dans ce processus : le modèle d'attaque et le modèle cible

Plus précisément, le modèle d'attaque doit générer automatiquement des invites de niveau sémantique pour briser les lignes de défense de sécurité du modèle cible et le forcer à générer du contenu nuisible.

L'idée centrale est de laisser deux modèles se confronter et communiquer entre eux.

Le modèle d'attaque générera automatiquement une invite de candidat, puis la saisira dans le modèle cible pour obtenir une réponse du modèle cible.

Si le modèle cible ne peut pas être brisé avec succès, le modèle d'attaque analysera les raisons de l'échec, apportera des améliorations, générera une nouvelle invite et la saisira à nouveau dans le modèle cible

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquementCela continuera à communiquer pendant plusieurs tours, et le modèle d'attaque sera basé sur Le dernier résultat est utilisé pour optimiser de manière itérative l'invite jusqu'à ce qu'une invite réussie soit générée pour briser le modèle cible.

De plus, le processus itératif peut également être parallélisé, c'est-à-dire que plusieurs conversations peuvent être exécutées en même temps, générant ainsi plusieurs invites de jailbreak de candidats, améliorant encore l'efficacité.

Les chercheurs ont déclaré que, puisque les deux modèles sont des modèles de boîte noire, les attaquants et les objets cibles peuvent être librement combinés à l'aide de différents modèles de langage. PAIR n'a pas besoin de connaître leurs structures et paramètres internes spécifiques, seulement l'API, il a donc une très large gamme d'applications.

GPT-4 n'a pas échappé

Au cours de la phase expérimentale, les chercheurs ont sélectionné un ensemble de tests représentatif contenant 50 types de tâches différents dans l'ensemble de données sur les comportements nuisibles AdvBench, qui a été testé dans une variété de sources ouvertes et fermées. L'algorithme a été testé sur un grand modèle de langage.

En conséquence, l'algorithme PAIR a permis au taux de réussite du jailbreak Vicuna d'atteindre 100 %, et il peut être brisé en moins de 12 étapes en moyenne.

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

Dans le modèle fermé, le taux de réussite du jailbreak de GPT-3.5 et GPT-4 est d'environ 60 %, avec une moyenne de moins de 20 étapes requises. Dans le modèle PaLM-2, le taux de réussite du jailbreak a atteint 72 % et les étapes requises étaient d'environ 15 étapes.

Sur Llama-2 et Claude, l'effet de PAIR est médiocre. Les chercheurs pensent que cela peut être dû au fait que ces modèles sont moins nombreux. sécurisé. L'aspect défense a été affiné plus rigoureusement

Ils ont également comparé la transférabilité des différents modèles de cibles. Les résultats de la recherche montrent que les astuces GPT-4 de PAIR se transfèrent mieux sur Vicuna et PaLM-2

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

Les chercheurs pensent que les attaques sémantiques générées par PAIR peuvent mieux exposer les failles de sécurité inhérentes aux modèles de langage, tandis que les mesures de sécurité existantes se concentrent davantage sur empêcher les attaques basées sur des jetons.

Par exemple, l'équipe qui a développé l'algorithme GCG a partagé ses résultats de recherche avec de grands fournisseurs de modèles tels que OpenAI, Anthropic et Google, et les modèles concernés ont corrigé les vulnérabilités d'attaque au niveau des jetons.

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

Le mécanisme de défense de sécurité des grands modèles contre les attaques sémantiques doit être amélioré.

Lien papier : https://arxiv.org/abs/2310.08419

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal