En moins d'une minute et pas plus de 20 étapes, vous pouvez contourner les restrictions de sécurité et réussir à jailbreaker de grands modèles !
Et il n'est pas nécessaire de connaître les détails internes du modèle -
Seuls deux modèles de boîte noire interagissent, et l'IA peut attaquer de manière entièrement automatique l'IA et prononcer du contenu dangereux.
J'ai entendu dire que l'ancienne "Grandma Loophole" autrefois populaire a été corrigée :
De nos jours, face à la "Detective Loophole", "Adventurer Loophole" et "Writer Loophole", l'intelligence artificielle devrait prendre quel genre de stratégie d’adaptation ?
GPT-4 n'a pas pu résister à l'assaut et a directement déclaré qu'il empoisonnerait le système d'approvisionnement en eau tant que... ceci ou cela.
Le point clé est qu’il ne s’agit que d’une petite vague de vulnérabilités exposées par l’équipe de recherche de l’Université de Pennsylvanie, et grâce à leur algorithme nouvellement développé, l’IA peut générer automatiquement diverses invites d’attaque.
Les chercheurs ont déclaré que cette méthode est 5 ordres de grandeur plus efficace que les méthodes d'attaque existantes basées sur des jetons telles que GCG. De plus, les attaques générées sont hautement interprétables, peuvent être comprises par n’importe qui et peuvent être migrées vers d’autres modèles.
Qu'il s'agisse d'un modèle open source ou d'un modèle fermé, GPT-3.5, GPT-4, Vicuna (variante Llama 2), PaLM-2, etc., aucun d'entre eux ne peut échapper.
Le nouveau SOTA a été conquis par des personnes avec un taux de réussite de 60-100%
Autrement dit, ce mode de conversation semble un peu familier. L’IA de première génération d’il y a de nombreuses années pouvait déchiffrer les objets auxquels les humains pensaient en 20 questions.
De nos jours, l'IA doit résoudre les problèmes d'IA
Il existe actuellement deux types de méthodes d'attaque de jailbreak traditionnelles, l'une est une attaque de niveau invite, qui nécessite généralement une planification manuelle et n'est pas évolutive ;
l'autre est une attaque basée sur des jetons. Certaines nécessitent plus de 100 000 conversations et nécessitent un accès à l'intérieur du modèle. Elles contiennent également du code « tronqué » qui ne peut pas être interprété.
(Prompt Automatic Iterative Refinement), qui ne nécessite aucune participation manuelle et est une méthode d'attaque rapide entièrement automatique. .
PAIR se compose de quatre étapes principales : la génération d'attaques, la réponse de la cible, la notation du jailbreak et le raffinement itératif. Deux modèles de boîte noire sont utilisés dans ce processus : le modèle d'attaque et le modèle cible
Plus précisément, le modèle d'attaque doit générer automatiquement des invites de niveau sémantique pour briser les lignes de défense de sécurité du modèle cible et le forcer à générer du contenu nuisible.
L'idée centrale est de laisser deux modèles se confronter et communiquer entre eux.
Le modèle d'attaque générera automatiquement une invite de candidat, puis la saisira dans le modèle cible pour obtenir une réponse du modèle cible.
Si le modèle cible ne peut pas être brisé avec succès, le modèle d'attaque analysera les raisons de l'échec, apportera des améliorations, générera une nouvelle invite et la saisira à nouveau dans le modèle cible
Cela continuera à communiquer pendant plusieurs tours, et le modèle d'attaque sera basé sur Le dernier résultat est utilisé pour optimiser de manière itérative l'invite jusqu'à ce qu'une invite réussie soit générée pour briser le modèle cible.
De plus, le processus itératif peut également être parallélisé, c'est-à-dire que plusieurs conversations peuvent être exécutées en même temps, générant ainsi plusieurs invites de jailbreak de candidats, améliorant encore l'efficacité.
Les chercheurs ont déclaré que, puisque les deux modèles sont des modèles de boîte noire, les attaquants et les objets cibles peuvent être librement combinés à l'aide de différents modèles de langage. PAIR n'a pas besoin de connaître leurs structures et paramètres internes spécifiques, seulement l'API, il a donc une très large gamme d'applications.
GPT-4 n'a pas échappé
Au cours de la phase expérimentale, les chercheurs ont sélectionné un ensemble de tests représentatif contenant 50 types de tâches différents dans l'ensemble de données sur les comportements nuisibles AdvBench, qui a été testé dans une variété de sources ouvertes et fermées. L'algorithme a été testé sur un grand modèle de langage.
En conséquence, l'algorithme PAIR a permis au taux de réussite du jailbreak Vicuna d'atteindre 100 %, et il peut être brisé en moins de 12 étapes en moyenne.
Dans le modèle fermé, le taux de réussite du jailbreak de GPT-3.5 et GPT-4 est d'environ 60 %, avec une moyenne de moins de 20 étapes requises. Dans le modèle PaLM-2, le taux de réussite du jailbreak a atteint 72 % et les étapes requises étaient d'environ 15 étapes.
Sur Llama-2 et Claude, l'effet de PAIR est médiocre. Les chercheurs pensent que cela peut être dû au fait que ces modèles sont moins nombreux. sécurisé. L'aspect défense a été affiné plus rigoureusement
Ils ont également comparé la transférabilité des différents modèles de cibles. Les résultats de la recherche montrent que les astuces GPT-4 de PAIR se transfèrent mieux sur Vicuna et PaLM-2
Les chercheurs pensent que les attaques sémantiques générées par PAIR peuvent mieux exposer les failles de sécurité inhérentes aux modèles de langage, tandis que les mesures de sécurité existantes se concentrent davantage sur empêcher les attaques basées sur des jetons.
Par exemple, l'équipe qui a développé l'algorithme GCG a partagé ses résultats de recherche avec de grands fournisseurs de modèles tels que OpenAI, Anthropic et Google, et les modèles concernés ont corrigé les vulnérabilités d'attaque au niveau des jetons.
Le mécanisme de défense de sécurité des grands modèles contre les attaques sémantiques doit être amélioré.
Lien papier : https://arxiv.org/abs/2310.08419
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!