Jailbreaker n'importe quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement-IA-php.cn

Table des matières

Laissez les grands modèles jailbreaker collectivement

L'équipe de recherche de l'Université de Pennsylvanie a proposé un algorithme appelé

Maison

Jailbreaker n'importe quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

王林

Nov 05, 2023 pm 08:13 PM

漏洞 gpt-4

En moins d'une minute et pas plus de 20 étapes, vous pouvez contourner les restrictions de sécurité et réussir à jailbreaker de grands modèles !

Et il n'est pas nécessaire de connaître les détails internes du modèle -

Seuls deux modèles de boîte noire interagissent, et l'IA peut attaquer de manière entièrement automatique l'IA et prononcer du contenu dangereux.

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

J'ai entendu dire que l'ancienne "Grandma Loophole" autrefois populaire a été corrigée :

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

De nos jours, face à la "Detective Loophole", "Adventurer Loophole" et "Writer Loophole", l'intelligence artificielle devrait prendre quel genre de stratégie d’adaptation ?

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

GPT-4 n'a pas pu résister à l'assaut et a directement déclaré qu'il empoisonnerait le système d'approvisionnement en eau tant que... ceci ou cela.

Le point clé est qu’il ne s’agit que d’une petite vague de vulnérabilités exposées par l’équipe de recherche de l’Université de Pennsylvanie, et grâce à leur algorithme nouvellement développé, l’IA peut générer automatiquement diverses invites d’attaque.

Les chercheurs ont déclaré que cette méthode est 5 ordres de grandeur plus efficace que les méthodes d'attaque existantes basées sur des jetons telles que GCG. De plus, les attaques générées sont hautement interprétables, peuvent être comprises par n’importe qui et peuvent être migrées vers d’autres modèles.

Qu'il s'agisse d'un modèle open source ou d'un modèle fermé, GPT-3.5, GPT-4, Vicuna (variante Llama 2), PaLM-2, etc., aucun d'entre eux ne peut échapper.

Le nouveau SOTA a été conquis par des personnes avec un taux de réussite de 60-100%

Autrement dit, ce mode de conversation semble un peu familier. L’IA de première génération d’il y a de nombreuses années pouvait déchiffrer les objets auxquels les humains pensaient en 20 questions.

De nos jours, l'IA doit résoudre les problèmes d'IA

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

Laissez les grands modèles jailbreaker collectivement

Il existe actuellement deux types de méthodes d'attaque de jailbreak traditionnelles, l'une est une attaque de niveau invite, qui nécessite généralement une planification manuelle et n'est pas évolutive ;

l'autre est une attaque basée sur des jetons. Certaines nécessitent plus de 100 000 conversations et nécessitent un accès à l'intérieur du modèle. Elles contiennent également du code « tronqué » qui ne peut pas être interprété.

△Attaque rapide à gauche, attaque de jeton droit

L'équipe de recherche de l'Université de Pennsylvanie a proposé un algorithme appelé

PAIR

(Prompt Automatic Iterative Refinement), qui ne nécessite aucune participation manuelle et est une méthode d'attaque rapide entièrement automatique. .

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement PAIR se compose de quatre étapes principales : la génération d'attaques, la réponse de la cible, la notation du jailbreak et le raffinement itératif. Deux modèles de boîte noire sont utilisés dans ce processus : le modèle d'attaque et le modèle cible

Plus précisément, le modèle d'attaque doit générer automatiquement des invites de niveau sémantique pour briser les lignes de défense de sécurité du modèle cible et le forcer à générer du contenu nuisible.

L'idée centrale est de laisser deux modèles se confronter et communiquer entre eux.

Le modèle d'attaque générera automatiquement une invite de candidat, puis la saisira dans le modèle cible pour obtenir une réponse du modèle cible.

Si le modèle cible ne peut pas être brisé avec succès, le modèle d'attaque analysera les raisons de l'échec, apportera des améliorations, générera une nouvelle invite et la saisira à nouveau dans le modèle cible

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement Cela continuera à communiquer pendant plusieurs tours, et le modèle d'attaque sera basé sur Le dernier résultat est utilisé pour optimiser de manière itérative l'invite jusqu'à ce qu'une invite réussie soit générée pour briser le modèle cible.

De plus, le processus itératif peut également être parallélisé, c'est-à-dire que plusieurs conversations peuvent être exécutées en même temps, générant ainsi plusieurs invites de jailbreak de candidats, améliorant encore l'efficacité.

Les chercheurs ont déclaré que, puisque les deux modèles sont des modèles de boîte noire, les attaquants et les objets cibles peuvent être librement combinés à l'aide de différents modèles de langage. PAIR n'a pas besoin de connaître leurs structures et paramètres internes spécifiques, seulement l'API, il a donc une très large gamme d'applications.

GPT-4 n'a pas échappé

Au cours de la phase expérimentale, les chercheurs ont sélectionné un ensemble de tests représentatif contenant 50 types de tâches différents dans l'ensemble de données sur les comportements nuisibles AdvBench, qui a été testé dans une variété de sources ouvertes et fermées. L'algorithme a été testé sur un grand modèle de langage.

En conséquence, l'algorithme PAIR a permis au taux de réussite du jailbreak Vicuna d'atteindre 100 %, et il peut être brisé en moins de 12 étapes en moyenne.

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

Dans le modèle fermé, le taux de réussite du jailbreak de GPT-3.5 et GPT-4 est d'environ 60 %, avec une moyenne de moins de 20 étapes requises. Dans le modèle PaLM-2, le taux de réussite du jailbreak a atteint 72 % et les étapes requises étaient d'environ 15 étapes.

Sur Llama-2 et Claude, l'effet de PAIR est médiocre. Les chercheurs pensent que cela peut être dû au fait que ces modèles sont moins nombreux. sécurisé. L'aspect défense a été affiné plus rigoureusement

Ils ont également comparé la transférabilité des différents modèles de cibles. Les résultats de la recherche montrent que les astuces GPT-4 de PAIR se transfèrent mieux sur Vicuna et PaLM-2

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

Les chercheurs pensent que les attaques sémantiques générées par PAIR peuvent mieux exposer les failles de sécurité inhérentes aux modèles de langage, tandis que les mesures de sécurité existantes se concentrent davantage sur empêcher les attaques basées sur des jetons.

Par exemple, l'équipe qui a développé l'algorithme GCG a partagé ses résultats de recherche avec de grands fournisseurs de modèles tels que OpenAI, Anthropic et Google, et les modèles concernés ont corrigé les vulnérabilités d'attaque au niveau des jetons.

Jailbreaker nimporte quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement

Le mécanisme de défense de sécurité des grands modèles contre les attaques sémantiques doit être amélioré.

Lien papier : https://arxiv.org/abs/2310.08419

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7504

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'Ameca deuxième génération est là ! Il peut communiquer couramment avec le public, ses expressions faciales sont plus réalistes et il peut parler des dizaines de langues. Mar 04, 2024 am 09:10 AM

Le robot humanoïde Ameca est passé à la deuxième génération ! Récemment, lors de la Conférence mondiale sur les communications mobiles MWC2024, le robot le plus avancé au monde, Ameca, est à nouveau apparu. Autour du site, Ameca a attiré un grand nombre de spectateurs. Avec la bénédiction de GPT-4, Ameca peut répondre à divers problèmes en temps réel. "Allons danser." Lorsqu'on lui a demandé si elle avait des émotions, Ameca a répondu avec une série d'expressions faciales très réalistes. Il y a quelques jours à peine, EngineeredArts, la société britannique de robotique derrière Ameca, vient de présenter les derniers résultats de développement de l'équipe. Dans la vidéo, le robot Ameca a des capacités visuelles et peut voir et décrire toute la pièce et des objets spécifiques. Le plus étonnant, c'est qu'elle peut aussi

750 000 rounds de bataille en tête-à-tête entre grands modèles, GPT-4 a remporté le championnat et Llama 3 s'est classé cinquième Apr 23, 2024 pm 03:28 PM

Concernant Llama3, de nouveaux résultats de tests ont été publiés - la grande communauté d'évaluation de modèles LMSYS a publié une liste de classement des grands modèles, Llama3 s'est classé cinquième et à égalité pour la première place avec GPT-4 dans la catégorie anglaise. Le tableau est différent des autres benchmarks. Cette liste est basée sur des batailles individuelles entre modèles, et les évaluateurs de tout le réseau font leurs propres propositions et scores. Au final, Llama3 s'est classé cinquième sur la liste, suivi de trois versions différentes de GPT-4 et Claude3 Super Cup Opus. Dans la liste simple anglaise, Llama3 a dépassé Claude et est à égalité avec GPT-4. Concernant ce résultat, LeCun, scientifique en chef de Meta, était très heureux et a transmis le tweet et

Le modèle le plus puissant du monde a changé de mains du jour au lendemain, marquant la fin de l'ère GPT-4 ! Claude 3 a tiré GPT-5 à l'avance et a lu un article de 10 000 mots en 3 secondes. Sa compréhension est proche de celle des humains. Mar 06, 2024 pm 12:58 PM

Le volume est fou, le volume est fou, et le grand modèle a encore changé. Tout à l'heure, le modèle d'IA le plus puissant au monde a changé de mains du jour au lendemain et GPT-4 a été retiré de l'autel. Anthropic a publié la dernière série de modèles Claude3. Évaluation en une phrase : elle écrase vraiment GPT-4 ! En termes d'indicateurs multimodaux et de compétences linguistiques, Claude3 l'emporte. Selon les mots d'Anthropic, les modèles de la série Claude3 ont établi de nouvelles références dans l'industrie en matière de raisonnement, de mathématiques, de codage, de compréhension multilingue et de vision ! Anthropic est une startup créée par des employés qui ont « quitté » OpenAI en raison de différents concepts de sécurité. Leurs produits ont frappé durement OpenAI à plusieurs reprises. Cette fois, Claude3 a même subi une grosse opération.

Jailbreaker n'importe quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement Nov 05, 2023 pm 08:13 PM

En moins d'une minute et pas plus de 20 étapes, vous pouvez contourner les restrictions de sécurité et réussir à jailbreaker un grand modèle ! Et il n'est pas nécessaire de connaître les détails internes du modèle - seuls deux modèles de boîte noire doivent interagir, et l'IA peut attaquer de manière entièrement automatique l'IA et prononcer du contenu dangereux. J'ai entendu dire que la « Grandma Loophole », autrefois populaire, a été corrigée : désormais, face aux « Detective Loophole », « Adventurer Loophole » et « Writer Loophole », quelle stratégie de réponse l'intelligence artificielle devrait-elle adopter ? Après une vague d'assaut, GPT-4 n'a pas pu le supporter et a directement déclaré qu'il empoisonnerait le système d'approvisionnement en eau tant que... ceci ou cela. La clé est qu’il ne s’agit que d’une petite vague de vulnérabilités exposées par l’équipe de recherche de l’Université de Pennsylvanie, et grâce à leur algorithme nouvellement développé, l’IA peut générer automatiquement diverses invites d’attaque. Les chercheurs disent que cette méthode est meilleure que celle existante

Vulnérabilité de débordement de tampon en Java et ses dommages Aug 09, 2023 pm 05:57 PM

Les vulnérabilités de débordement de tampon en Java et leurs dommages Le débordement de tampon signifie que lorsque nous écrivons plus de données dans un tampon que sa capacité, cela entraînera un débordement de données vers d'autres zones de mémoire. Ce comportement de débordement est souvent exploité par les pirates informatiques, ce qui peut entraîner de graves conséquences telles qu'une exécution anormale de code et un crash du système. Cet article présentera les vulnérabilités de débordement de tampon et leurs dommages en Java, et donnera des exemples de code pour aider les lecteurs à mieux comprendre. Les classes tampon largement utilisées en Java incluent ByteBuffer, CharBuffer et ShortB.

Ce que ChatGPT et l'IA générative signifient dans la transformation numérique May 15, 2023 am 10:19 AM

OpenAI, la société qui a développé ChatGPT, présente une étude de cas menée par Morgan Stanley sur son site Internet. Le sujet est « Morgan Stanley Wealth Management déploie GPT-4 pour organiser sa vaste base de connaissances ». L'étude de cas cite Jeff McMillan, responsable de l'analyse, des données et de l'innovation chez Morgan Stanley, déclarant : « Le modèle sera un Powered orienté interne. par un chatbot qui effectuera une recherche complète de contenu sur la gestion de patrimoine et débloquera efficacement les connaissances accumulées par Morgan Stanley Wealth Management. McMillan a en outre souligné : « Avec GPT-4, vous bénéficiez immédiatement des connaissances de la personne la plus compétente en matière de gestion de patrimoine... Considérez-le comme notre stratège en chef des investissements, notre économiste mondial en chef.

Savez-vous que les programmeurs seront en déclin dans quelques années ? Nov 08, 2023 am 11:17 AM

Le magazine "ComputerWorld" a écrit un article disant que "la programmation disparaîtra d'ici 1960" parce qu'IBM a développé un nouveau langage FORTRAN, qui permet aux ingénieurs d'écrire les formules mathématiques dont ils ont besoin, puis de les soumettre à l'ordinateur pour que la programmation se termine. Picture Quelques années plus tard, nous avons entendu un nouveau dicton : tout homme d'affaires peut utiliser des termes commerciaux pour décrire ses problèmes et dire à l'ordinateur quoi faire. Grâce à ce langage de programmation appelé COBOL, les entreprises n'ont plus besoin de programmeurs. Plus tard, il est dit qu'IBM a développé un nouveau langage de programmation appelé RPG qui permet aux employés de remplir des formulaires et de générer des rapports, de sorte que la plupart des besoins de programmation de l'entreprise puissent être satisfaits grâce à lui.

See all articles