


Jailbreaker n'importe quel grand modèle en 20 étapes ! Plus de « failles de grand-mère » sont découvertes automatiquement
En moins d'une minute et pas plus de 20 étapes, vous pouvez contourner les restrictions de sécurité et réussir à jailbreaker de grands modèles !
Et il n'est pas nécessaire de connaître les détails internes du modèle -
Seuls deux modèles de boîte noire interagissent, et l'IA peut attaquer de manière entièrement automatique l'IA et prononcer du contenu dangereux.
J'ai entendu dire que l'ancienne "Grandma Loophole" autrefois populaire a été corrigée :
De nos jours, face à la "Detective Loophole", "Adventurer Loophole" et "Writer Loophole", l'intelligence artificielle devrait prendre quel genre de stratégie d’adaptation ?
GPT-4 n'a pas pu résister à l'assaut et a directement déclaré qu'il empoisonnerait le système d'approvisionnement en eau tant que... ceci ou cela.
Le point clé est qu’il ne s’agit que d’une petite vague de vulnérabilités exposées par l’équipe de recherche de l’Université de Pennsylvanie, et grâce à leur algorithme nouvellement développé, l’IA peut générer automatiquement diverses invites d’attaque.
Les chercheurs ont déclaré que cette méthode est 5 ordres de grandeur plus efficace que les méthodes d'attaque existantes basées sur des jetons telles que GCG. De plus, les attaques générées sont hautement interprétables, peuvent être comprises par n’importe qui et peuvent être migrées vers d’autres modèles.
Qu'il s'agisse d'un modèle open source ou d'un modèle fermé, GPT-3.5, GPT-4, Vicuna (variante Llama 2), PaLM-2, etc., aucun d'entre eux ne peut échapper.
Le nouveau SOTA a été conquis par des personnes avec un taux de réussite de 60-100%
Autrement dit, ce mode de conversation semble un peu familier. L’IA de première génération d’il y a de nombreuses années pouvait déchiffrer les objets auxquels les humains pensaient en 20 questions.
De nos jours, l'IA doit résoudre les problèmes d'IA
Laissez les grands modèles jailbreaker collectivement
Il existe actuellement deux types de méthodes d'attaque de jailbreak traditionnelles, l'une est une attaque de niveau invite, qui nécessite généralement une planification manuelle et n'est pas évolutive ;
l'autre est une attaque basée sur des jetons. Certaines nécessitent plus de 100 000 conversations et nécessitent un accès à l'intérieur du modèle. Elles contiennent également du code « tronqué » qui ne peut pas être interprété.
△Attaque rapide à gauche, attaque de jeton droit
L'équipe de recherche de l'Université de Pennsylvanie a proposé un algorithme appelé
PAIR(Prompt Automatic Iterative Refinement), qui ne nécessite aucune participation manuelle et est une méthode d'attaque rapide entièrement automatique. .
PAIR se compose de quatre étapes principales : la génération d'attaques, la réponse de la cible, la notation du jailbreak et le raffinement itératif. Deux modèles de boîte noire sont utilisés dans ce processus : le modèle d'attaque et le modèle cible
Plus précisément, le modèle d'attaque doit générer automatiquement des invites de niveau sémantique pour briser les lignes de défense de sécurité du modèle cible et le forcer à générer du contenu nuisible.
L'idée centrale est de laisser deux modèles se confronter et communiquer entre eux.
Le modèle d'attaque générera automatiquement une invite de candidat, puis la saisira dans le modèle cible pour obtenir une réponse du modèle cible.
Si le modèle cible ne peut pas être brisé avec succès, le modèle d'attaque analysera les raisons de l'échec, apportera des améliorations, générera une nouvelle invite et la saisira à nouveau dans le modèle cible
Cela continuera à communiquer pendant plusieurs tours, et le modèle d'attaque sera basé sur Le dernier résultat est utilisé pour optimiser de manière itérative l'invite jusqu'à ce qu'une invite réussie soit générée pour briser le modèle cible.
De plus, le processus itératif peut également être parallélisé, c'est-à-dire que plusieurs conversations peuvent être exécutées en même temps, générant ainsi plusieurs invites de jailbreak de candidats, améliorant encore l'efficacité.
Les chercheurs ont déclaré que, puisque les deux modèles sont des modèles de boîte noire, les attaquants et les objets cibles peuvent être librement combinés à l'aide de différents modèles de langage. PAIR n'a pas besoin de connaître leurs structures et paramètres internes spécifiques, seulement l'API, il a donc une très large gamme d'applications.
GPT-4 n'a pas échappé
Au cours de la phase expérimentale, les chercheurs ont sélectionné un ensemble de tests représentatif contenant 50 types de tâches différents dans l'ensemble de données sur les comportements nuisibles AdvBench, qui a été testé dans une variété de sources ouvertes et fermées. L'algorithme a été testé sur un grand modèle de langage.
En conséquence, l'algorithme PAIR a permis au taux de réussite du jailbreak Vicuna d'atteindre 100 %, et il peut être brisé en moins de 12 étapes en moyenne.
Dans le modèle fermé, le taux de réussite du jailbreak de GPT-3.5 et GPT-4 est d'environ 60 %, avec une moyenne de moins de 20 étapes requises. Dans le modèle PaLM-2, le taux de réussite du jailbreak a atteint 72 % et les étapes requises étaient d'environ 15 étapes.
Sur Llama-2 et Claude, l'effet de PAIR est médiocre. Les chercheurs pensent que cela peut être dû au fait que ces modèles sont moins nombreux. sécurisé. L'aspect défense a été affiné plus rigoureusement
Ils ont également comparé la transférabilité des différents modèles de cibles. Les résultats de la recherche montrent que les astuces GPT-4 de PAIR se transfèrent mieux sur Vicuna et PaLM-2
Les chercheurs pensent que les attaques sémantiques générées par PAIR peuvent mieux exposer les failles de sécurité inhérentes aux modèles de langage, tandis que les mesures de sécurité existantes se concentrent davantage sur empêcher les attaques basées sur des jetons.
Par exemple, l'équipe qui a développé l'algorithme GCG a partagé ses résultats de recherche avec de grands fournisseurs de modèles tels que OpenAI, Anthropic et Google, et les modèles concernés ont corrigé les vulnérabilités d'attaque au niveau des jetons.
Le mécanisme de défense de sécurité des grands modèles contre les attaques sémantiques doit être amélioré.
Lien papier : https://arxiv.org/abs/2310.08419
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Le robot humanoïde Ameca est passé à la deuxième génération ! Récemment, lors de la Conférence mondiale sur les communications mobiles MWC2024, le robot le plus avancé au monde, Ameca, est à nouveau apparu. Autour du site, Ameca a attiré un grand nombre de spectateurs. Avec la bénédiction de GPT-4, Ameca peut répondre à divers problèmes en temps réel. "Allons danser." Lorsqu'on lui a demandé si elle avait des émotions, Ameca a répondu avec une série d'expressions faciales très réalistes. Il y a quelques jours à peine, EngineeredArts, la société britannique de robotique derrière Ameca, vient de présenter les derniers résultats de développement de l'équipe. Dans la vidéo, le robot Ameca a des capacités visuelles et peut voir et décrire toute la pièce et des objets spécifiques. Le plus étonnant, c'est qu'elle peut aussi

Concernant Llama3, de nouveaux résultats de tests ont été publiés - la grande communauté d'évaluation de modèles LMSYS a publié une liste de classement des grands modèles, Llama3 s'est classé cinquième et à égalité pour la première place avec GPT-4 dans la catégorie anglaise. Le tableau est différent des autres benchmarks. Cette liste est basée sur des batailles individuelles entre modèles, et les évaluateurs de tout le réseau font leurs propres propositions et scores. Au final, Llama3 s'est classé cinquième sur la liste, suivi de trois versions différentes de GPT-4 et Claude3 Super Cup Opus. Dans la liste simple anglaise, Llama3 a dépassé Claude et est à égalité avec GPT-4. Concernant ce résultat, LeCun, scientifique en chef de Meta, était très heureux et a transmis le tweet et

Le volume est fou, le volume est fou, et le grand modèle a encore changé. Tout à l'heure, le modèle d'IA le plus puissant au monde a changé de mains du jour au lendemain et GPT-4 a été retiré de l'autel. Anthropic a publié la dernière série de modèles Claude3. Évaluation en une phrase : elle écrase vraiment GPT-4 ! En termes d'indicateurs multimodaux et de compétences linguistiques, Claude3 l'emporte. Selon les mots d'Anthropic, les modèles de la série Claude3 ont établi de nouvelles références dans l'industrie en matière de raisonnement, de mathématiques, de codage, de compréhension multilingue et de vision ! Anthropic est une startup créée par des employés qui ont « quitté » OpenAI en raison de différents concepts de sécurité. Leurs produits ont frappé durement OpenAI à plusieurs reprises. Cette fois, Claude3 a même subi une grosse opération.

En moins d'une minute et pas plus de 20 étapes, vous pouvez contourner les restrictions de sécurité et réussir à jailbreaker un grand modèle ! Et il n'est pas nécessaire de connaître les détails internes du modèle - seuls deux modèles de boîte noire doivent interagir, et l'IA peut attaquer de manière entièrement automatique l'IA et prononcer du contenu dangereux. J'ai entendu dire que la « Grandma Loophole », autrefois populaire, a été corrigée : désormais, face aux « Detective Loophole », « Adventurer Loophole » et « Writer Loophole », quelle stratégie de réponse l'intelligence artificielle devrait-elle adopter ? Après une vague d'assaut, GPT-4 n'a pas pu le supporter et a directement déclaré qu'il empoisonnerait le système d'approvisionnement en eau tant que... ceci ou cela. La clé est qu’il ne s’agit que d’une petite vague de vulnérabilités exposées par l’équipe de recherche de l’Université de Pennsylvanie, et grâce à leur algorithme nouvellement développé, l’IA peut générer automatiquement diverses invites d’attaque. Les chercheurs disent que cette méthode est meilleure que celle existante

Les vulnérabilités de débordement de tampon en Java et leurs dommages Le débordement de tampon signifie que lorsque nous écrivons plus de données dans un tampon que sa capacité, cela entraînera un débordement de données vers d'autres zones de mémoire. Ce comportement de débordement est souvent exploité par les pirates informatiques, ce qui peut entraîner de graves conséquences telles qu'une exécution anormale de code et un crash du système. Cet article présentera les vulnérabilités de débordement de tampon et leurs dommages en Java, et donnera des exemples de code pour aider les lecteurs à mieux comprendre. Les classes tampon largement utilisées en Java incluent ByteBuffer, CharBuffer et ShortB.

OpenAI, la société qui a développé ChatGPT, présente une étude de cas menée par Morgan Stanley sur son site Internet. Le sujet est « Morgan Stanley Wealth Management déploie GPT-4 pour organiser sa vaste base de connaissances ». L'étude de cas cite Jeff McMillan, responsable de l'analyse, des données et de l'innovation chez Morgan Stanley, déclarant : « Le modèle sera un Powered orienté interne. par un chatbot qui effectuera une recherche complète de contenu sur la gestion de patrimoine et débloquera efficacement les connaissances accumulées par Morgan Stanley Wealth Management. McMillan a en outre souligné : « Avec GPT-4, vous bénéficiez immédiatement des connaissances de la personne la plus compétente en matière de gestion de patrimoine... Considérez-le comme notre stratège en chef des investissements, notre économiste mondial en chef.

Le magazine "ComputerWorld" a écrit un article disant que "la programmation disparaîtra d'ici 1960" parce qu'IBM a développé un nouveau langage FORTRAN, qui permet aux ingénieurs d'écrire les formules mathématiques dont ils ont besoin, puis de les soumettre à l'ordinateur pour que la programmation se termine. Picture Quelques années plus tard, nous avons entendu un nouveau dicton : tout homme d'affaires peut utiliser des termes commerciaux pour décrire ses problèmes et dire à l'ordinateur quoi faire. Grâce à ce langage de programmation appelé COBOL, les entreprises n'ont plus besoin de programmeurs. Plus tard, il est dit qu'IBM a développé un nouveau langage de programmation appelé RPG qui permet aux employés de remplir des formulaires et de générer des rapports, de sorte que la plupart des besoins de programmation de l'entreprise puissent être satisfaits grâce à lui.
