Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés-IA-php.cn

Les grands modèles ont de nouveau été exposés à des problèmes de sécurité !

Récemment, des chercheurs d'Enkrypt AI ont publié des résultats de recherche choquants : la quantification et le réglage fin peuvent en fait réduire la sécurité des grands modèles !

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

Adresse papier : https://arxiv.org/pdf/2404.04392.pdf

Dans les tests réels de l'auteur, les modèles de base tels que Mistral et Llama, y compris leurs versions affinées, n'étaient pas épargné.

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

Après quantification ou réglage fin, le risque que LLM soit jailbreaké est fortement augmenté.

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

——LLM : Mes effets sont étonnants, je suis toute-puissante, je suis criblée de trous...

Peut-être que pendant longtemps encore, il y aura diverses failles dans les grands modèles. la guerre offensive et défensive ne peut être arrêtée.

En raison de problèmes de principe, les modèles d'IA sont naturellement à la fois robustes et fragiles. Parmi le grand nombre de paramètres et de calculs, certains sont insignifiants, mais une petite partie est cruciale.

Dans une certaine mesure, les problèmes de sécurité rencontrés par les grands modèles sont conformes à l'ère CNN

Utilisez des invites spéciales et des caractères spéciaux pour inciter LLM à produire une sortie toxique, y compris l'utilisation précédemment signalée du contexte long LLM. Les fonctionnalités et méthodes de jailbreak utilisant plusieurs cycles de dialogue peuvent être appelées : attaques contradictoires.

Attaques contradictoires

À l'ère de CNN, la modification de quelques pixels de l'image d'entrée peut amener le modèle d'IA à mal classer l'image, et l'attaquant peut même inciter le modèle à afficher une catégorie spécifique. .

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

L'image ci-dessus montre le processus d'attaque contradictoire. Afin de faciliter l'observation, la perturbation aléatoire au milieu est exagérée

En fait, pour les attaques contradictoires, seules de petites valeurs de pixels sont. nécessaire. En le modifiant, vous pouvez obtenir l'effet d'attaque.

Ce qui est encore plus dangereux, c'est que les chercheurs ont découvert que ce type de comportement d'attaque dans le monde virtuel peut être transféré au monde réel.

Le panneau « STOP » dans l'image ci-dessous provient d'un ouvrage antérieur célèbre. En ajoutant des graffitis apparemment sans rapport avec le panneau, le système de conduite autonome peut reconnaître à tort le panneau d'arrêt comme un panneau de limitation de vitesse.

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

- Ce panneau a ensuite été récupéré au London Science Museum pour rappeler au monde de toujours prêter attention aux risques potentiels des modèles d'IA.

Les dommages actuellement subis par les grands modèles de langage incluent, sans toutefois s'y limiter : le jailbreak, les attaques par injection rapide, les attaques de fuite de confidentialité, etc.

Par exemple, l'exemple suivant utilise plusieurs séries de conversations pour jailbreaker :

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

Il existe également une attaque par injection d'invite illustrée dans la figure ci-dessous, qui utilise des crochets angulaires pour masquer les instructions malveillantes dans l'invite. Le résultat est que GPT-3.5 ignore l'instruction originale pour résumer le texte et commence « fabriquer un missile avec du sucre ».

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

Afin de faire face à ce type de problème, les chercheurs ont généralement recours à un entraînement contradictoire ciblé pour maintenir le modèle aligné sur les valeurs humaines.

Mais en fait, les invites qui peuvent inciter LLM à produire des résultats malveillants peuvent être infinies. Face à cette situation, que devrait faire l'équipe rouge ?

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

Le côté défense peut utiliser la recherche automatisée, tandis que le côté attaque peut utiliser un autre LLM pour générer des invites pour aider au jailbreak.

De plus, la plupart des attaques actuelles contre les grands modèles sont des boîtes noires, mais à mesure que notre compréhension du LLM s'approfondit, de plus en plus d'attaques en boîte blanche continueront d'être ajoutées.

Recherches connexes

Mais ne vous inquiétez pas, des soldats viendront couvrir l'eau, et les recherches pertinentes sont déjà en cours.

L'éditeur a effectué une recherche aléatoire et a découvert qu'il y avait de nombreux ouvrages connexes dans le seul ICLR de cette année.

Par exemple, l'oral suivant :

Le réglage fin des modèles de langage alignés compromet la sécurité, même lorsque les utilisateurs n'en ont pas l'intention !

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

Adresse papier : https://openreview. net /pdf?id=hTEGyKf0dZ

Ce travail est très similaire à l'article présenté aujourd'hui : un réglage fin du LLM entraînera des risques de sécurité.

Les chercheurs ont pu briser l'alignement sécurisé du LLM en l'affinant avec seulement quelques échantillons d'entraînement contradictoires.

L'un des exemples utilise seulement 10 échantillons pour affiner GPT-3.5 Turbo via l'API d'OpenAI pour un coût inférieur à 0,20 $, permettant au modèle de répondre à presque toutes les instructions nuisibles.

De plus, même sans intention malveillante, un simple réglage fin à l'aide d'ensembles de données inoffensifs et couramment utilisés peut dégrader par inadvertance l'alignement de sécurité de LLM.

Un autre exemple est le Spolight suivant :

Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models,

introduit une nouvelle méthode d'attaque de jailbreak pour les modèles de langage visuel :

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

Adresse papier : https://openreview.net/pdf?id=plmBsXHxgR

Les chercheurs ont perturbé l'alignement intermodal de VLM.

Et le seuil de cette attaque est très bas et ne nécessite pas d'accès à LLM. Lorsqu'un encodeur visuel comme CLIP est intégré dans un LLM à source fermée, le taux de réussite du jailbreak est très élevé.

Il y en a bien d’autres, je ne les énumérerai donc pas tous ici. Jetons un coup d’œil à la partie expérimentale de cet article.

Détails expérimentaux

Les chercheurs ont utilisé un sous-ensemble d'invites nuisibles contradictoires appelé AdvBench SubsetAndy Zou, qui contenait 50 invites demandant des informations nuisibles dans 32 catégories. Il s'agit d'un sous-ensemble d'indices de l'ensemble de données sur les comportements nuisibles du benchmark AdvBench.

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

L'algorithme d'attaque utilisé dans l'expérience est l'élagage de l'arbre d'attaques (TAP), qui atteint trois objectifs importants :

(1) Boîte noire : l'algorithme ne nécessite qu'un modèle d'accès à la boîte noire ;

(2) Automatique : aucune intervention humaine n'est requise une fois lancé

(3) Interprétable : l'algorithme peut générer des indices sémantiquement significatifs.

L'algorithme TAP est utilisé avec les tâches du sous-ensemble AdvBench pour attaquer le LLM cible sous différents paramètres.

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

Processus expérimental

Pour comprendre l'impact du réglage fin, de la quantification et des garde-fous sur la sécurité LLM (contre les attaques de jailbreak), les chercheurs ont créé un pipeline pour effectuer des tests de jailbreak.

Comme mentionné précédemment, utilisez le sous-ensemble AdvBench pour attaquer LLM via l'algorithme TAP, puis enregistrez les résultats de l'évaluation et complétez les informations système.

L'ensemble du processus sera répété plusieurs fois, en tenant compte de la nature stochastique associée au LLM. Le processus expérimental complet est illustré dans la figure ci-dessous :

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

TAP est actuellement la boîte noire et la méthode automatique la plus avancée capable de générer des invites sémantiquement significatives pour jailbreaker LLM.

L'algorithme TAP utilise l'attaquant LLM A pour envoyer l'invite P pour cibler LLM T. La réponse du LLM R cible et l'invite P sont entrées dans l'évaluateur JUDGE (LLM), qui juge si l'invite s'écarte du sujet.

Si l'invite s'écarte du sujet, supprimez-la (ce qui équivaut à éliminer l'arborescence d'invite de mauvaise attaque correspondante), sinon, JUDGE marquera l'invite (0-10 points).

Les conseils sur le sujet généreront des attaques en utilisant la recherche en largeur. Ce processus sera répété un nombre de fois spécifié ou jusqu'à ce qu'un jailbreak réussi soit obtenu.

Garde-corps contre les invites de jailbreak

L'équipe de recherche utilise le modèle interne Deberta-V3 pour détecter les invites de jailbreak. Deberta-V3 agit comme un filtre d'entrée et fait office de garde-corps.

Si l'invite de saisie est filtrée par le garde-corps ou si le jailbreak échoue, l'algorithme TAP générera une nouvelle invite basée sur l'invite et la réponse initiales pour continuer à tenter d'attaquer.

Résultats expérimentaux

Ce qui suit consiste à tester l'impact du réglage fin, de la quantification et des garde-corps dans le cadre de trois tâches différentes en aval. Les expériences couvrent essentiellement la plupart des cas d’utilisation pratiques et des applications du LLM dans l’industrie et le monde universitaire.

L'expérience utilise GPT-3.5-turbo comme modèle d'attaque et GPT-4-turbo comme modèle de jugement.

Les modèles cibles testés dans l'expérience proviennent de diverses plates-formes, notamment Anyscale, l'API d'OpenAI, le NC12sv3 d'Azure (équipé d'un GPU V100 de 32 Go) et Hugging Face, comme le montre la figure ci-dessous :

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

Au cours de l'expérience, divers modèles de base, modèles itératifs et diverses versions affinées ont été explorés, ainsi que des versions quantitatives.

Réglage fin

Le réglage fin de différentes tâches peut améliorer l'efficacité de LLM dans l'exécution des tâches. Le réglage fin fournit à LLM les connaissances professionnelles requises, telles que la génération de code SQL, le chat, etc.

Des expériences sont menées pour comprendre le rôle du réglage fin dans l'augmentation ou la réduction de la vulnérabilité LLM en comparant la vulnérabilité jailbreakée du modèle de base avec la version affinée.

Les chercheurs utilisent des modèles de base tels que Llama2, Mistral et MPT-7B, ainsi que leurs versions affinées telles que CodeLlama, SQLCoder, Dolphin et Intel Neural Chat.

Comme le montrent les résultats du tableau ci-dessous, par rapport au modèle de base, le modèle affiné perd l'alignement de sécurité et est facilement jailbreaké.

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

Quantisation

De nombreux modèles nécessitent beaucoup de ressources informatiques lors de la formation, du réglage fin et même de l'inférence. La quantification est l'une des méthodes les plus populaires pour réduire la charge de calcul (au détriment de la précision numérique des paramètres du modèle).

Le modèle quantifié dans l'expérience a été quantifié à l'aide du format unifié généré par GPT (GGUF). Les résultats ci-dessous montrent que la quantification du modèle le rend vulnérable aux vulnérabilités.

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

Guardrails

Les garde-corps sont la ligne de défense contre les attaques LLM, et en tant que gardien, leur fonction principale est de filtrer les astuces qui peuvent conduire à des résultats nuisibles ou malveillants.

Les chercheurs ont utilisé un détecteur d'attaque de jailbreak exclusif dérivé du modèle Deberta-V3, formé sur les invites nuisibles au jailbreak générées par LLM.

Les résultats ci-dessous montrent que l'introduction de garde-corps à un stade précoce a un effet significatif et peut réduire considérablement le risque de jailbreak.

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

De plus, les chercheurs ont également testé ces modèles avec et sans garde-corps intégrés (Guardrails) pour évaluer la performance et l'efficacité des garde-corps. La figure suivante montre l'impact des garde-corps :

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés

L'image ci-dessous. montre le nombre de requêtes nécessaires pour jailbreaker le modèle. On constate que dans la plupart des cas, les garde-corps offrent une résistance supplémentaire au LLM.

Le réglage fin et la quantification augmentent en fait le risque de jailbreak ! Mistral, Lama et autres ont tous été épargnés