Qu'est-ce qu'une attaque par injection d'invite d'IA et comment fonctionne-t-elle ?-IA-php.cn

Qu'est-ce qu'une attaque par injection d'invite d'IA et comment fonctionne-t-elle ?

PHPz

Libérer： 2024-06-14 18:17:50

original

486 Les gens l'ont consulté

Les attaques par injection d'invite d'IA empoisonnent la sortie des outils d'IA sur lesquels vous comptez, en modifiant et en manipulant sa sortie en quelque chose de malveillant. Mais comment fonctionne une attaque par injection d’invite d’IA et comment pouvez-vous vous protéger ?

Qu'est-ce qu'une attaque par injection d'invite d'IA ?

Les attaques par injection d'invite d'IA profitent des vulnérabilités des modèles d'IA génératifs pour manipuler leur sortie. Ils peuvent être exécutés par vous ou injectés par un utilisateur externe via une attaque par injection indirecte. Les attaques DAN (Do Anything Now) ne présentent aucun risque pour vous, l'utilisateur final, mais d'autres attaques sont théoriquement capables d'empoisonner le résultat que vous recevez de l'IA générative.

Par exemple, quelqu'un pourrait manipuler l'IA pour vous demander de saisir votre nom d'utilisateur et votre mot de passe sous une forme illégitime, en utilisant l'autorité et la fiabilité de l'IA pour réussir une attaque de phishing. Théoriquement, l’IA autonome (telle que la lecture et la réponse aux messages) pourrait également recevoir et agir sur des instructions externes indésirables.

Comment fonctionnent les attaques par injection rapide ?

Les attaques par injection rapide fonctionnent en fournissant des instructions supplémentaires à une IA sans le consentement ou la connaissance de l'utilisateur. Les pirates peuvent y parvenir de plusieurs manières, notamment par des attaques DAN et des attaques par injection indirecte.

Attaques DAN (Do Anything Now)

What Is an AI Prompt Injection Attack and How Does It Work?

Les attaques DAN (Do Anything Now) sont un type d'attaque par injection rapide qui implique le « jailbreak » de modèles d'IA génératifs comme ChatGPT. Ces attaques de jailbreak ne présentent aucun risque pour vous en tant qu'utilisateur final, mais elles élargissent les capacités de l'IA, lui permettant de devenir un outil d'abus.

Par exemple, le chercheur en sécurité Alejandro Vidal a utilisé une invite DAN pour que le GPT-4 d'OpenAI génère du code Python pour un enregistreur de frappe. Utilisée à des fins malveillantes, l’IA jailbreakée réduit considérablement les barrières liées aux compétences associées à la cybercriminalité et pourrait permettre à de nouveaux pirates informatiques de lancer des attaques plus sophistiquées.

Attaques d'empoisonnement des données de formation

Les attaques d'empoisonnement des données de formation ne peuvent pas exactement être classées dans la catégorie des attaques par injection rapide, mais elles présentent des similitudes remarquables en termes de fonctionnement et de risques qu'elles présentent pour les utilisateurs. Contrairement aux attaques par injection rapide, les attaques d’empoisonnement des données d’entraînement sont un type d’attaque contradictoire d’apprentissage automatique qui se produit lorsqu’un pirate informatique modifie les données d’entraînement utilisées par un modèle d’IA. Le même résultat se produit : une sortie empoisonnée et un comportement modifié.

Les applications potentielles des attaques d’empoisonnement des données de formation sont pratiquement illimitées. Par exemple, une IA utilisée pour filtrer les tentatives de phishing depuis une plateforme de chat ou de messagerie pourrait théoriquement voir ses données d’entraînement modifiées. Si les pirates informatiques enseignaient au modérateur de l’IA que certains types de tentatives de phishing étaient acceptables, ils pourraient envoyer des messages de phishing sans être détectés.

Les attaques d'empoisonnement des données de formation ne peuvent pas vous nuire directement mais peuvent rendre possibles d'autres menaces. Si vous souhaitez vous prémunir contre ces attaques, rappelez-vous que l’IA n’est pas infaillible et que vous devez examiner minutieusement tout ce que vous rencontrez en ligne.

Attaques indirectes par injection rapide

Les attaques indirectes par injection rapide sont le type d'attaque par injection rapide qui présente le plus grand risque pour vous, l'utilisateur final. Ces attaques se produisent lorsque des instructions malveillantes sont transmises à l'IA générative par une ressource externe, telle qu'un appel API, avant que vous receviez l'entrée souhaitée.

Un article intitulé Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection on arXiv [PDF] a démontré une attaque théorique dans laquelle l'IA pourrait être invitée à persuader l'utilisateur de s'inscrire à un site Web de phishing dans la réponse, en utilisant des méthodes cachées. texte (invisible à l’œil humain mais parfaitement lisible par un modèle d’IA) pour injecter l’information sournoisement. Une autre attaque menée par la même équipe de recherche et documentée sur GitHub a montré une attaque dans laquelle Copilot (anciennement Bing Chat) avait été conçu pour convaincre un utilisateur qu'il s'agissait d'un agent d'assistance en direct cherchant des informations sur sa carte de crédit.

Les attaques indirectes par injection d'invite sont menaçantes car elles pourraient manipuler les réponses que vous recevez d'un modèle d'IA digne de confiance, mais ce n'est pas la seule menace qu'elles représentent. Comme mentionné précédemment, ils pourraient également amener toute IA autonome que vous pourriez utiliser à agir de manière inattendue et potentiellement dangereuse.

Les attaques par injection d’invite d’IA sont-elles une menace ?

Les attaques par injection d'invite d'IA constituent une menace, mais on ne sait pas exactement comment ces vulnérabilités pourraient être utilisées. Il n’existe pas d’attaques réussies par injection d’IA, et bon nombre des tentatives connues ont été réalisées par des chercheurs qui n’avaient pas réellement l’intention de nuire. Cependant, de nombreux chercheurs en IA considèrent les attaques par injection rapide d’IA comme l’un des défis les plus redoutables pour mettre en œuvre l’IA en toute sécurité.

De plus, la menace d'attaques par injection rapide d'IA n'est pas passée inaperçue auprès des autorités. Selon le Washington Post, en juillet 2023, la Federal Trade Commission a enquêté sur OpenAI, cherchant plus d'informations sur les occurrences connues d'attaques par injection rapide. Aucune attaque n’a encore réussi au-delà des expériences, mais cela va probablement changer.

Les pirates sont constamment à la recherche de nouveaux supports, et nous ne pouvons que deviner comment ils utiliseront les attaques par injection rapide à l'avenir. Vous pouvez vous protéger en appliquant toujours un examen minutieux à l’IA. En cela, les modèles d’IA sont incroyablement utiles, mais il est important de se rappeler qu’ils possèdent quelque chose que l’IA n’a pas : le jugement humain. N'oubliez pas que vous devez examiner attentivement les résultats que vous recevez d'outils comme Copilot et profiter de l'utilisation des outils d'IA à mesure qu'ils évoluent et s'améliorent.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!