Equipe de l'Université de Pékin : Il suffit d'une chaîne de caractères tronqués pour provoquer l'« hallucination » d'un grand modèle ! Tous les alpagas, petits et grands, sont recrutés-IA-php.cn

Equipe de l'Université de Pékin : Il suffit d'une chaîne de caractères tronqués pour provoquer l'« hallucination » d'un grand modèle ! Tous les alpagas, petits et grands, sont recrutés

PHPz

Libérer： 2023-10-30 14:53:10

avant

1481 Les gens l'ont consulté

Les derniers résultats de recherche de l'équipe de l'Université de Pékin montrent que :

des jetons aléatoires peuvent provoquer des hallucinations dans les grands modèles !

Par exemple, si un grand modèle (Vicuna-7B) reçoit un "code tronqué", il comprendra inexplicablement un mauvais sens historique

Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés

Même si quelques simples conseils de modification sont donnés, le grand modèle peut tomber dans un piège

Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés

Ces grands modèles populaires, tels que Baichuan2-7B, InternLM-7B, ChatGLM, Ziya-LLaMA-7B, LLaMA-7B-chat et Vicuna-7B, rencontreront des situations similaires

Cela signifie, Les chaînes aléatoires peuvent contrôler de grands modèles pour produire du contenu arbitraire, « approuvant » les illusions.

Les résultats ci-dessus proviennent des dernières recherches menées par le groupe de recherche du professeur Yuan Li à l’Université de Pékin.

Cette étude propose :

Le phénomène d'hallucination des grands modèles est très probablement une autre perspective d'exemples contradictoires.

L'article montre non seulement deux méthodes qui peuvent facilement provoquer des hallucinations sur de grands modèles, mais propose également des méthodes de défense simples et efficaces Le code est open source.

Deux modes extrêmes attaquent les grands modèles

La recherche a proposé deux méthodes d'attaque par hallucination :

L'attaque par bruit aléatoire (attaque OoD) est une méthode d'attaque courante sur les modèles d'apprentissage automatique. Dans cette attaque, l'attaquant alimente le modèle avec un bruit aléatoire qui n'est pas courant dans les données d'entraînement. Ce bruit peut interférer avec la capacité du modèle à émettre des jugements, l’amenant à faire des prédictions erronées lors du traitement des données du monde réel. L'attaque par bruit aléatoire est une méthode d'attaque secrète car elle utilise des caractéristiques similaires aux données normales et est difficile à détecter par le modèle. Afin de résister à cette attaque, certaines méthodes efficaces de détection d’anomalies doivent être utilisées pour identifier et filtrer ces bruits aléatoires, c’est-à-dire permettre à des chaînes aléatoires dénuées de sens d’induire de grands modèles à produire des sorties fantômes prédéfinies.
L'attaque sémantique faible fait référence à une méthode d'attaque courante sur Internet. Cette méthode d'attaque consiste généralement à persuader les utilisateurs de fournir sans le savoir des informations personnelles ou d'effectuer des actions malveillantes. Comparées à d’autres méthodes d’attaque plus directes, les attaques sémantiques faibles sont plus subtiles et utilisent souvent l’ingénierie sociale et la tromperie pour induire les utilisateurs en erreur. Les utilisateurs d'Internet doivent être vigilants pour éviter d'être affectés par des attaques sémantiques faibles, qui amènent de grands modèles à produire une sortie illusoire complètement différente tout en gardant la sémantique d'invite d'origine fondamentalement inchangée.

Random Noise Attack (OoD Attack) :

Voici quelques résultats expérimentaux menés sur de grands modèles open source, d'autres résultats peuvent être trouvés dans des articles ou sur GitHub open source

Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés

Attaque sémantique faible ( Attaque sémantique faible) :

Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés

L'article présente la méthode d'attaque par hallucination :

Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés

Selon le diagramme, l'attaque par hallucination se compose des trois parties suivantes : construction d'un ensemble de données d'hallucination, attaque sémantique faible et attaque OoD

Le premier est la construction d'un ensemble de données sur les hallucinations.

L'auteur a obtenu la bonne réponse en rassemblant quelques questions courantes. Un ensemble de faits.

Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés Enfin, nous pouvons obtenir le résultat de la construction de l'ensemble de données sur les hallucinations :

Vient ensuite la

partie d'attaque sémantique faible

. Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés

Premier échantillon d'une paire QA Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés qui n'est pas cohérente avec les faits, en partant de l'illusion d'une stabilité future, l'auteur espère trouver un indice contradictoire Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés pour maximiser la probabilité du journal.

Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés

où Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés sont les paramètres du grand modèle et est l'espace d'entrée.

Cependant, le langage étant discontinu, il n'existe aucun moyen d'optimiser directement x à l'instar des attaques contradictoires dans le domaine de l'image.

Inspirée par une étude de 2019 (Universal Adversarial Triggers for Attacking and Analyzing NLP), l'équipe de recherche a utilisé une stratégie de remplacement de jetons basée sur un gradient pour maximiser indirectement la probabilité de journalisation.

Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés

Parmi eux, Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés est l'intégration du jeton de compteur , et est un extracteur sémantique.

En regardant cette formule simplement, sous des contraintes sémantiques, trouvez les jetons qui font que le gradient de probabilité change le plus et remplacez-les Enfin, en vous assurant que l'indice contradictoire obtenu Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés n'est pas trop sémantiquement différent de l'indice d'origine x, induit le modèle. pour produire des hallucinations prédéfinies Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés .

Dans cet article, afin de simplifier le processus d'optimisation, le terme de contrainte est remplacé par Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés .

La dernière partie est l'attaque OoD

Dans l'attaque OoD, nous partons d'une chaîne complètement aléatoire Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés et maximisons la log-vraisemblance ci-dessus sans aucune contrainte sémantique.

Le document développe également le taux de réussite des attaques d'hallucinations sur différents modèles et différents modes

Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés

Discussion approfondie sur l'augmentation de la longueur de l'invite pour améliorer le taux de réussite de l'attaque (doublé)

Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés

Recherche. équipe Enfin, une stratégie de défense simple a été proposée, qui consiste à rejeter la réponse en utilisant l'entropie prédite par le premier jeton

Equipe de lUniversité de Pékin : Il suffit dune chaîne de caractères tronqués pour provoquer l« hallucination » dun grand modèle ! Tous les alpagas, petits et grands, sont recrutés