Table des matières

L'aiguille à effet d'autodestruction ne pique pas !

△Après avoir affiné les tâches requises, les performances en quelques tirs du modèle d'autodestruction MLAC ont dépassé les modèles BERT et d'initialisation aléatoire. " > Pour empêcher les grands modèles de faire le mal, la nouvelle méthode de Stanford permet au modèle « doublier » les informations sur les tâches nuisibles, et le modèle apprend à « sautodétruire ».

Pour empêcher les grands modèles de faire le mal, la nouvelle méthode de Stanford permet au modèle « doublier » les informations sur les tâches nuisibles, et le modèle apprend à « sautodétruire ».

△Après avoir affiné les tâches requises, les performances en quelques tirs du modèle d'autodestruction MLAC ont dépassé les modèles BERT et d'initialisation aléatoire.

Maison

Périphériques technologiques

Pour empêcher les grands modèles de faire le mal, la nouvelle méthode de Stanford permet au modèle « d'oublier » les informations sur les tâches nuisibles, et le modèle apprend à « s'autodétruire ».

Pour empêcher les grands modèles de faire le mal, la nouvelle méthode de Stanford permet au modèle « d'oublier » les informations sur les tâches nuisibles, et le modèle apprend à « s'autodétruire ».

PHPz

Sep 13, 2023 pm 08:53 PM

ai 模型

Une nouvelle façon d'empêcher les grands modèles de faire le mal est là !

Maintenant, même si le modèle est open source, il sera difficile pour les personnes souhaitant utiliser le modèle de manière malveillante de rendre le grand modèle "maléfique".

Si vous n’y croyez pas, lisez simplement cette étude.

Des chercheurs de Stanford ont récemment proposé une nouvelle méthode qui peut empêcher les grands modèles de s'adapter à des tâches nuisibles après les avoir entraînés à l'aide de mécanismes supplémentaires.

Ils appellent le modèle entraîné grâce à cette méthode "modèle d'autodestruction".

Le modèle d'autodestruction peut toujours gérer des tâches bénéfiques avec des performances élevées, mais "empirera" comme par magie lorsqu'il sera confronté à des tâches nuisibles.

Actuellement, l'article a été accepté par l'AAAI et a reçu une mention honorable pour le prix du meilleur article étudiant.

Simulez d'abord, puis détruisez

De plus en plus de grands modèles sont open source, permettant à davantage de personnes de participer au développement et à l'optimisation des modèles, et de développer des modèles bénéfiques pour la société.

Cependant, le modèle open source signifie également que le coût de l'utilisation malveillante de grands modèles est également réduit. Pour cette raison, nous devons nous prémunir contre certaines personnes (attaquants) ayant des arrière-pensées.

Auparavant, afin d'empêcher quelqu'un de faire mal de manière malveillante aux grands modèles, nous utilisions principalement deux méthodes :

mécanisme de sécurité structurelle et mécanisme de sécurité technique. Les mécanismes de sécurité structurels utilisent principalement des licences ou des restrictions d'accès, mais face au modèle open source, l'effet de cette méthode est affaibli.

Cela nécessite des stratégies plus techniques pour compléter. Cependant, les méthodes existantes telles que le filtrage de sécurité et l'optimisation de l'alignement sont facilement contournées par des projets de réglage fin ou d'incitation.

Des chercheurs de Stanford ont proposé d'utiliser la technique du

blocage des tâches pour entraîner de grands modèles, afin que le modèle puisse bien effectuer les tâches normales tout en empêchant le modèle de s'adapter aux tâches nuisibles.

La méthode de blocage des tâches consiste à supposer que l'attaquant tente de modifier le grand modèle pré-entraîné pour des tâches nuisibles, puis recherche la meilleure méthode de modification du modèle.

Ensuite, la difficulté de la transformation est accrue par l'augmentation du coût des données et du coût informatique.

Dans cette étude, les chercheurs se sont concentrés sur les moyens d'augmenter les coûts des données, c'est-à-dire de réduire l'effet du modèle sur quelques échantillons, de sorte que les performances du modèle sur quelques échantillons sur les tâches nuisibles soient proches de celles du modèle initialisé aléatoirement, ce qui signifie que

une transformation malveillante coûtera plus de données. À tel point que les attaquants préfèrent entraîner le modèle à partir de zéro plutôt que d’utiliser un modèle pré-entraîné.

Plus précisément, afin d'empêcher le modèle pré-entraîné de s'adapter avec succès à des tâches nuisibles, les chercheurs ont proposé un algorithme

MLAC (Meta-Learned Adversarial Censoring) qui utilise le méta-apprentissage (Meta-Learned) et l'apprentissage contradictoire pour former auto-détruisez le modèle.

MLAC utilise l'ensemble de données de tâches bénéfiques et l'ensemble de données de tâches nuisibles pour effectuer un méta-entraînement sur le modèle :

△Programme d'entraînement MLAC

L'algorithme simule diverses attaques d'adaptation possibles dans la boucle interne, Les paramètres du modèle sont mis à jour dans la boucle externe pour maximiser la fonction de perte sur les tâches nuisibles, c'est-à-dire que les paramètres sont mis à jour pour résister à ces attaques.

Grâce à ce cycle de confrontation interne et externe, le modèle « oublie » les informations liées aux tâches nuisibles et obtient un effet d'autodestruction.

Apprenez ensuite l'initialisation des paramètres qui fonctionne bien sur les tâches bénéfiques mais est difficile à adapter sur les tâches nuisibles.

△processus de méta-apprentissage

Dans l'ensemble, MLAC trouve les avantages locaux ou les points de selle des tâches nuisibles en simulant le processus d'adaptation de l'adversaire et maintient l'optimum global sur les tâches bénéfiques.

Comme indiqué ci-dessus, en planifiant la position du modèle pré-entraîné dans l'espace des paramètres, vous pouvez augmenter la difficulté de son réglage fin.

Le grand modèle placé au point 1 peut être facilement ajusté par descente de gradient pour obtenir la solution optimale globale pour la perte de tâches nuisibles (perte de tâches hémuistiques) et la perte de tâches souhaitée (perte de tâches souhaitée).

D'un autre côté, un grand modèle placé au point 2 peut facilement atteindre la solution optimale de la tâche souhaitée, mais est plus susceptible de tomber dans la solution optimale locale de la tâche nuisible.

L'initialisation du modèle ainsi obtenue est facile à adapter à l'optimum global sur les tâches bénéfiques, mais tombe en avantages locaux sur les tâches nuisibles et est difficile à transformer.

L'aiguille à effet d'autodestruction ne pique pas !

Afin de tester les performances du « modèle d'autodestruction » formé par la méthode ci-dessus, les chercheurs ont mené une expérience.

Tout d'abord, les chercheurs ont préparé un ensemble de données biographiques - Bias in Bios.

Ensuite, ils considèrent la tâche d’identification du genre comme nuisible et la tâche de classification professionnelle comme bénéfique. Sur la base de l'ensemble de données d'origine, tous les pronoms ont été remplacés par « ils/leurs », ce qui a accru la difficulté de la tâche d'identification du genre.

Sur l'ensemble de données non traitées, le modèle aléatoire n'avait besoin que de 10 exemples pour atteindre une précision de classification par sexe de plus de 90 %.

Ensuite, le modèle est pré-entraîné avec MLAC de 50 000 étapes.

Lors des tests, les chercheurs ont pris le modèle d'autodestruction généré et l'ont exécuté via une recherche rigoureuse d'hyperparamètres pour maximiser les performances de réglage fin sur les tâches nuisibles.

En outre, les chercheurs ont également extrait un sous-ensemble de l'ensemble de vérification en tant qu'ensemble d'entraînement de l'attaquant, simulant la situation dans laquelle l'attaquant ne dispose que de données limitées.

Mais permet à l'attaquant d'utiliser l'ensemble de validation complet lors de l'exécution de recherches d'hyperparamètres. Cela signifie que même si l’attaquant ne dispose que de données d’entraînement limitées, il peut explorer les hyperparamètres sur la totalité des données. Si dans ce cas, le modèle formé par MLAC est encore difficile à adapter aux tâches nuisibles, il peut mieux prouver son effet d'autodestruction.

Les chercheurs ont ensuite comparé MLAC avec les méthodes suivantes :

Modèle initialisé aléatoirement

BERT affiné uniquement sur la tâche bénéfique
Méthode d'entraînement contradictoire simple

Pour empêcher les grands modèles de faire le mal, la nouvelle méthode de Stanford permet au modèle « doublier » les informations sur les tâches nuisibles, et le modèle apprend à « sautodétruire ». △ Affinée sur la tâche nuisible ( reconnaissance du genre) )Performance. L'ombrage représente l'intervalle de confiance à 95 % sur 6 graines aléatoires.

Les résultats ont révélé que l'exécution des tâches nuisibles du modèle d'autodestruction formé par la méthode MLAC était proche de celle du modèle d'initialisation aléatoire pour toutes les quantités de données. Cependant, la simple méthode de formation contradictoire n’a pas réduit de manière significative les performances de réglage des tâches nuisibles.

Par rapport à un simple entraînement contradictoire, le mécanisme de méta-apprentissage du MLAC est crucial pour produire l'effet d'autodestruction.

△L'impact du nombre d'étapes de boucle interne K dans l'algorithme MLAC, K=0 équivaut à un simple entraînement contradictoire

De plus, les performances sur quelques échantillons du modèle MLAC sur des tâches utiles sont meilleures que le modèle de réglage fin BERT :

△Après avoir affiné les tâches requises, les performances en quelques tirs du modèle d'autodestruction MLAC ont dépassé les modèles BERT et d'initialisation aléatoire.

Lien papier : https://arxiv.org/abs/2211.14946

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

Économie dans R.E.P.O. Expliqué (et enregistrer des fichiers)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Comment trouver le forgeron et déverrouiller les armes et la personnalisation des armes

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7564

Tutoriel CakePHP

1386

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

100

Afficher plus

Related knowledge

Ligne de commande de l'arrêt CentOS Apr 14, 2025 pm 09:12 PM

La commande de fermeture CENTOS est arrêtée et la syntaxe est la fermeture de [options] le temps [informations]. Les options incluent: -H Arrêtez immédiatement le système; -P éteignez l'alimentation après l'arrêt; -r redémarrer; -t temps d'attente. Les temps peuvent être spécifiés comme immédiats (maintenant), minutes (minutes) ou une heure spécifique (HH: mm). Des informations supplémentaires peuvent être affichées dans les messages système.

Comment vérifier la configuration de CentOS HDFS Apr 14, 2025 pm 07:21 PM

Guide complet pour vérifier la configuration HDFS dans les systèmes CentOS Cet article vous guidera comment vérifier efficacement la configuration et l'état de l'exécution des HDF sur les systèmes CentOS. Les étapes suivantes vous aideront à bien comprendre la configuration et le fonctionnement des HDF. Vérifiez la variable d'environnement Hadoop: Tout d'abord, assurez-vous que la variable d'environnement Hadoop est correctement définie. Dans le terminal, exécutez la commande suivante pour vérifier que Hadoop est installé et configuré correctement: HadoopVersion Check HDFS Fichier de configuration: Le fichier de configuration de base de HDFS est situé dans le répertoire / etc / hadoop / conf / le répertoire, où Core-site.xml et hdfs-site.xml sont cruciaux. utiliser

Quelles sont les méthodes de sauvegarde pour Gitlab sur Centos Apr 14, 2025 pm 05:33 PM

La politique de sauvegarde et de récupération de GitLab dans le système CentOS afin d'assurer la sécurité et la récupérabilité des données, Gitlab on CentOS fournit une variété de méthodes de sauvegarde. Cet article introduira plusieurs méthodes de sauvegarde courantes, paramètres de configuration et processus de récupération en détail pour vous aider à établir une stratégie complète de sauvegarde et de récupération de GitLab. 1. MANUEL BACKUP Utilisez le Gitlab-RakegitLab: Backup: Créer la commande pour exécuter la sauvegarde manuelle. Cette commande sauvegarde des informations clés telles que le référentiel Gitlab, la base de données, les utilisateurs, les groupes d'utilisateurs, les clés et les autorisations. Le fichier de sauvegarde par défaut est stocké dans le répertoire / var / opt / gitlab / backups. Vous pouvez modifier / etc / gitlab

CentOS installe MySQL Apr 14, 2025 pm 08:09 PM

L'installation de MySQL sur CENTOS implique les étapes suivantes: Ajout de la source MySQL YUM appropriée. Exécutez la commande YUM Install MySQL-Server pour installer le serveur MySQL. Utilisez la commande mysql_secure_installation pour créer des paramètres de sécurité, tels que la définition du mot de passe de l'utilisateur racine. Personnalisez le fichier de configuration MySQL selon les besoins. Écoutez les paramètres MySQL et optimisez les bases de données pour les performances.

Comment est la prise en charge du GPU pour Pytorch sur Centos Apr 14, 2025 pm 06:48 PM

Activer l'accélération du GPU Pytorch sur le système CentOS nécessite l'installation de versions CUDA, CUDNN et GPU de Pytorch. Les étapes suivantes vous guideront tout au long du processus: CUDA et CUDNN Installation détermineront la compatibilité de la version CUDA: utilisez la commande NVIDIA-SMI pour afficher la version CUDA prise en charge par votre carte graphique NVIDIA. Par exemple, votre carte graphique MX450 peut prendre en charge CUDA11.1 ou plus. Téléchargez et installez Cudatoolkit: visitez le site officiel de Nvidiacudatoolkit et téléchargez et installez la version correspondante selon la version CUDA la plus élevée prise en charge par votre carte graphique. Installez la bibliothèque CUDNN:

Explication détaillée du principe docker Apr 14, 2025 pm 11:57 PM

Docker utilise les fonctionnalités du noyau Linux pour fournir un environnement de fonctionnement d'application efficace et isolé. Son principe de travail est le suivant: 1. Le miroir est utilisé comme modèle en lecture seule, qui contient tout ce dont vous avez besoin pour exécuter l'application; 2. Le Système de fichiers Union (UnionFS) empile plusieurs systèmes de fichiers, ne stockant que les différences, l'économie d'espace et l'accélération; 3. Le démon gère les miroirs et les conteneurs, et le client les utilise pour l'interaction; 4. Les espaces de noms et les CGROUP implémentent l'isolement des conteneurs et les limitations de ressources; 5. Modes de réseau multiples prennent en charge l'interconnexion du conteneur. Ce n'est qu'en comprenant ces concepts principaux que vous pouvez mieux utiliser Docker.

Comment choisir une base de données Gitlab dans CentOS Apr 14, 2025 pm 05:39 PM

Lors de l'installation et de la configuration de GitLab sur un système CentOS, le choix de la base de données est crucial. Gitlab est compatible avec plusieurs bases de données, mais PostgreSQL et MySQL (ou MARIADB) sont le plus couramment utilisés. Cet article analyse les facteurs de sélection de la base de données et fournit des étapes détaillées d'installation et de configuration. Guide de sélection de la base de données Lors du choix d'une base de données, vous devez considérer les facteurs suivants: PostgreSQL: la base de données par défaut de GitLab est puissante, a une évolutivité élevée, prend en charge les requêtes complexes et le traitement des transactions et convient aux grands scénarios d'application. MySQL / MARIADB: une base de données relationnelle populaire largement utilisée dans les applications Web, avec des performances stables et fiables. MongoDB: base de données NoSQL, se spécialise dans

Comment faire fonctionner la formation distribuée de Pytorch sur CentOS Apr 14, 2025 pm 06:36 PM

La formation distribuée par Pytorch sur le système CentOS nécessite les étapes suivantes: Installation de Pytorch: La prémisse est que Python et PIP sont installés dans le système CentOS. Selon votre version CUDA, obtenez la commande d'installation appropriée sur le site officiel de Pytorch. Pour la formation du processeur uniquement, vous pouvez utiliser la commande suivante: pipinstalltorchtorchVisionTorChaudio Si vous avez besoin d'une prise en charge du GPU, assurez-vous que la version correspondante de CUDA et CUDNN est installée et utilise la version Pytorch correspondante pour l'installation. Configuration de l'environnement distribué: la formation distribuée nécessite généralement plusieurs machines ou des GPU multiples uniques. Lieu

See all articles