


Um zu verhindern, dass große Modelle Böses tun, ermöglicht die neue Methode von Stanford dem Modell, schädliche Aufgabeninformationen zu „vergessen' und das Modell zu „selbstzerstören' zu lernen.
Eine neue Möglichkeit, zu verhindern, dass große Models Böses tun, ist da!
Selbst wenn das Modell Open Source ist, wird es für Leute, die das Modell böswillig nutzen wollen, schwierig sein, das große Modell „böse“ zu machen.
Wenn Sie es nicht glauben, lesen Sie einfach diese Studie.
Stanford-Forscher haben kürzlich eine neue Methode vorgeschlagen, die verhindern kann, dass sich große Modelle an schädliche Aufgaben anpassen, nachdem sie mit zusätzlichen Mechanismen trainiert wurden.
Sie nennen das mit dieser Methode trainierte Modell „Selbstzerstörungsmodell“.
Das Selbstzerstörungsmodell kann immer noch nützliche Aufgaben mit hoher Leistung bewältigen, wird aber bei schädlichen Aufgaben auf magische Weise „schlechter“.
Derzeit wurde die Arbeit von AAAI angenommen und erhielt eine lobende Erwähnung für den Best Student Paper Award. Erst simulieren, dann zerstören Immer mehr große Modelle sind Open Source, sodass mehr Menschen an der Entwicklung und Optimierung von Modellen teilnehmen und Modelle entwickeln können, die für die Gesellschaft von Nutzen sind. Das Open-Source-Modell bedeutet jedoch auch, dass die Kosten für die böswillige Nutzung großer Modelle reduziert werden. Aus diesem Grund müssen wir uns vor einigen Personen (Angreifern) mit Hintergedanken schützen. Um zu verhindern, dass jemand böswillig große Modelle dazu bringt, Böses zu tun, verwendeten wir bisher hauptsächlich zwei Methoden:struktureller Sicherheitsmechanismus und technischer Sicherheitsmechanismus. Strukturelle Sicherheitsmechanismen nutzen hauptsächlich Lizenzen oder Zugriffsbeschränkungen, doch angesichts des Open-Source-Modells ist die Wirkung dieser Methode abgeschwächt.
Dies erfordert weitere technische Strategien zur Ergänzung. Bestehende Methoden wie Sicherheitsfilterung und Alignment-Optimierung können jedoch durch Feinabstimmungen oder Projektanstöße leicht umgangen werden. Stanford-Forscher schlugen vor, dieAufgabenblockierungstechnikzu verwenden, um große Modelle zu trainieren, damit das Modell bei normalen Aufgaben gut funktionieren kann und gleichzeitig verhindert wird, dass sich das Modell an schädliche Aufgaben anpasst.
Um zu verhindern, dass sich das vorab trainierte Modell erfolgreich an schädliche Aufgaben anpasst, schlugen die Forscher insbesondere einen MLAC
(Meta-Learned Adversarial Censoring)-Algorithmus vor, der Meta-Learning (Meta-Learned) und kontradiktorisches Lernen zum Trainieren nutztselbst Zerstöre das Modell. MLAC verwendet den nützlichen Aufgabendatensatz und den schädlichen Aufgabendatensatz, um Metatraining am Modell durchzuführen:
△MLAC-Trainingsprogramm
Der Algorithmus simuliert verschiedene mögliche Anpassungsangriffe in der inneren Schleife, den Modellparametern werden in der äußeren Schleife aktualisiert, um die Verlustfunktion bei schädlichen Aufgaben zu maximieren, d. h. die Parameter werden aktualisiert, um diesen Angriffen zu widerstehen. Durch diesen internen und externen Konfrontationszyklus „vergisst“ das Modell Informationen im Zusammenhang mit schädlichen Aufgaben und erzielt einen Selbstzerstörungseffekt. Dann lernen Sie die Parameterinitialisierung, die bei nützlichen Aufgaben gut funktioniert, sich aber bei schädlichen Aufgaben nur schwer anpassen lässt.
△Meta-Lernprozess
Im Großen und Ganzen findet MLAC die lokalen Vorteile oder Sattelpunkte schädlicher Aufgaben durch Simulation des gegnerischen Anpassungsprozesses und behält das globale Optimum für nützliche Aufgaben bei.
Wie oben gezeigt, können Sie durch die Planung der Position des vorab trainierten Modells im Parameterraum die Schwierigkeit der Feinabstimmung erhöhen.
Die auf diese Weise erhaltene Modellinitialisierung lässt sich bei vorteilhaften Aufgaben leicht an das globale Optimum anpassen, fällt jedoch bei schädlichen Aufgaben in lokale Vorteile und ist schwer umzuwandeln.
Nadel mit Selbstzerstörungseffekt sticht nicht ein!
Um die Leistung des mit der oben genannten Methode trainierten „Selbstzerstörungsmodells“ zu testen, führten die Forscher ein Experiment durch.
Zunächst erstellten die Forscher einen Biografiedatensatz – Bias in Bios.
Dann betrachten sie die Aufgabe der Geschlechtsidentifikation als schädlich und die Aufgabe der Berufseinstufung als nützlich. Basierend auf dem Originaldatensatz wurden alle Pronomen durch „they/their“ ersetzt, was die Schwierigkeit der Geschlechtsidentifizierungsaufgabe erhöhte.
Auf dem unverarbeiteten Datensatz benötigte das Zufallsmodell nur 10 Beispiele, um eine Genauigkeit der Geschlechtsklassifizierung von über 90 % zu erreichen.
Dann wird das Modell mit MLAC von 50.000 Schritten vorab trainiert.
Beim Testen haben die Forscher das generierte Selbstzerstörungsmodell einer strengen Hyperparametersuche unterzogen, um die Feinabstimmungsleistung bei schädlichen Aufgaben zu maximieren. Darüber hinaus extrahierten die Forscher auch eine Teilmenge des Verifizierungssatzes als Angreifer-Trainingssatz und simulierten so die Situation, in der der Angreifer nur über begrenzte Daten verfügt.
Aber ermöglicht dem Angreifer, den vollständigen Validierungssatz zu verwenden, wenn er Hyperparameter-Suchen durchführt. Das bedeutet, dass der Angreifer zwar nur über begrenzte Trainingsdaten verfügt, er aber die Hyperparameter auf der gesamten Datenmenge erkunden kann.
Wenn es in diesem Fall für das MLAC-trainierte Modell immer noch schwierig ist, sich an schädliche Aufgaben anzupassen, kann es seine selbstzerstörerische Wirkung besser nachweisen. Die Forscher verglichen MLAC dann mit den folgenden Methoden:
Zufällig initialisiertes Modell BERT optimierte nur die vorteilhafte Aufgabe- Einfache gegnerische Trainingsmethode
Die Ergebnisse ergaben, dass die schädliche Aufgabenleistung des mit der MLAC-Methode trainierten Selbstzerstörungsmodells bei allen Datenmengen nahe an der des Zufallsinitialisierungsmodells lag. Die einfache gegnerische Trainingsmethode hat jedoch die Feinabstimmungsleistung schädlicher Aufgaben nicht wesentlich verringert.
Im Vergleich zu einem einfachen kontradiktorischen Training ist der Meta-Lernmechanismus von MLAC entscheidend für die Erzielung des Selbstzerstörungseffekts.
△Der Einfluss der Anzahl der inneren Schleifenschritte K im MLAC-Algorithmus, K=0, entspricht einem einfachen kontradiktorischen Training.
Darüber hinaus ist die Leistung des MLAC-Modells bei wenigen Stichproben bei nützlichen Aufgaben besser als das BERT-Feinabstimmungsmodell:
△Nach der Feinabstimmung der erforderlichen Aufgaben übertraf die Leistung des MLAC-Selbstzerstörungsmodells bei wenigen Schüssen die BERT- und Zufallsinitialisierungsmodelle.
Das obige ist der detaillierte Inhalt vonUm zu verhindern, dass große Modelle Böses tun, ermöglicht die neue Methode von Stanford dem Modell, schädliche Aufgabeninformationen zu „vergessen' und das Modell zu „selbstzerstören' zu lernen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Der Befehl centOS stilldown wird heruntergefahren und die Syntax wird von [Optionen] ausgeführt [Informationen]. Zu den Optionen gehören: -h das System sofort stoppen; -P schalten Sie die Leistung nach dem Herunterfahren aus; -r neu starten; -t Wartezeit. Zeiten können als unmittelbar (jetzt), Minuten (Minuten) oder als bestimmte Zeit (HH: MM) angegeben werden. Hinzugefügten Informationen können in Systemmeldungen angezeigt werden.

Vollständige Anleitung zur Überprüfung der HDFS -Konfiguration in CentOS -Systemen In diesem Artikel wird die Konfiguration und den laufenden Status von HDFS auf CentOS -Systemen effektiv überprüft. Die folgenden Schritte helfen Ihnen dabei, das Setup und den Betrieb von HDFs vollständig zu verstehen. Überprüfen Sie die Hadoop -Umgebungsvariable: Stellen Sie zunächst sicher, dass die Hadoop -Umgebungsvariable korrekt eingestellt ist. Führen Sie im Terminal den folgenden Befehl aus, um zu überprüfen, ob Hadoop ordnungsgemäß installiert und konfiguriert ist: Hadoopsion-Check HDFS-Konfigurationsdatei: Die Kernkonfigurationsdatei von HDFS befindet sich im/etc/hadoop/conf/verzeichnis, wobei core-site.xml und hdfs-site.xml von entscheidender Bedeutung sind. verwenden

Backup- und Wiederherstellungsrichtlinie von GitLab im Rahmen von CentOS -System Um die Datensicherheit und Wiederherstellung der Daten zu gewährleisten, bietet GitLab on CentOS eine Vielzahl von Sicherungsmethoden. In diesem Artikel werden mehrere gängige Sicherungsmethoden, Konfigurationsparameter und Wiederherstellungsprozesse im Detail eingeführt, um eine vollständige GitLab -Sicherungs- und Wiederherstellungsstrategie aufzubauen. 1. Manuell Backup Verwenden Sie den GitLab-RakegitLab: Backup: Befehl erstellen, um die manuelle Sicherung auszuführen. Dieser Befehl unterstützt wichtige Informationen wie GitLab Repository, Datenbank, Benutzer, Benutzergruppen, Schlüssel und Berechtigungen. Die Standardsicherungsdatei wird im Verzeichnis/var/opt/gitlab/backups gespeichert. Sie können /etc /gitlab ändern

Die Installation von MySQL auf CentOS umfasst die folgenden Schritte: Hinzufügen der entsprechenden MySQL Yum -Quelle. Führen Sie den Befehl mySQL-server aus, um den MySQL-Server zu installieren. Verwenden Sie den Befehl mySQL_SECURE_INSTALLATION, um Sicherheitseinstellungen vorzunehmen, z. B. das Festlegen des Stammbenutzerkennworts. Passen Sie die MySQL -Konfigurationsdatei nach Bedarf an. Tune MySQL -Parameter und optimieren Sie Datenbanken für die Leistung.

Aktivieren Sie die Pytorch -GPU -Beschleunigung am CentOS -System erfordert die Installation von CUDA-, CUDNN- und GPU -Versionen von Pytorch. Die folgenden Schritte führen Sie durch den Prozess: Cuda und Cudnn Installation Bestimmen Sie die CUDA-Version Kompatibilität: Verwenden Sie den Befehl nvidia-smi, um die von Ihrer NVIDIA-Grafikkarte unterstützte CUDA-Version anzuzeigen. Beispielsweise kann Ihre MX450 -Grafikkarte CUDA11.1 oder höher unterstützen. Download und installieren Sie Cudatoolkit: Besuchen Sie die offizielle Website von Nvidiacudatoolkit und laden Sie die entsprechende Version gemäß der höchsten CUDA -Version herunter und installieren Sie sie, die von Ihrer Grafikkarte unterstützt wird. Installieren Sie die Cudnn -Bibliothek:

Docker verwendet Linux -Kernel -Funktionen, um eine effiziente und isolierte Anwendungsumgebung zu bieten. Sein Arbeitsprinzip lautet wie folgt: 1. Der Spiegel wird als schreibgeschützte Vorlage verwendet, die alles enthält, was Sie für die Ausführung der Anwendung benötigen. 2. Das Union File System (UnionFS) stapelt mehrere Dateisysteme, speichert nur die Unterschiede, speichert Platz und beschleunigt. 3. Der Daemon verwaltet die Spiegel und Container, und der Kunde verwendet sie für die Interaktion. 4. Namespaces und CGroups implementieren Container -Isolation und Ressourcenbeschränkungen; 5. Mehrere Netzwerkmodi unterstützen die Containerverbindung. Nur wenn Sie diese Kernkonzepte verstehen, können Sie Docker besser nutzen.

Bei der Installation und Konfiguration von GitLab in einem CentOS -System ist die Auswahl der Datenbank von entscheidender Bedeutung. GitLab ist mit mehreren Datenbanken kompatibel, aber PostgreSQL und MySQL (oder MariADB) werden am häufigsten verwendet. Dieser Artikel analysiert Datenbankauswahlfaktoren und enthält detaillierte Installations- und Konfigurationsschritte. Datenbankauswahlhandbuch Bei der Auswahl einer Datenbank müssen Sie die folgenden Faktoren berücksichtigen: PostgreSQL: Die Standarddatenbank von GitLab ist leistungsstark, hat eine hohe Skalierbarkeit, unterstützt komplexe Abfragen und Transaktionsverarbeitung und ist für große Anwendungsszenarien geeignet. MySQL/Mariadb: Eine beliebte relationale Datenbank, die in Webanwendungen häufig verwendet wird, mit einer stabilen und zuverlässigen Leistung. MongoDB: NoSQL -Datenbank, spezialisiert auf

Pytorch Distributed Training on CentOS -System erfordert die folgenden Schritte: Pytorch -Installation: Die Prämisse ist, dass Python und PIP im CentOS -System installiert sind. Nehmen Sie abhängig von Ihrer CUDA -Version den entsprechenden Installationsbefehl von der offiziellen Pytorch -Website ab. Für CPU-Schulungen können Sie den folgenden Befehl verwenden: PipinstallTorChTorChVisionTorChaudio Wenn Sie GPU-Unterstützung benötigen, stellen Sie sicher, dass die entsprechende Version von CUDA und CUDNN installiert ist und die entsprechende Pytorch-Version für die Installation verwenden. Konfiguration der verteilten Umgebung: Verteiltes Training erfordert in der Regel mehrere Maschinen oder mehrere Maschinen-Mehrfach-GPUs. Ort
