LLM lernt, gegeneinander zu kämpfen, und das Grundmodell kann zu Gruppeninnovationen führen-KI-php.cn

Inhaltsverzeichnis

Experiment

Fazit

Heim

Technologie-Peripheriegeräte

LLM lernt, gegeneinander zu kämpfen, und das Grundmodell kann zu Gruppeninnovationen führen

王林

Jan 08, 2024 pm 07:34 PM

ai 模型

In Jin Yongs Kampfkunstromanen gibt es eine einzigartige Kampfkunstfähigkeit: Links- und Rechtskampf. Es war eine Kampfkunst, die von Zhou Botong geschaffen wurde, der mehr als zehn Jahre lang hart in einer Höhle auf der Pfirsichblüteninsel trainierte zu seinem eigenen Vergnügen zwischen der linken und der rechten Hand zu kämpfen. Diese Idee lässt sich nicht nur zum Üben von Kampfkünsten nutzen, sondern auch zum Trainieren von Machine-Learning-Modellen, wie etwa dem in den letzten Jahren in aller Munde befindlichen Generative Adversarial Network (GAN).

In der heutigen Ära der großen Modelle (LLM) haben Forscher den subtilen Einsatz der linken und rechten Interaktion entdeckt. Kürzlich schlug Gu Quanquans Team an der University of California in Los Angeles eine neue Methode namens SPIN (Self-Play Fine-Tuning) vor. Diese Methode kann die Fähigkeiten von LLM nur durch Selbstspiel ohne Verwendung zusätzlicher Feinabstimmungsdaten erheblich verbessern. Professor Gu Quanquan sagte: „Es ist besser, jemandem das Fischen beizubringen, als ihm das Fischen beizubringen: Durch Selbstspiel-Feinabstimmung (SPIN) können alle großen Modelle von schwach auf stark verbessert werden!“ Diese Forschung hat auch in sozialen Netzwerken für viele Diskussionen gesorgt. Professor Ethan Mollick von der Wharton School der University of Pennsylvania sagte beispielsweise: „Weitere Beweise zeigen, dass die KI nicht durch die Menge der von Menschen geschaffenen Dinge begrenzt sein wird.“ Für das Training verfügbare Inhalte. Dieses Papier zeigt einmal mehr, dass der Einsatz von KI mit erstellten Daten qualitativ hochwertigere Ergebnisse erzielen kann als die Verwendung nur von Menschen erstellter Daten Wir sind von dieser Methode begeistert und freuen uns auf ihre Weiterentwicklung in entsprechende Richtungen im Jahr 2024. Der Fortschritt lässt große Erwartungen erkennen. Professor Gu Quanquan sagte gegenüber Machine Heart: „Wenn Sie ein großes Modell über GPT-4 hinaus trainieren möchten, ist dies definitiv einen Versuch wert.“ /2401.01335.pdf.

LLM lernt, gegeneinander zu kämpfen, und das Grundmodell kann zu Gruppeninnovationen führen

Große Sprachmodelle (LLMs) haben eine Ära der Durchbrüche in der allgemeinen künstlichen Intelligenz (AGI) eingeleitet und verfügen über außergewöhnliche Fähigkeiten zur Lösung einer Vielzahl von Aufgaben, die komplexes Denken und Fachwissen erfordern. Zu den Fachgebieten des LLM gehören mathematisches Denken/Problemlösen, Codegenerierung/Programmierung, Textgenerierung, Zusammenfassen und kreatives Schreiben und mehr.

Ein wichtiger Fortschritt von LLM ist der Ausrichtungsprozess nach dem Training, der dafür sorgen kann, dass sich das Modell besser anforderungsgemäß verhält, aber dieser Prozess basiert oft auf kostspieligen, von Menschen gekennzeichneten Daten. Zu den klassischen Ausrichtungsmethoden gehören Supervised Fine-Tuning (SFT) basierend auf menschlichen Demonstrationen und Reinforcement Learning basierend auf Human Preference Feedback (RLHF).

LLM lernt, gegeneinander zu kämpfen, und das Grundmodell kann zu Gruppeninnovationen führen

Und diese Ausrichtungsmethoden erfordern alle eine große Menge an vom Menschen gekennzeichneten Daten. Um den Ausrichtungsprozess zu rationalisieren, hoffen die Forscher daher, Feinabstimmungsmethoden zu entwickeln, die menschliche Daten effektiv nutzen.

Dies ist auch das Ziel dieser Forschung: neue Feinabstimmungsmethoden zu entwickeln, damit das feinabgestimmte Modell immer stärker werden kann, und dieser Feinabstimmungsprozess erfordert nicht die Verwendung von vom Menschen gekennzeichneten Daten außerhalb der Feinabstimmungsdatensatz. LLM lernt, gegeneinander zu kämpfen, und das Grundmodell kann zu Gruppeninnovationen führen

Tatsächlich beschäftigte sich die Community des maschinellen Lernens schon immer damit, wie man schwache Modelle zu starken Modellen verbessern kann, ohne zusätzliche Trainingsdaten zu verwenden. Die Forschung in diesem Bereich lässt sich sogar auf den Boosting-Algorithmus zurückführen. Es gibt auch Studien, die zeigen, dass selbstlernende Algorithmen in Hybridmodellen schwache Lernende in starke Lernende umwandeln können, ohne dass zusätzliche gekennzeichnete Daten erforderlich sind. Allerdings ist die Fähigkeit, LLM ohne externe Anleitung automatisch zu verbessern, komplex und wenig untersucht. Dies wirft die folgende Frage auf:

Können wir LLM-Selbstverbesserung ohne zusätzliche vom Menschen gekennzeichnete Daten erreichen?

Methode

Im technischen Detail können wir das LLM aus der vorherigen Iteration als pθt bezeichnen, das die Antwort y' für Eingabeaufforderung x im vom Menschen gekennzeichneten SFT-Datensatz generiert. Das nächste Ziel besteht darin, ein neues LLM pθ{t+1} zu finden, das die von pθt erzeugte Antwort y' von der von einem Menschen gegebenen Antwort y unterscheiden kann.

Dieser Prozess kann als Spielprozess zwischen zwei Spielern angesehen werden: Der Hauptakteur ist der neue LLM pθ{t+1}, dessen Ziel es ist, die Reaktion des gegnerischen Spielers pθt von der vom Menschen erzeugten Reaktion zu unterscheiden; Der Gegenspieler ist der alte LLM pθt, dessen Aufgabe es ist, Antworten zu generieren, die dem vom Menschen markierten SFT-Datensatz möglichst nahe kommen.

Das neue LLM pθ{t+1} wird durch Feinabstimmung des alten LLM pθt erhalten. Der Trainingsprozess besteht darin, dem neuen LLM pθ{t+1} eine gute Fähigkeit zu verleihen, die von pθt generierte Antwort y' zu unterscheiden und die Reaktion des Menschen. Und dieses Training ermöglicht es dem neuen LLM pθ{t+1} nicht nur, als Hauptspieler eine gute Unterscheidungsfähigkeit zu erreichen, sondern ermöglicht dem neuen LLM pθ{t+1} auch, in der nächsten Iteration eine bessere Ausrichtung als gegnerischer Spieler zu erreichen. Antworten aus dem SFT-Datensatz. In der nächsten Iteration wird der neu erhaltene LLM pθ{t+1} zur Antwort des gegnerischen Spielers.

LLM lernt, gegeneinander zu kämpfen, und das Grundmodell kann zu Gruppeninnovationen führen

Das Ziel dieses Selbstspielprozesses besteht darin, das LLM schließlich zu pθ∗=p_data konvergieren zu lassen, sodass die vom leistungsstärksten LLM, das möglicherweise existiert, generierte Antwort nicht mehr vorhanden ist unterscheidet sich von der vorherigen Version und den Menschen. Die generierte Antwort ist anders.

Interessanterweise weist diese neue Methode Ähnlichkeit mit der kürzlich von Rafailov et al. vorgeschlagenen Methode der direkten Präferenzoptimierung (DPO) auf, der offensichtliche Unterschied der neuen Methode besteht jedoch in der Verwendung eines Selbstspielmechanismus. Daher hat diese neue Methode einen wesentlichen Vorteil: Es sind keine zusätzlichen menschlichen Präferenzdaten erforderlich.

Darüber hinaus können wir auch deutlich die Ähnlichkeit zwischen dieser neuen Methode und dem Generative Adversarial Network (GAN) erkennen, außer dass der Diskriminator (Hauptakteur) und der Generator (Gegner) in der neuen Methode dieselben LLM-Beispiele sind nach zwei benachbarten Iterationen.

Das Team führte auch einen theoretischen Beweis dieser neuen Methode durch und die Ergebnisse zeigten, dass die Methode genau dann konvergieren kann, wenn die Verteilung von LLM gleich der Zieldatenverteilung ist, d. h. p_θ_t=p_data.

Experiment

Im Experiment verwendete das Team eine LLM-Instanz zephyr-7b-sft-full basierend auf der Mistral-7B-Feinabstimmung.

Die Ergebnisse zeigen, dass die neue Methode zephyr-7b-sft-full in kontinuierlichen Iterationen kontinuierlich verbessern kann. Wenn die SFT-Methode für kontinuierliches Training am SFT-Datensatz Ultrachat200k verwendet wird, erreicht die Bewertungspunktzahl dagegen die Leistung Es gab sogar einen Rückgang.

Noch interessanter ist, dass der von der neuen Methode verwendete Datensatz nur eine 50.000-Teilmenge des Ultrachat200.000-Datensatzes ist!

Die neue Methode SPIN hat eine weitere Errungenschaft: Sie kann die durchschnittliche Punktzahl des Basismodells zephyr-7b-sft-full in der HuggingFace Open LLM-Rangliste effektiv von 58,14 auf 63,16 verbessern, wobei sie auf GSM8k bessere Ergebnisse erzielen kann und TruthfulQA Eine erstaunliche Verbesserung von mehr als 10 %, sie kann auch auf MT-Bench von 5,94 auf 6,78 verbessert werden.

LLM lernt, gegeneinander zu kämpfen, und das Grundmodell kann zu Gruppeninnovationen führen

Bemerkenswert ist, dass das mit SPIN verfeinerte Modell auf der Open LLM-Bestenliste sogar mit dem Modell vergleichbar ist, das mit einem zusätzlichen 62.000-Präferenzdatensatz trainiert wurde.

LLM lernt, gegeneinander zu kämpfen, und das Grundmodell kann zu Gruppeninnovationen führen

Fazit

Durch die vollständige Nutzung menschlicher annotierter Daten ermöglicht SPIN, dass große Modelle durch Selbstspiel von schwach zu stark wechseln. Im Vergleich zum Verstärkungslernen basierend auf menschlichem Präferenz-Feedback (RLHF) ermöglicht SPIN LLM, sich selbst zu verbessern, ohne zusätzliches menschliches Feedback oder stärkeres LLM-Feedback. In Experimenten mit mehreren Benchmark-Datensätzen, einschließlich der HuggingFace Open LLM-Bestenliste, verbessert SPIN die Leistung von LLM deutlich und stabil und übertrifft sogar Modelle, die mit zusätzlichem KI-Feedback trainiert wurden.

Wir gehen davon aus, dass SPIN zur Entwicklung und Verbesserung großer Modelle beitragen und letztendlich künstliche Intelligenz über das menschliche Niveau hinaus erreichen kann.

Das obige ist der detaillierte Inhalt vonLLM lernt, gegeneinander zu kämpfen, und das Grundmodell kann zu Gruppeninnovationen führen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Will R.E.P.O. Crossplay haben?

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7561

CakePHP-Tutorial

1384

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

CentOS Shutdown -Befehlszeile Apr 14, 2025 pm 09:12 PM

Der Befehl centOS stilldown wird heruntergefahren und die Syntax wird von [Optionen] ausgeführt [Informationen]. Zu den Optionen gehören: -h das System sofort stoppen; -P schalten Sie die Leistung nach dem Herunterfahren aus; -r neu starten; -t Wartezeit. Zeiten können als unmittelbar (jetzt), Minuten (Minuten) oder als bestimmte Zeit (HH: MM) angegeben werden. Hinzugefügten Informationen können in Systemmeldungen angezeigt werden.

Was sind die Backup -Methoden für Gitlab auf CentOS? Apr 14, 2025 pm 05:33 PM

Backup- und Wiederherstellungsrichtlinie von GitLab im Rahmen von CentOS -System Um die Datensicherheit und Wiederherstellung der Daten zu gewährleisten, bietet GitLab on CentOS eine Vielzahl von Sicherungsmethoden. In diesem Artikel werden mehrere gängige Sicherungsmethoden, Konfigurationsparameter und Wiederherstellungsprozesse im Detail eingeführt, um eine vollständige GitLab -Sicherungs- und Wiederherstellungsstrategie aufzubauen. 1. Manuell Backup Verwenden Sie den GitLab-RakegitLab: Backup: Befehl erstellen, um die manuelle Sicherung auszuführen. Dieser Befehl unterstützt wichtige Informationen wie GitLab Repository, Datenbank, Benutzer, Benutzergruppen, Schlüssel und Berechtigungen. Die Standardsicherungsdatei wird im Verzeichnis/var/opt/gitlab/backups gespeichert. Sie können /etc /gitlab ändern

So überprüfen Sie die CentOS -HDFS -Konfiguration Apr 14, 2025 pm 07:21 PM

Vollständige Anleitung zur Überprüfung der HDFS -Konfiguration in CentOS -Systemen In diesem Artikel wird die Konfiguration und den laufenden Status von HDFS auf CentOS -Systemen effektiv überprüft. Die folgenden Schritte helfen Ihnen dabei, das Setup und den Betrieb von HDFs vollständig zu verstehen. Überprüfen Sie die Hadoop -Umgebungsvariable: Stellen Sie zunächst sicher, dass die Hadoop -Umgebungsvariable korrekt eingestellt ist. Führen Sie im Terminal den folgenden Befehl aus, um zu überprüfen, ob Hadoop ordnungsgemäß installiert und konfiguriert ist: Hadoopsion-Check HDFS-Konfigurationsdatei: Die Kernkonfigurationsdatei von HDFS befindet sich im/etc/hadoop/conf/verzeichnis, wobei core-site.xml und hdfs-site.xml von entscheidender Bedeutung sind. verwenden

Wie ist die GPU -Unterstützung für Pytorch bei CentOS? Apr 14, 2025 pm 06:48 PM

Aktivieren Sie die Pytorch -GPU -Beschleunigung am CentOS -System erfordert die Installation von CUDA-, CUDNN- und GPU -Versionen von Pytorch. Die folgenden Schritte führen Sie durch den Prozess: Cuda und Cudnn Installation Bestimmen Sie die CUDA-Version Kompatibilität: Verwenden Sie den Befehl nvidia-smi, um die von Ihrer NVIDIA-Grafikkarte unterstützte CUDA-Version anzuzeigen. Beispielsweise kann Ihre MX450 -Grafikkarte CUDA11.1 oder höher unterstützen. Download und installieren Sie Cudatoolkit: Besuchen Sie die offizielle Website von Nvidiacudatoolkit und laden Sie die entsprechende Version gemäß der höchsten CUDA -Version herunter und installieren Sie sie, die von Ihrer Grafikkarte unterstützt wird. Installieren Sie die Cudnn -Bibliothek:

Detaillierte Erklärung des Docker -Prinzips Apr 14, 2025 pm 11:57 PM

Docker verwendet Linux -Kernel -Funktionen, um eine effiziente und isolierte Anwendungsumgebung zu bieten. Sein Arbeitsprinzip lautet wie folgt: 1. Der Spiegel wird als schreibgeschützte Vorlage verwendet, die alles enthält, was Sie für die Ausführung der Anwendung benötigen. 2. Das Union File System (UnionFS) stapelt mehrere Dateisysteme, speichert nur die Unterschiede, speichert Platz und beschleunigt. 3. Der Daemon verwaltet die Spiegel und Container, und der Kunde verwendet sie für die Interaktion. 4. Namespaces und CGroups implementieren Container -Isolation und Ressourcenbeschränkungen; 5. Mehrere Netzwerkmodi unterstützen die Containerverbindung. Nur wenn Sie diese Kernkonzepte verstehen, können Sie Docker besser nutzen.

CentOS installieren MySQL Apr 14, 2025 pm 08:09 PM

Die Installation von MySQL auf CentOS umfasst die folgenden Schritte: Hinzufügen der entsprechenden MySQL Yum -Quelle. Führen Sie den Befehl mySQL-server aus, um den MySQL-Server zu installieren. Verwenden Sie den Befehl mySQL_SECURE_INSTALLATION, um Sicherheitseinstellungen vorzunehmen, z. B. das Festlegen des Stammbenutzerkennworts. Passen Sie die MySQL -Konfigurationsdatei nach Bedarf an. Tune MySQL -Parameter und optimieren Sie Datenbanken für die Leistung.

So sehen Sie sich Gitlab -Protokolle unter CentOS Apr 14, 2025 pm 06:18 PM

Eine vollständige Anleitung zum Anzeigen von GitLab -Protokollen unter CentOS -System In diesem Artikel wird in diesem Artikel verschiedene GitLab -Protokolle im CentOS -System angezeigt, einschließlich Hauptprotokolle, Ausnahmebodi und anderen zugehörigen Protokollen. Bitte beachten Sie, dass der Log -Dateipfad je nach GitLab -Version und Installationsmethode variieren kann. Wenn der folgende Pfad nicht vorhanden ist, überprüfen Sie bitte das GitLab -Installationsverzeichnis und die Konfigurationsdateien. 1. Zeigen Sie das Hauptprotokoll an. Verwenden Sie den folgenden Befehl, um die Hauptprotokolldatei der GitLabRails-Anwendung anzuzeigen: Befehl: Sudocat/var/log/gitlab/gitlab-rails/production.log Dieser Befehl zeigt das Produkt an

Wie man eine verteilte Schulung von Pytorch auf CentOS betreibt Apr 14, 2025 pm 06:36 PM

Pytorch Distributed Training on CentOS -System erfordert die folgenden Schritte: Pytorch -Installation: Die Prämisse ist, dass Python und PIP im CentOS -System installiert sind. Nehmen Sie abhängig von Ihrer CUDA -Version den entsprechenden Installationsbefehl von der offiziellen Pytorch -Website ab. Für CPU-Schulungen können Sie den folgenden Befehl verwenden: PipinstallTorChTorChVisionTorChaudio Wenn Sie GPU-Unterstützung benötigen, stellen Sie sicher, dass die entsprechende Version von CUDA und CUDNN installiert ist und die entsprechende Pytorch-Version für die Installation verwenden. Konfiguration der verteilten Umgebung: Verteiltes Training erfordert in der Regel mehrere Maschinen oder mehrere Maschinen-Mehrfach-GPUs. Ort

See all articles