Wer hätte gedacht, dass ein unerwarteter LLaMA-Leak den größten Innovationsfunken im Bereich Open Source LLM entfachen würde.
Eine Reihe herausragender ChatGPT-Open-Source-Alternativen – „Alpaca Family“ – erschien dann auf umwerfende Weise.
Die Reibung zwischen Open Source und API-basierter Verbreitung ist einer der dringendsten Widersprüche im generativen KI-Ökosystem.
Im Text-zu-Bild-Bereich zeigt die Veröffentlichung von Stable Diffusion deutlich, dass Open Source ein praktikabler Verteilungsmechanismus für das zugrunde liegende Modell ist.
Dies ist jedoch im Bereich großer Sprachmodelle nicht der Fall. Die größten Durchbrüche in diesem Bereich, wie beispielsweise Modelle wie GPT-4, Claude und Cohere, sind nur über APIs verfügbar.
Open-Source-Alternativen zu diesen Modellen weisen nicht das gleiche Leistungsniveau auf, insbesondere was die Fähigkeit betrifft, menschlichen Anweisungen zu folgen. Ein unerwartetes Leck veränderte diese Situation jedoch völlig.
Vor einigen Wochen hat Meta AI das große Sprachmodell LLaMA auf den Markt gebracht.
LLaMA verfügt über verschiedene Versionen, darunter die Parameter 7B, 13B, 33B und 65B. Obwohl es kleiner als GPT-3 ist, kann es bei vielen Aufgaben mit der Leistung von GPT-3 mithalten.
LLaMA war zunächst kein Open Source, aber eine Woche nach seiner Veröffentlichung wurde das Modell plötzlich auf 4chan durchgesickert, was Tausende von Downloads auslöste.
Dieser Vorfall kann als „episches Leck“ bezeichnet werden, da er zu einer endlosen Quelle für Innovationen im Bereich großer Sprachmodelle geworden ist.
In nur wenigen Wochen ist die Innovation der darauf aufbauenden LLM-Agenten explodiert.
Alpaka, Vicuna, Koala, ChatLLaMA, FreedomGPT, ColossalChat... Lassen Sie uns noch einmal Revue passieren lassen, wie diese Explosion der „Alpaka-Familie“ entstand.
Alpaca Mitte März wurde das von Stanford herausgebrachte große Modell Alpaca populär.
Alpaca ist ein brandneues Modell, das von Metas LLaMA 7B verfeinert wurde. Es verwendet nur 52.000 Daten und seine Leistung entspricht ungefähr GPT-3.5.
Der Schlüssel ist, dass die Schulungskosten extrem niedrig sind, weniger als 600 US-Dollar.
Stanford-Forscher verglichen GPT-3.5 (text-davinci-003) und Alpaca 7B und stellten fest, dass die Leistung der beiden Modelle sehr ähnlich ist. Alpaca gewinnt 90 zu 89 Mal gegen GPT-3.5.
Wenn das Stanford-Team innerhalb des Budgets ein qualitativ hochwertiges Instruktionsfolgemodell trainieren möchte, muss es sich zwei wichtigen Herausforderungen stellen: ein leistungsstarkes vorab trainiertes Sprachmodell und ein qualitativ hochwertiges Instruktionsmodell, das den Daten folgt .
Genau, das LLaMA-Modell, das akademischen Forschern zur Verfügung gestellt wurde, löste das erste Problem.
Für die zweite Herausforderung gab der Artikel „Selbstunterricht: Sprachmodell mit selbst generierten Anweisungen ausrichten“ eine gute Inspiration, nämlich die Verwendung vorhandener starker Sprachmodelle zur automatischen Generierung von Unterrichtsdaten.
Die größte Schwäche des LLaMA-Modells ist die fehlende Feinabstimmung der Anleitung. Eine der größten Innovationen von OpenAI ist die Verwendung der Befehlsoptimierung auf GPT-3.
In diesem Zusammenhang nutzte Stanford ein vorhandenes großes Sprachmodell, um automatisch Demonstrationen der folgenden Anweisungen zu generieren.
Alpaka wird von Internetnutzern direkt als „stabile Verbreitung großer Textmodelle“ angesehen.
Vicuna Ende März stellten Forscher der UC Berkeley, der Carnegie Mellon University, der Stanford University und der UC San Diego Vicuna als Open-Source-Lösung zur Verfügung, eine fein abgestimmte Version von LLaMA, die der Leistung von GPT-4 entspricht.
Der 13-Milliarden-Parameter Vicuna wird durch die Feinabstimmung von LLaMA anhand der von ShareGPT gesammelten Benutzerkonversationen trainiert. Die Schulungskosten betragen fast 300 US-Dollar.
Die Ergebnisse zeigen, dass Vicuna-13B in mehr als 90 % der Fälle vergleichbare Fähigkeiten wie ChatGPT und Bard erreicht.
Für den Vicuna-13B-Trainingsprozess lauten die Details wie folgt:
Zunächst sammelten die Forscher etwa 70.000 Gespräche von der ChatGPT-Konversationsaustausch-Website ShareGPT.
Als nächstes optimierten die Forscher das von Alpaca bereitgestellte Trainingsskript, damit das Modell mehrere Gesprächsrunden und lange Sequenzen besser bewältigen kann. Anschließend wurde PyTorch FSDP für einen Trainingstag auf 8 A100-GPUs verwendet.
Im Hinblick auf die Bewertung der Modellqualität erstellten die Forscher 80 verschiedene Fragen und bewerteten die Modellausgabe mithilfe von GPT-4.
Um die verschiedenen Modelle zu vergleichen, kombinierten die Forscher die Ausgabe jedes Modells in einer einzigen Eingabeaufforderung und ließen dann GPT-4 bewerten, welches Modell die bessere Antwort lieferte (gut).
Vergleich von LLaMA, Alpaka, Vicuna und ChatGPT# 🎜🎜#
KoalaKürzlich hat das UC Berkeley AI Research Institute (BAIR) ein neues Modell „Koala“ (Koala) veröffentlicht, das OpenAI-GPT-Daten verwendet wird zur Feinabstimmung des Unterrichts verwendet. Das Besondere an Koala ist, dass es hochwertige Daten aus dem Netzwerk für das Training verwendet.
Forschungsergebnisse zeigen, dass Koala eine Vielzahl von Benutzeranfragen effektiv beantworten kann und Antworten generiert, die tendenziell beliebter sind als Alpaka, und zwar in mindestens der Hälfte der Fälle im Vergleich zu ChatGPT Der Effekt ist vergleichbar.
Die Forscher hoffen, dass die Ergebnisse dieses Experiments die Diskussion über die relative Leistung großer Closed-Source-Modelle im Vergleich zu kleinen öffentlichen Modellen vorantreiben können, insbesondere da die Ergebnisse dies zeigen Für diese kleinen Modelle, die lokal ausgeführt werden können, kann die Leistung großer Modelle erreicht werden, wenn die Trainingsdaten sorgfältig gesammelt werden.
Tatsächlich verwendete das zuvor von der Stanford University veröffentlichte Alpaca-Modell die LLaMA-Daten basierend auf dem GPT-Modell von OpenAI. Experimentelle Ergebnisse mit Feinabstimmung haben gezeigt, dass die richtigen Daten kleinere Open-Source-Modelle deutlich verbessern können.
Dies ist auch die ursprüngliche Absicht der Berkeley-Forscher, das Koala-Modell zu entwickeln und zu veröffentlichen, in der Hoffnung, einen weiteren experimentellen Beweis für die Ergebnisse dieser Diskussion zu liefern.
Koala optimiert kostenlose Interaktionsdaten aus dem Internet und legt besonderen Wert auf die Einbeziehung von Daten, die mit leistungsstarken Closed-Source-Modellen wie ChatGPT interagieren.
Anstatt so viele Webdaten wie möglich zu crawlen, um das Datenvolumen zu maximieren, konzentrierten sich die Forscher auf die Sammlung eines kleinen hochwertigen Datensatzes, einschließlich ChatGPT-destillierter Open-Source-Daten Daten usw. Nebuly verfügt über ChatLLaMA als Open-Source-Lösung, ein Framework, mit dem wir Gesprächsassistenten mithilfe unserer eigenen Daten erstellen können.
Vorausgesetzt, dass wir uns in Zukunft nicht mehr auf einen großen Assistenten verlassen, der „alle regiert“, kann jeder seine eigene personalisierte Version des ChatGPT-Assistenten erstellen, und sie kann verschiedene menschliche Bedürfnisse unterstützen.
Die Erstellung eines solchen personalisierten Assistenten erfordert jedoch Anstrengungen an vielen Fronten: Erstellung von Datensätzen, effizientes Training mit RLHF und Inferenzoptimierung.
Der Zweck dieser Bibliothek besteht darin, Entwicklern Sicherheit zu geben, indem sie die Arbeit abstrahiert, die zum Optimieren und Sammeln großer Datenmengen erforderlich ist.
ChatLLaMA wurde entwickelt, um Entwicklern bei der Bewältigung einer Vielzahl von Anwendungsfällen zu helfen, die alle mit RLHF-Training und optimierter Inferenz zusammenhängen. Hier sind einige Referenzen zu Anwendungsfällen:
Erstellen Sie einen ChatGPT-ähnlichen personalisierten Assistenten für branchenspezifische Aufgaben (Recht, Medizin, Spiele, akademische Forschung usw.). );# 🎜🎜#
Sie möchten begrenzte Daten zur lokalen Hardware-Infrastruktur nutzen, um einen effizienten ChatGPT-ähnlichen Assistenten zu trainieren; 🎜#Ich möchte meine eigene personalisierte Version des ChatGPT-Assistenten erstellen und gleichzeitig außer Kontrolle geratene Kosten vermeiden;
FreedomGPT basiert auf Alpaka. FreedomGPT nutzt die charakteristischen Merkmale von Alpaca, da Alpaca relativ einfacher zugänglich und anpassbar ist als andere Modelle.
ChatGPT folgt den Nutzungsrichtlinien von OpenAI und schränkt Hass, Selbstverletzung, Drohungen, Gewalt und sexuelle Inhalte ein.
Im Gegensatz zu ChatGPT beantwortet FreedomGPT Fragen ohne Voreingenommenheit oder Bevorzugung und zögert nicht, kontroverse oder kontroverse Themen zu beantworten.
FreedomGPT antwortete sogar „Wie man zu Hause eine Bombe baut“, was OpenAI ausdrücklich aus GPT-4 entfernt hat.
FreedomGPT ist einzigartig, weil es Zensurbeschränkungen überwindet und kontroverse Themen ohne Garantien behandelt. Ihr Symbol ist die Freiheitsstatue, denn dieses einzigartige und kühne große Sprachmodell symbolisiert Freiheit.
FreedomGPT kann sogar lokal auf Ihrem Computer ausgeführt werden, ohne dass eine Internetverbindung erforderlich ist.
Darüber hinaus wird in Kürze eine Open-Source-Version veröffentlicht, die es Benutzern und Organisationen ermöglicht, sie vollständig anzupassen.
ColossalChat, vorgeschlagen von UC Berkeley, benötigt nur weniger als 10 Milliarden Parameter, um zweisprachige Funktionen in Chinesisch und Englisch zu erreichen, und der Effekt entspricht ChatGPT und GPT-3.5.
Darüber hinaus reproduziert ColossalChat, basierend auf dem LLaMA-Modell, auch den vollständigen RLHF-Prozess, der derzeit das Open-Source-Projekt ist, das der ursprünglichen technischen Route von ChatGPT am nächsten kommt.
ColossalChat hat einen zweisprachigen Datensatz veröffentlicht, der etwa 100.000 chinesische und englische Frage-Antwort-Paare enthält.
Dieser Datensatz wird aus echten Problemszenarien auf Social-Media-Plattformen gesammelt und als Seed-Datensatz bereinigt, mithilfe von Self-Instruct erweitert. Die Annotationskosten betragen etwa 900 US-Dollar.
Im Vergleich zu Datensätzen, die mit anderen Selbstlernmethoden generiert wurden, enthält dieser Datensatz realistischere und vielfältigere Startdaten, die ein breiteres Themenspektrum abdecken.
Dieser Datensatz eignet sich zur Feinabstimmung und zum RLHF-Training. ColossalChat kann bei der Bereitstellung hochwertiger Daten eine bessere Konversationsinteraktion erreichen und unterstützt auch Chinesisch.
Vollständige RLHF-Pipeline
Es gibt drei Stufen für die Algorithmusreplikation von RLHF:
In RLHF-Stufe1 wird der obige zweisprachige Datensatz für die Feinabstimmung überwachter Anweisungen verwendet das Modell.
In RLHF-Stage2 wird das Belohnungsmodell trainiert, indem verschiedene Ausgaben derselben Eingabeaufforderung manuell in eine Rangfolge gebracht werden, um entsprechende Bewertungen zuzuweisen, und dann das Training des Belohnungsmodells überwacht wird.
In RLHF-Stage3 wird der Reinforcement-Learning-Algorithmus verwendet, der den komplexesten Teil des Trainingsprozesses darstellt.
Ich glaube, dass bald weitere Projekte veröffentlicht werden.
Niemand hätte erwartet, dass dieser unerwartete Leak von LLaMA tatsächlich den größten Innovationsfunken im Bereich Open-Source-LLM entfachen würde.
Das obige ist der detaillierte Inhalt vonDie Entwickler lachen verrückt! Das schockierende Leck von LLaMa löste einen Aufruhr bei der Ersetzung von ChatGPT aus, und der Open-Source-LLM-Bereich veränderte sich.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!