Da groß angelegte Sprachmodelle immer leistungsfähiger werden, stellen die Menschen höhere ethische Anforderungen an KI-Modelle. Die Industrie verfügt im Hinblick auf die Erweiterung des Modellmaßstabs über den Vorteil von Rechenressourcen, aber um das Modell standardisierter und zuverlässiger zu machen, sind die Anstrengungen der akademischen Gemeinschaft erforderlich.
Kürzlich hat Stanford ein neues Modell Alpaka basierend auf Metas LLaMA 7B-Modell verfeinert. In dieser Studie wurde das text-davinci-003-Modell von OpenAI verwendet, um 52.000 Muster zur Befolgung von Anweisungen als Trainingsdaten für Alpaca selbst zu generieren. Das Forschungsteam hat die Trainingsdaten, den Code zur Generierung der Trainingsdaten und die Hyperparameter als Open Source bereitgestellt und wird die Modellgewichte und den Trainingscode in Zukunft veröffentlichen.
Experimentelle Ergebnisse zeigen, dass viele Verhaltensweisen von Alpakas text-davinci-003 ähneln. Mit anderen Worten: Die Leistung von Alpaca, einem leichten Modell mit nur 7B-Parametern, ist vergleichbar mit sehr großen Sprachmodellen wie GPT-3.5.
Mal sehen, wie das Alpaka-Modell das macht.
Das Training hochwertiger Modelle zur Anweisungsbefolgung im Rahmen der Budgetbeschränkungen der Wissenschaft steht vor zwei wichtigen Herausforderungen: leistungsstarke vorab trainierte Sprachmodelle und hochwertige Daten zur Anweisungsbefolgung.
Metas kürzlich veröffentlichte LLaMA-Modellreihe stellt sich der ersten Herausforderung. Für die zweite Herausforderung schlägt das Self-Instruct-Papier Ende 2022 vor, bestehende leistungsstarke Sprachmodelle zu nutzen, um Unterrichtsdaten automatisch zu generieren.
Papieradresse: https://arxiv.org/abs/2212.10560
Nach diesem Ansatz verwendet Alpaca überwachtes Lernen des LLaMA 7B-Modells in ci-003 Die 52K-Anweisungen, die auf selbstinstruktive Weise generiert werden, werden auf der Grundlage der Beispiele feinabgestimmt.
Übersicht über die Selbstlernmethode.
Das Forschungsteam von Alpaca verwendete zunächst 175 manuell geschriebene Anweisungs-Ausgabe-Paare im Selbstanweisungs-Seed-Set und nutzte dieses Seed-Set dann als kontextbezogene Beispielaufforderung text-davinci-003, um weitere Anweisungen zu generieren. Diese Forschung verbessert die Selbstanweisungsmethode durch Vereinfachung der Build-Pipeline und senkt die Kosten erheblich.
Die Studie generierte insgesamt 52.000 verschiedene Anweisungen und entsprechende Ausgaben als Trainingsdaten unter Verwendung der offenen API von OpenAI zu einem Preis von weniger als 500 US-Dollar. Da das Forschungsteam die Trainingsdaten als Open Source bereitgestellt hat, können Entwickler, die Alpaca reproduzieren möchten, 500 US-Dollar sparen.
Mit diesem anweisungenfolgenden Datensatz bestand der nächste Schritt der Forschung darin, das LLaMA-Modell mithilfe des Trainingsframeworks von Hugging Face zu verfeinern und dabei Techniken wie FSDP (Fully Sharded Data Parallel) und gemischte Präzision zu nutzen Ausbildung. Aus Kostengründen dauert die Feinabstimmung eines 7B-LLaMA-Modells auf acht 80-GB-A100-Geräten drei Stunden, was für die meisten Cloud-Anbieter weniger als 100 US-Dollar kostet.
Die Studie wurde manuell anhand von Eingaben aus einem Selbstanweisungsbewertungssatz bewertet, der von 5 Studenten des Forschungsteams durchgeführt wurde. Der Bewertungssatz wurde von den Autoren des Selbstlernpapiers zusammengestellt und umfasst eine Vielzahl benutzerorientierter Anleitungen für E-Mail, soziale Medien und Office-Tools.
Nach einem blinden paarweisen Vergleich von text-davinci-003 und Alpaca 7B stellten die Forscher fest, dass die Leistung der beiden Modelle sehr ähnlich ist und Alpaca etwas besser als text-davinci-003 ist.
Aus Sicht der Parameterskala ist Alpaca viel kleiner als text-davinci-003, und auf dem mobilen Endgerät kann sogar ein 7B-Lightweight-Sprachmodell ausgeführt werden. Das macht Alpaka von Bedeutung.
Zusätzlich zur Verwendung des oben erwähnten statischen Self-Instruct-Bewertungssatzes führte diese Studie auch interaktive Tests am Alpaca-Modell durch und stellte fest, dass Alpaca im Allgemeinen eine ähnliche Leistung wie text-davinci-003 erbrachte.
Nachfolgend sind zwei vom Forschungsteam getestete Beispiele aufgeführt. Die Ergebnisse zeigen, dass die Leistung von Alpaca gut ist und den allgemeinen Stil des Datensatzes widerspiegelt. Beispielsweise gibt Alpaca häufig prägnantere Antworten aus als ChatGPT, ähnlich wie text-davinci-003.
Im Experiment zeigte Alpaka auch mehrere häufige Defekte von Sprachmodellen, darunter Halluzination, Toxizität und Stereotypen, wobei das Halluzinationsproblem besonders schwerwiegend ist.
Auf dem Bild unten antwortete Alpaka beispielsweise, dass die Hauptstadt Tansanias Dar es Salaam sei, eigentlich aber Dodoma heißen müsste.
Darüber hinaus ist Alpaca in der Lage, einige Texte zu generieren, die zwar gut erscheinen, aber Fehler oder falsche Informationen enthalten, die Menschen irreführen können.
Alpaca kann viele andere Fehler im Zusammenhang mit dem zugrunde liegenden Sprachmodell und den Daten zur Befehlsoptimierung enthalten. Alpaca bleibt jedoch für die Community des maschinellen Lernens wichtig, da es ein relativ leichtes Modell bietet, das als Grundlage für die Untersuchung wichtiger Fehler dienen kann. Das Stanford-Forschungsteam betonte außerdem, dass Alpaka nur für akademische Forschung verwendet werden dürfe und jegliche kommerzielle Nutzung verboten sei.
Als nächstes wird das Stanford-Forschungsteam die Sicherheit, das Verständnisvermögen, die Skalenerweiterung usw. des Alpaka-Modells weiter untersuchen. Das Forschungsteam hofft, dass Alpaka die Entwicklung von Modellen zur Befolgung von Anweisungen erleichtern wird.
Das obige ist der detaillierte Inhalt vonDas 7-Milliarden-Parameter-Open-Source-Modell von Stanford ist mit GPT-3.5 vergleichbar und kann für 100 US-Dollar reproduziert werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!