Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

王林
Freigeben: 2023-04-11 20:55:01
nach vorne
2721 Leute haben es durchsucht

Zuvor hat der Vorfall, dass OpenAI nicht geöffnet wurde, in der Öffentlichkeit für große Kontroversen gesorgt.

Benchmarks und Testergebnisse nur zu veröffentlichen, ohne Trainingsdaten, Kosten und Methoden bereitzustellen, ist wirklich eine „Winner-takes-all“-Situation.

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

Angesichts der Tatsache, dass große Sprachmodelle scheinbar von riesigen Unternehmen monopolisiert werden, tauchte plötzlich ein Start-up-Unternehmen auf und gab OpenAI eine Chance – indem es „Dolly“ mit 6 Milliarden Parametern verwendete, um ähnliche Fähigkeiten wie ChatGPT zu erreichen.

Das ist richtig, jetzt müssen wir nur noch einige hochwertige Trainingsdaten vorbereiten und dann nach dem Zufallsprinzip ein großes Open-Source-Sprachmodell auswählen. Nach 30 Minuten Training können wir einen ChatGPT-„Ersatz“ erhalten!

In diesem Zusammenhang erklärte Databricks stolz, dass die Veröffentlichung von Dolly der erste Schritt auf dem Weg zur Demokratisierung der Technologie der künstlichen Intelligenz sei.

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

6 Milliarden Parameter sind mit ChatGPT vergleichbar und können in 30 Minuten trainiert werden

Da ChatGPT viele Daten und Rechenressourcen verbraucht (Training mit Billionen Wörtern verbraucht viel GPU), ist diese Art von Große Sprachmodelle sind dazu bestimmt, nur von wenigen Giganten beherrscht zu werden.

Im Gegensatz zu „CloseAI“ hat Meta im März dieses Jahres eine Reihe hochwertiger (aber nicht anweisungenfolgender) Sprachmodelle LLaMA für die akademische Gemeinschaft veröffentlicht, wobei die Trainingszeit jedes Modells 80.000 GPU-Stunden übersteigt.

Die Stanford University baute dann Alpaca auf der Grundlage von LLaMA auf, der Unterschied bestand jedoch darin, dass es mithilfe eines kleinen Datensatzes von 50.000 Fragen und Antworten verfeinert wurde. Überraschenderweise bietet dies Alpaca eine ähnliche Interaktivität wie ChatGPT.

Und Dolly wurde von Alpaka inspiriert.

Was noch interessanter ist, ist, dass Dolly, das über 6 Milliarden Parameter verfügt, nicht das neueste Modell verwendet, sondern sich für ein Open-Source-Modell entschieden hat, das 2021 veröffentlicht wurde – GPT-J.

Da Dolly selbst ein „Klon“ eines Modells ist, beschloss das Team schließlich, es „Dolly“ zu nennen – das erste geklonte Tier in der Geschichte.

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

Im Vergleich zu aktuellen großen Sprachmodellen (wie GPT-3) ermöglicht Dolly Benutzern die Verwendung kleinerer und professionellerer Modelle, um die Funktionen von ChatGPT zu „replizieren“.

Denn für diese Nischenanwender kann die Möglichkeit, die Vorteile von Modellen zu nutzen, die genau auf ihre Branche abgestimmt wurden, die Leistung und Genauigkeit erheblich steigern.

Obwohl Databricks nicht direkt mit OpenAI konkurriert, scheint es zu versuchen, OpenAI den Wind aus den Segeln zu nehmen, indem es beweist, dass der Aufbau eines Dienstes wie ChatGPT nicht so schwierig ist, wie es scheint.

Insbesondere OpenAI verfolgt bei der Entwicklung von Sprachmodellen den Ansatz „je größer, desto besser“ und ist bei seiner Arbeit immer geheimnisvoller geworden.

Neben der Veröffentlichung von Dolly als Open-Source-Software betonte Databricks auch, dass Dolly nur 6 Milliarden Parameter hat (der Teil des Sprachmodells, der während des Trainings verfeinert wird), während das GPT-3-Modell von OpenAI 175 Milliarden Parameter hat . (OpenAI hat die Anzahl der Parameter für GPT-4 nicht bekannt gegeben).

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

Lassen Sie das alte Modell wiedergeboren werden

Basierend auf der im InstructGPT-Papier beschriebenen Fähigkeit zur Anweisungsfolge wurde Dolly bewertet und festgestellt, dass seine Leistung in vielen Fähigkeiten, einschließlich Textgenerierung und Brainstorming, der von ChatGPT sehr ähnlich ist offene Fragen und Antworten.

Bemerkenswert an diesen Beispielen ist nicht die Qualität des generierten Textes, sondern die enorme Verbesserung der Fähigkeit, Anweisungen zu befolgen, die durch die Feinabstimmung eines alten Open-Source-Modells anhand eines kleinen hochwertigen Datensatzes erzielt wird . .

Inhaltsgenerierung

Schreiben Sie beispielsweise einen Tweet, der von Databricks offizieller Ankündigung einer groß angelegten Sprache gepostet wurde Modell Dolly.

Es ist ersichtlich, dass der vom ursprünglichen 6-Milliarden-Parameter-Modell (GPT-J) generierte Inhalt völlig falsch ist, während Dolly einen völlig brauchbaren Tweet liefert - # 🎜🎜#

erfüllt nicht nur die Anforderungen, sondern fügt auch sorgfältig Tags und Links hinzu, um Sie daran zu erinnern, dem Beitrag beizutreten.

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

Für diese Frage entspricht die Antwort von ChatGPT auch den Erwartungen. Im Vergleich zu Dolly gibt ChatGPT Die erzeugten Tweets enthalten beschreibendere Wörter und Sätze und die Bezeichnungen sind präziser und spezifischer, aber der Gesamtunterschied ist nicht groß.

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

Wenn Sie eine Anzeige für den Verkauf einer Nikon D-750-Kamera schreiben möchten, sehen Sie das GPT-J Der generierte Inhalt ist im Grunde fabriziert, als würde man einen Roman schreiben und die Handlung über den Kauf und Verkauf von Kameras fabrizieren ...

Und Dolly basierte auf der Nikon D-750 Kamera Die Eigenschaften und Vorteile der Kamera boten einen attraktiven Slogan für den Wiederverkauf der Kamera, aber leider stimmten die Pixelparameter nicht.

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

ChatGPT hat die Aufgabe zu diesem Thema ebenfalls erfolgreich abgeschlossen Ende des Artikels Immer noch sorgfältig beschriftet. ​

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

Die letzte Frage: Schreiben Sie ein Buch an Edgar Allan Poe.

In dieser Hinsicht weigerte sich der alte GPT-J direkt, zu antworten. Der Grund war: Edgar Allan Poe ist verstorben und man kann keine Liebesbriefe schreiben zu den Toten.

Und Dolly hat die Aufgabe erfolgreich abgeschlossen, und der Effekt kann im Vergleich als „Nirvana“ bezeichnet werden.

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

Und diese Art von „kreativen“ Fragen ist offensichtlich die Stärke von ChatGPT, das mehr als 300 eloquent geschrieben hat Charakter.

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

Offene Fragen und Antworten

In sachlichen Fragen In Beim Frage-Antwort-Test entschied sich das Team für Folgendes: „Erklären Sie mir den Unterschied zwischen Kernspaltung und Kernfusion.“ - J spricht im gesamten Artikel über die Sonne. Obwohl das Wort „Fusion“ erwähnt wird, wird „Spaltung“ völlig ignoriert.

Und Dolly hat im ersten Satz direkt auf das Thema hingewiesen – der Unterschied zwischen Kernspaltung und Kernfusion liegt in der Art der Energiefreisetzung – und hat dann kurz deren Unterschiede erläutert .

Im Gegensatz dazu ist die Antwort von ChatGPT offensichtlich informativer.

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

Brainstorming

Als sie gebeten wurden, ein Brainstorming durchzuführen und eine Liste mit fünf Science-Fiction-Romanen zu erstellen, die sie lesen sollten, murmelte GPT-J nur vor sich hin, als wäre er in die Schuldgefühle versunken, das Lesen aufzuschieben die Frage.

Dolly zeigte eine so gleichmäßige Leistung wie immer und befolgte die Anweisungen, um die Titel von 5 Science-Fiction-Romanen und deren Autoren zu nennen.

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

ChatGPT gibt eine ausführlichere Antwort auf diese Frage, einschließlich nicht nur des Buchtitels und des Autors, sondern auch einer kurzen Rezension und Einführung des Inhalts und der Art jedes Buches.

Klonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5

Wenn Sie schließen möchten, öffne ich

Viele Unternehmen möchten lieber selbst ein weniger leistungsfähiges Modell erstellen, als Daten an große Anbieter von Sprachmodellen zu senden, die nur APIs bereitstellen.

Einer der wichtigen Gründe ist, dass diese Fragen und Datensätze das sensibelste und geschützteste geistige Eigentum des Unternehmens sind und es offensichtlich unzuverlässig ist, sie direkt an Dritte weiterzugeben.

Darüber hinaus müssen Unternehmen selbst möglicherweise unterschiedliche Kompromisse in Bezug auf Modellqualität, Kosten und gewünschtes Verhalten eingehen, und ein anpassbares Sprachmodell entspricht eher ihren Bedürfnissen.

Jetzt gibt ihnen die Veröffentlichung von Dolly Hoffnung – selbst einem „veralteten“ Open-Source-LLM (Large Language Model) können durch 30-minütiges Training magische Befehlsfolgefähigkeiten ähnlich wie ChatGPT verliehen werden.

Es ist nicht schwer vorstellbar, dass große Sprachmodelle bald nicht mehr nur den KI-Giganten vorbehalten sein werden!

Wie der CEO des Unternehmens, Ali Ghodsi, sagte: „Wir sind davon überzeugt, dass jedes Unternehmen auf der Welt von diesen Technologien profitieren kann.“

Das obige ist der detaillierte Inhalt vonKlonen Sie ChatGPT ohne Schwellenwert! Nach 30 Minuten Training ist die Leistung von 6 Milliarden Parametern vergleichbar mit GPT-3.5. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage