Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.

WBOY
Freigeben: 2023-09-08 11:25:08
nach vorne
684 Leute haben es durchsucht

Sobald Code Llama herauskam, erwarteten alle, dass jemand das quantitative Abnehmen fortsetzt.

Wie erwartet war es Georgi Gerganov, der Autor von llama.cpp, der Maßnahmen ergriff, aber dieses Mal tat er es Befolgen Sie die Routine nicht:

Nicht weiter Quantisiert, der 34B-Code von Code LLama kann auf Apple-Computern sogar mit FP16-Präzision ausgeführt werden, und die Inferenzgeschwindigkeit übersteigt 20 Token pro Sekunde

Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.Bilder

Verwenden Sie jetzt einfach eine Bandbreite von 800 GB/s M2 Ultra kann Aufgaben erledigen, für die ursprünglich 4 High-End-GPUs erforderlich waren, und die Geschwindigkeit beim Schreiben von Code ist ebenfalls sehr hoch. Der alte Mann hat dann das Geheimnis gelüftet. Die Antwort ist sehr einfach: spekulatives Sampling/Dekodierung Bilder

erregten die Aufmerksamkeit vieler Branchenriesen

Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.OpenAI-Gründungsmitglied Andrej Karpathy kommentierte, dass dies eine sehr hervorragende Inferenzzeitoptimierung sei und gab weitere technische Erklärungen. Fan Linxi, ein Nvidia-Wissenschaftler, glaubt auch, dass dies eine Technik ist, mit der jeder, der an großen Modellen arbeitet, vertraut sein sollte Es ist nicht auf diejenigen beschränkt, die große Modelle lokal ausführen, sondern auch Supergiganten wie Google und OpenAI nutzen diese Technologie leisten, so viel Geld zu verbrennen.

Bilder

Die neuesten Nachrichten deuten darauf hin, dass wahrscheinlich das von Google DeepMind gemeinsam entwickelte Großmodell Gemini der nächsten Generation zum Einsatz kommen wird.

Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.Obwohl die spezifische Methode von OpenAI vertraulich ist, hat das Google-Team ein entsprechendes Papier veröffentlicht und das Papier wurde für den mündlichen Bericht des ICML 2023 ausgewählt

Bilder

Die Methode ist einfach: Trainieren Sie zunächst ein Modell dafür ist dem großen Modell ähnlich und billiger. Lassen Sie beim kleinen Modell zuerst das kleine Modell K-Token generieren und dann das große Modell die Beurteilung vornehmen.

Das große Modell kann die akzeptierten Teile direkt verwenden und die nicht akzeptierten Teile durch das große Modell ändern.

Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.In der ursprünglichen Forschung wurde das T5-XXL-Modell zur Demonstration verwendet, und während die generierten Ergebnisse unverändert blieben, wurde das

Bild

Andjrey Karpathy vergleicht diese Methode damit, „das kleine Modell zuerst entwerfen zu lassen“.

Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.Er erklärte, dass der Schlüssel zur Wirksamkeit dieser Methode darin besteht, dass bei der Eingabe eines großen Modells in einen Token und einen Stapel von Token die Zeit, die zur Vorhersage des nächsten Tokens erforderlich ist, nahezu gleich istJeder Token hängt vom vorherigen ab Token, daher ist es unter normalen Umständen unmöglich, mehrere Token gleichzeitig abzutasten.

Obwohl das kleine Modell über geringe Fähigkeiten verfügt, sind viele Teile bei der tatsächlichen Generierung eines Satzes sehr einfach, und das kleine Modell kann die Aufgabe auch erfüllen. Lassen Sie das große Modell nur bei schwierigen Stellen einfach einsteigen.

Das Originalpapier weist darauf hin, dass bestehende ausgereifte Modelle direkt beschleunigt werden können, ohne ihre Struktur zu ändern oder neu zu trainieren.

Ein mathematisches Argument dafür, dass die Genauigkeit nicht verringert wird, wird auch im Anhang des Papiers angegeben.

Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.Bilder

Da wir nun das Prinzip verstanden haben, schauen wir uns dieses Mal die spezifischen Einstellungen von Georgi Gerganov an.

Er verwendet ein 4-Bit-quantisiertes 7B-Modell als „Entwurfs“-Modell, das etwa 80 Token pro Sekunde generieren kann.

Bei alleiniger Verwendung kann das 34B-Modell mit FP16-Präzision nur 10 Token pro Sekunde erzeugen

Nach Verwendung der spekulativen Abtastmethode haben wir einen 2-fachen Beschleunigungseffekt erhalten, der mit den Daten im Originalpapier übereinstimmt

Bild

Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet. Er gab außerdem an, dass die Geschwindigkeit je nach generiertem Inhalt variieren kann, aber bei der Codegenerierung sehr effektiv ist und das Entwurfsmodell die meisten Token richtig erraten kann.

Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.Bilder

Abschließend schlug er Meta auch vor, kleine Entwurfsmodelle direkt in die künftige Veröffentlichung von Modellen einzubeziehen, was von allen gut angenommen wurde.

Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.Bilder

Der Autor hat ein Unternehmen gegründet

Georgi Gerganov ist der Autor. Er hat im März dieses Jahres die erste Generation von LlaMA auf C++ portiert. Sein Open-Source-Projekt llama.cpp hat fast 40.000 Sterne erhalten

Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.Bilder

Er betrachtete dies zunächst nur als Nebenhobby, doch aufgrund der überwältigenden Resonanz kündigte er im Juni sein Startup

neue Firma ggml an. ai widmet sich der Ausführung von KI auf Edge-Geräten. Das Flaggschiffprodukt des Unternehmens ist das Framework für maschinelles Lernen in C-Sprache hinter llama.cpp Investition

Er war auch nach der Veröffentlichung von LlaMA2 sehr aktiv. Das Rücksichtsloseste war, ein großes Modell direkt in den Browser zu stopfen. Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.

Bilder

Bitte schauen Sie sich Googles spekulatives Stichprobenpapier an: https://arxiv.org/abs/2211.17192

Referenzlink: [1] https://x.com/ggerganov/status/1697262700165013689 [2 ]https://x.com/karpathy/status/1697318534555336961Der Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.

Das obige ist der detaillierte Inhalt vonDer Apple Core führt auch große Modelle aus, ohne die Berechnungsgenauigkeit zu beeinträchtigen. GPT-4 wird ebenfalls verwendet.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!