70B-Modell, 1000 Token können in Sekunden generiert werden, was fast 4000 Zeichen entspricht!
Forscher haben Llama3 verfeinert und einen Beschleunigungsalgorithmus eingeführt. Im Vergleich zur nativen Version ist die Geschwindigkeit 13-mal schneller!
Es ist nicht nur schnell, seine Leistung bei Code-Rewriting-Aufgaben übertrifft sogar GPT-4o.
Dieser Erfolg kommt von anysphere, dem Team hinter dem beliebten KI-Programmierartefakt Cursor, und OpenAI beteiligte sich ebenfalls an der Investition.
Sie müssen wissen, dass auf Groq, einem bekannten Framework zur schnellen Inferenzbeschleunigung, die Inferenzgeschwindigkeit von 70B Llama3 nur mehr als 300 Token pro Sekunde beträgt. Man kann sagen, dass die Geschwindigkeit von Cursor eine nahezu sofortige vollständige Bearbeitung der Codedatei ermöglicht.
Einige Leute haben mich gefragt, ob Sie Zehntausende Token pro Sekunde generieren können, wenn Sie von Cursor modifiziertes Llama3 auf Groq setzen.
Einige Leute sind sogar noch aufgeregter, wenn sie sagen, dass wir im Bereich der großen Modelle das Konzept der „Verzögerung“ abschaffen.
Einführung eines neuen Inferenzbeschleunigungsalgorithmus
Das erste, was zu beachten ist, ist, dass der endgültige Effekt der Aufgabe zwar eine teilweise Änderung des Codes ist, die Ausgabe während des tatsächlichen Vorgangs jedoch nicht nur der geänderte Inhalt ist, sondern
direktes globales Umschreiben. Der Grund dafür ist eine vom Team nach Vortests getroffene Entscheidung – es stellte fest, dass mit Ausnahme von Claude-3-Opus die meisten Modelle bei der tatsächlichen lokalen Modifikationsaufgabe keine zufriedenstellende Leistung erbrachten.
Dafür gibt es drei Hauptgründe:
Erstens werden beim direkten Umschreiben mehr Token ausgegeben, wodurch mehr Vorwärtsdurchgänge zur Ermittlung der richtigen Lösung möglich sind.
Nachdem das Cursor-Team die Lösung für das globale Umschreiben ermittelt hatte, verwendete es aufgabenbezogene Daten, um Llama3 zu optimieren.
Die verwendeten Daten stammen aus zwei Quellen: echte aufbereitete Daten und synthetische Daten, die im Verhältnis 1:4 gemischt werden.
Synthetische Daten beziehen sich auf die Verwendung von GPT-4 zum Generieren von Codebearbeitungsvorschlägen und die anschließende Verwendung anderer Modelle, um diese Vorschläge auf den Originalcode „anzuwenden“.
Um die Qualität des Datensatzes zu verbessern, hat der Autor auch kleine Dateien, doppelte Dateien und unveränderte Proben heruntergerechnet.
Um die Leistung dieser Modelle zu bewerten, führten die Autoren sie durch 450 Codebearbeitungsaufgaben (jede mit nicht mehr als 400 Zeilen) und bewerteten die Ausgabe mit Claude3-Opus.
Am Ende erreichte das vom Autor verfeinerte Modell 70B Llama3 in der Leistung fast die Leistung von Claude3-Opus-diff und war besser als GPT-4-Turbo und GPT-4o.
Die bisherige Feinabstimmung hat das Leistungsproblem gelöst, aber es ist nicht schwer zu erkennen, dass Llama3 derzeit immer noch sehr langsam ist und nur weniger als 300 Zeichen pro Sekunde ausgeben kann
(beachten Sie, dass dies der Fall ist). Zeichen, keine Wörter oder Token). Und was dafür sorgt, dass das Umschreiben so schnell funktioniert, ist eine weitere Geheimwaffe.
Für die Code-Umschreibungsaufgabe hat das Cursor-Team speziell einen Algorithmus namens
Predictive Editing (spekulative Bearbeitungen) eingeführt. Diese Methode verwendet einen A-priori-Algorithmus, um mehrere aufeinanderfolgende Token vorherzusagen, und verwendet dann ein großes Ontologiemodell zur Verifizierung, wodurch die Anzahl der Aufrufe des großen Modells und damit die Anzahl der Berechnungen verringert wird.
Dieser A-priori-Algorithmus stammt aus einer Funktion der Codierungsaufgabe – im Vergleich zu anderen Texten ist sein Vokabular kleiner und seine grammatikalische Struktur, Einrückungsregeln usw. weisen eine höhere Sicherheit auf. Durch die Verwendung von A-priori-Wissen können zukünftige Token genauer vorhergesagt werden.
Dieser Ansatz hat auch etwas mit GPT-4 und Meta gemeinsam –
Der Grund, warum das Denken traditioneller Sprachmodelle langsam ist, liegt hauptsächlich darin, dass der Prozess der Vorhersage des nächsten Tokens normalerweise autoregressiv ist, das heißt, das Modell generiert Für jeden Token werden alle zuvor generierten Token berücksichtigt.
Um die Anzahl der Berechnungen zu reduzieren, verwenden große Modelle, die durch GPT-4 dargestellt werden, einen Beschleunigungsalgorithmus namens Predictive Decoding (spekulative Decodierung), um im Voraus ein kleines Näherungsmodell vorherzusagen und dann die Ontologie einem großen Modell zu überlassen Überprüfen Sie die Vorhersageergebnisse.
Der Unterschied zwischen Cursor und GPT-4 besteht darin, dass das kleine „Modell“ des ersteren ein deterministischerer Algorithmus ist, während das letztere nur die Größe des Modells reduziert und im Wesentlichen immer noch eine probabilistische Vorhersage darstellt.
Meta hat einen Algorithmus zur gleichzeitigen Vorhersage mehrerer nachfolgender Token eingeführt, der n unabhängige Ausgabeköpfe verwendet, um n zukünftige Token parallel vorherzusagen. Es stellt sich heraus, dass bei Programmieraufgaben besonders gut funktioniert, weil die logische Struktur der Programmierung Die Sprache ist strenger und die innere Verbindung des Wissens ist enger.
Natürlich nutzt Cursor diese Funktion voll aus, anstatt Aufmerksamkeitsköpfe zu verwenden, sondern direkt einen sichereren Algorithmus, um Multi-Token-Vorhersagen zu treffen.
Das Endergebnis ist, dass der Vorhersagealgorithmus dem 70B Llama3 eine fast 13-fache Geschwindigkeitssteigerung bringt, ohne dass es zu Einbußen bei der Auswertungsleistung kommt.
Darüber hinaus arbeitete der Autor auch mit der Infrastrukturplattform für Unternehmens-KI-Modelle fireworks.ai zusammen und nutzte deren optimierte Inferenz-Engine und angepasste Hardwareumgebung, um die Betriebseffizienz des Modells weiter zu verbessern.
In Zukunft plant das Team außerdem, eine Wissensdestillation durchzuführen und den prädiktiven Bearbeitungsalgorithmus auf den kleineren 8B Llama3 zu migrieren und ihn auf weitere Programmiersprachen und Aufgaben zu erweitern.
Gleichzeitig plant der Autor auch, den echten Teilmodifikationsalgorithmus (Diff) zu verbessern, den das Cursor-Team untersucht, aber nicht übernommen hat.
In dem Experiment beschleunigte der Autor nicht nur Llama3 mithilfe des Vorhersagealgorithmus, sondern auch GPT4-Turbo.
Der Autor stellte jedoch nicht vor, wie man es in GPT implementiert, sondern hinterließ einige Denkfragen und führte sogar eine „preisgekrönte Vermutung“ durch.
Wer richtig antworten kann, erhält eine einmonatige Cursor-Mitgliedschaft; wenn er die Vorhersagebeschleunigung in vllm und TensorRT-LLM erreichen kann, erhält er eine halbjährige bzw. einjährige Mitgliedschaft.
Wenn Sie das Gefühl haben, eine Idee zu haben, können Sie sich auch an der Herausforderung versuchen (manueller Hundekopf).
Das obige ist der detaillierte Inhalt vonDas 70B-Modell generiert 1.000 Token in Sekunden, das Umschreiben des Codes übertrifft GPT-4o, vom Cursor-Team, einem von OpenAI investierten Code-Artefakt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!