Ant Group veröffentlicht neuen Algorithmus, der die Inferenz großer Modelle um das Zwei- bis Sechsfache beschleunigen kann

王林
Freigeben: 2024-01-17 21:33:05
nach vorne
780 Leute haben es durchsucht

Kürzlich hat die Ant Group eine Reihe neuer Algorithmen als Open-Source-Lösung bereitgestellt, die großen Modellen helfen können, die Inferenz um das Zwei- bis Sechsfache zu beschleunigen, was in der Branche für Aufmerksamkeit gesorgt hat.

Ant Group veröffentlicht neuen Algorithmus, der die Inferenz großer Modelle um das Zwei- bis Sechsfache beschleunigen kann

Bild: Die Beschleunigungsleistung des neuen Algorithmus auf verschiedenen großen Open-Source-Modellen.

Dieser neue Algorithmus heißt „Lookahead Inference Acceleration Framework“ und ist verlustfrei und Plug-and-Play. Dieser Algorithmus wurde in einer großen Anzahl von Ameisenszenen implementiert, wodurch die zeitaufwändige Inferenz erheblich reduziert wird. Am Beispiel des Llama2-7B-Chat-Modells und des Dolly-Datensatzes führten wir tatsächliche Messungen durch und stellten fest, dass die Geschwindigkeit der Token-Generierung von 48,2/Sekunde auf 112,9/Sekunde anstieg, was einer Geschwindigkeitssteigerung um das 2,34-fache entspricht. Im internen RAG-Datensatz (Retrieval Enhanced Generation) von Ant erreichte das Beschleunigungsverhältnis der 10B-Version des Bailing-Großmodells AntGLM 5,36. Gleichzeitig ist der Anstieg des Videospeichers und des Speicherverbrauchs nahezu vernachlässigbar.

Aktuelle Großmodelle basieren in der Regel auf autoregressiver Dekodierung und generieren jeweils nur einen Token. Diese Methode verschwendet nicht nur die parallele Verarbeitungsleistung der GPU, sondern führt auch zu übermäßigen Verzögerungen bei der Benutzererfahrung, was sich negativ auf die Laufruhe auswirkt. Um dieses Problem zu beheben, können Sie versuchen, mithilfe der parallelen Dekodierung mehrere Token gleichzeitig zu generieren und so die Effizienz und das Benutzererlebnis zu verbessern.

Zum Beispiel kann der ursprüngliche Token-Generierungsprozess mit der frühen chinesischen Eingabemethode verglichen werden. Benutzer müssen Wort für Wort auf die Tastatur tippen, um Text einzugeben. Nach der Übernahme des Beschleunigungsalgorithmus von Ant ähnelt der Token-Generierungsprozess jedoch der modernen Lenovo-Eingabemethode, und der gesamte Satz kann direkt über die Lenovo-Funktion angezeigt werden. Solche Verbesserungen verbessern die Eingabegeschwindigkeit und Effizienz erheblich.

Einige Optimierungsalgorithmen sind bereits in der Branche aufgetaucht und konzentrieren sich hauptsächlich auf Methoden zur Generierung qualitativ besserer Entwürfe (d. h. Erraten und Generieren von Token-Sequenzen). In der Praxis hat sich jedoch gezeigt, dass die Effizienz der End-to-End-Argumentation nicht mehr verbessert werden kann, sobald die Länge des Entwurfs 30 Token überschreitet. Offensichtlich nutzt diese Länge die Rechenleistung der GPU nicht vollständig aus.

Um die Hardwareleistung weiter zu verbessern, verwendet der Ant Lookahead-Inferenzbeschleunigungsalgorithmus eine Multi-Branch-Strategie. Dies bedeutet, dass die Entwurfssequenz nicht mehr nur einen Zweig hat, sondern mehrere parallele Zweige enthält, die gleichzeitig überprüft werden können. Auf diese Weise kann die Anzahl der von einem Weiterleitungsprozess generierten Token erhöht werden, während der Zeitverbrauch des Weiterleitungsprozesses grundsätzlich unverändert bleibt.

Der Ant Lookahead-Inferenzbeschleunigungsalgorithmus verbessert die Recheneffizienz weiter, indem er Trie-Bäume zum Speichern und Abrufen von Token-Sequenzen verwendet und dieselben übergeordneten Knoten in mehreren Entwürfen zusammenführt. Um die Benutzerfreundlichkeit zu verbessern, ist die Trie-Tree-Konstruktion dieses Algorithmus nicht auf zusätzliche Entwurfsmodelle angewiesen, sondern verwendet nur Eingabeaufforderungen und generierte Antworten während des Argumentationsprozesses für die dynamische Konstruktion, wodurch die Zugriffskosten des Benutzers gesenkt werden.

Der Algorithmus ist jetzt Open Source auf GitHub (

https://www.php.cn/link/51200d29d1fc15f5a71c1dab4bb54f7c

) und verwandte Artikel sind in ARXIV veröffentlicht. (https://www.php.cn/link/24a29a235c0678859695b10896 51 3b3d) . Öffentliche Informationen zeigen, dass die Ant Group weiterhin in künstliche Intelligenz auf der Grundlage umfangreicher Geschäftsszenarioanforderungen investiert und technische Bereiche wie große Modelle, Wissensdiagramme, Betriebsoptimierung, Diagrammlernen und vertrauenswürdige KI entwickelt hat.

Das obige ist der detaillierte Inhalt vonAnt Group veröffentlicht neuen Algorithmus, der die Inferenz großer Modelle um das Zwei- bis Sechsfache beschleunigen kann. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage