Heim > web3.0 > Tokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden

Tokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden

Patricia Arquette
Freigeben: 2024-11-04 00:36:14
Original
726 Leute haben es durchsucht

Transformer haben die künstliche Intelligenz verändert und bieten unübertroffene Leistung in den Bereichen NLP, Computer Vision und multimodale Datenintegration. Diese Modelle zeichnen sich durch die Erkennung von Mustern in Daten durch ihre Aufmerksamkeitsmechanismen aus und eignen sich daher ideal für komplexe Aufgaben. Allerdings muss die schnelle Skalierung von Transformatormodellen aufgrund des hohen Rechenaufwands, der mit ihrer traditionellen Struktur verbunden ist, verbessert werden.

Tokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden

Transformer haben die künstliche Intelligenz revolutioniert und bieten beispiellose Leistung in der Verarbeitung natürlicher Sprache (NLP), Computer Vision und multimodaler Datenintegration. Diese Modelle zeichnen sich durch die Erkennung von Mustern in Daten durch ihre Aufmerksamkeitsmechanismen aus und eignen sich daher ideal für komplexe Aufgaben. Allerdings muss die schnelle Skalierung von Transformatormodellen aufgrund des hohen Rechenaufwands, der mit ihrer traditionellen Struktur verbunden ist, verbessert werden. Wenn diese Modelle wachsen, erfordern sie erhebliche Hardwareressourcen und Schulungszeit, die exponentiell mit der Modellgröße ansteigen.

Das Haupthindernis bei der Skalierung von Transformatoren liegt in den festen Parametern innerhalb ihrer linearen Projektionsschichten. Diese statische Struktur begrenzt die Fähigkeit des Modells, sich zu erweitern, ohne dass es vollständig neu trainiert werden muss, was mit zunehmender Modellgröße exponentiell teurer wird. Diese traditionellen Modelle erfordern in der Regel eine umfassende Umschulung, wenn architektonische Änderungen vorgenommen werden, wie z. B. größere Kanalabmessungen.

Folglich steigt der Rechenaufwand für diese Erweiterungen unpraktisch hoch und dem Ansatz mangelt es an Flexibilität. Die Unfähigkeit, neue Parameter dynamisch hinzuzufügen, bremst das Wachstum, wodurch diese Modelle weniger an sich entwickelnde KI-Anwendungen angepasst werden können und teurer in Bezug auf Zeit und Ressourcen sind.

In der Vergangenheit umfassten Ansätze zur Verwaltung der Modellskalierbarkeit das Duplizieren von Gewichten oder das Umstrukturieren von Modellen mithilfe von Methoden wie Net2Net, bei denen duplizierende Neuronen Schichten erweitern. Allerdings stören diese Ansätze oft das Gleichgewicht vorab trainierter Modelle, was zu langsameren Konvergenzraten und zusätzlicher Trainingskomplexität führt.

Obwohl diese Methoden schrittweise Fortschritte gemacht haben, stoßen sie immer noch auf Einschränkungen bei der Wahrung der Modellintegrität während der Skalierung. Transformatoren basieren stark auf statischen linearen Projektionen, was die Parametererweiterung teuer und unflexibel macht. Herkömmliche Modelle wie GPT und andere große Transformatoren werden oft von Grund auf neu trainiert, was mit jeder neuen Skalierungsstufe hohe Rechenkosten verursacht.

Jetzt haben Forscher des Max-Planck-Instituts, von Google und der Peking-Universität eine neue Architektur namens Tokenformer entwickelt, die Transformatoren grundlegend neu konzipiert, indem sie Modellparameter als Token behandelt und so dynamische Interaktionen zwischen Token und Parametern ermöglicht.

In diesem Framework führt Tokenformer eine neuartige Komponente namens Token-Parameter-Aufmerksamkeitsschicht (Pattention) ein, die eine inkrementelle Skalierung erleichtert. Das Modell kann ohne erneutes Training neue Parameter-Tokens hinzufügen, wodurch die Trainingskosten drastisch gesenkt werden.

Durch die Darstellung von Eingabetokens und Parametern innerhalb desselben Frameworks ermöglicht Tokenformer eine flexible Skalierung und bietet Forschern eine effizientere, ressourcenschonendere Modellarchitektur, die Skalierbarkeit und hohe Leistung beibehält.

Die Pattention-Schicht von Tokenformer verwendet Eingabe-Tokens als Abfragen, während Modellparameter als Schlüssel und Werte dienen, was sich vom Standard-Transformer-Ansatz unterscheidet, der ausschließlich auf linearen Projektionen basiert.

Die Skalierung des Modells wird durch das Hinzufügen neuer Schlüssel-Wert-Parameterpaare erreicht, wobei die Eingabe- und Ausgabedimensionen konstant gehalten werden und eine vollständige Neuschulung vermieden wird. Die Architektur von Tokenformer ist modular aufgebaut, sodass Forscher das Modell nahtlos durch die Integration zusätzlicher Token erweitern können.

Diese inkrementelle Skalierungsfunktion unterstützt die effiziente Wiederverwendung vorab trainierter Gewichte und ermöglicht gleichzeitig eine schnelle Anpassung an neue Datensätze oder größere Modellgrößen, ohne erlernte Informationen zu beeinträchtigen.

Die Leistungsvorteile von Tokenformer sind bemerkenswert, da das Modell die Rechenkosten erheblich reduziert und gleichzeitig die Genauigkeit beibehält. Tokenformer beispielsweise skalierte von 124 Millionen auf 1,4 Milliarden Parameter mit nur der Hälfte der typischen Schulungskosten, die herkömmliche Transformatoren erfordern.

In einem Experiment erreichte das Modell eine Test-Perplexität von 11,77 für eine Konfiguration mit 1,4 Milliarden Parametern, was nahezu der 11,63-Perplexität eines von Grund auf trainierten Transformators ähnlicher Größe entspricht.

Diese Effizienz bedeutet, dass Tokenformer eine hohe Leistung über mehrere Domänen hinweg, einschließlich sprachlicher und visueller Modellierungsaufgaben, zu einem Bruchteil des Ressourcenaufwands herkömmlicher Modelle erzielen kann.

Tokenformer präsentiert zahlreiche wichtige Erkenntnisse zur Weiterentwicklung der KI-Forschung und zur Verbesserung transformatorbasierter Modelle. Dazu gehören:

Die Behandlung von Parametern als Token ermöglicht eine inkrementelle Modellskalierung ohne erneutes Training.

Die Token-Parameter-Aufmerksamkeitsschicht ermöglicht eine effiziente Parametererweiterung.

Die modulare Architektur unterstützt ein nahtloses Modellwachstum durch die Integration zusätzlicher Token.

Das Modell erreicht eine hohe Leistung in verschiedenen Domänen mit minimalem Ressourcenaufwand.

Zusammenfassend lässt sich sagen, dass Tokenformer einen transformativen Ansatz zur Skalierung transformatorbasierter Modelle bietet. Diese Modellarchitektur erreicht Skalierbarkeit und Ressourceneffizienz, indem Parameter als Token behandelt, Kosten gesenkt und die Modellleistung über alle Aufgaben hinweg erhalten bleibt.

Diese Flexibilität stellt einen Durchbruch im Transformatordesign dar und stellt ein Modell bereit, das sich ohne Umschulung an die Anforderungen fortschrittlicher KI-Anwendungen anpassen kann. Die Architektur von Tokenformer ist vielversprechend für die zukünftige KI-Forschung und bietet einen Weg zur nachhaltigen und effizienten Entwicklung groß angelegter Modelle.

Schauen Sie sich den Artikel, die GitHub-Seite und die Modelle auf HuggingFace an.

Der gesamte Dank für diese Forschung geht an die Forscher dieses Projekts. Vergessen Sie auch nicht, uns auf Twitter zu folgen und unserem Telegram-Kanal und unserer LinkedIn-Gruppe beizutreten. Wenn Ihnen unsere Arbeit gefällt, werden Sie unseren Newsletter lieben. Vergessen Sie nicht, unserem 55k ML SubReddit beizutreten.

[Sponsoring-Möglichkeit bei uns] Bewerben Sie Ihre Forschung/Ihr Produkt/Webinar mit 1 Million monatlichen Lesern und 500.000 Community-Mitgliedern

Das obige ist der detaillierte Inhalt vonTokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage