Heim web3.0 Tokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden

Tokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden

Nov 04, 2024 am 12:36 AM
Scaling Tokenformer Transformer Architecture Tokenized Parameters AI Applications

Transformer haben die künstliche Intelligenz verändert und bieten unübertroffene Leistung in den Bereichen NLP, Computer Vision und multimodale Datenintegration. Diese Modelle zeichnen sich durch die Erkennung von Mustern in Daten durch ihre Aufmerksamkeitsmechanismen aus und eignen sich daher ideal für komplexe Aufgaben. Allerdings muss die schnelle Skalierung von Transformatormodellen aufgrund des hohen Rechenaufwands, der mit ihrer traditionellen Struktur verbunden ist, verbessert werden.

Tokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden

Transformer haben die künstliche Intelligenz revolutioniert und bieten beispiellose Leistung in der Verarbeitung natürlicher Sprache (NLP), Computer Vision und multimodaler Datenintegration. Diese Modelle zeichnen sich durch die Erkennung von Mustern in Daten durch ihre Aufmerksamkeitsmechanismen aus und eignen sich daher ideal für komplexe Aufgaben. Allerdings muss die schnelle Skalierung von Transformatormodellen aufgrund des hohen Rechenaufwands, der mit ihrer traditionellen Struktur verbunden ist, verbessert werden. Wenn diese Modelle wachsen, erfordern sie erhebliche Hardwareressourcen und Schulungszeit, die exponentiell mit der Modellgröße ansteigen.

Das Haupthindernis bei der Skalierung von Transformatoren liegt in den festen Parametern innerhalb ihrer linearen Projektionsschichten. Diese statische Struktur begrenzt die Fähigkeit des Modells, sich zu erweitern, ohne dass es vollständig neu trainiert werden muss, was mit zunehmender Modellgröße exponentiell teurer wird. Diese traditionellen Modelle erfordern in der Regel eine umfassende Umschulung, wenn architektonische Änderungen vorgenommen werden, wie z. B. größere Kanalabmessungen.

Folglich steigt der Rechenaufwand für diese Erweiterungen unpraktisch hoch und dem Ansatz mangelt es an Flexibilität. Die Unfähigkeit, neue Parameter dynamisch hinzuzufügen, bremst das Wachstum, wodurch diese Modelle weniger an sich entwickelnde KI-Anwendungen angepasst werden können und teurer in Bezug auf Zeit und Ressourcen sind.

In der Vergangenheit umfassten Ansätze zur Verwaltung der Modellskalierbarkeit das Duplizieren von Gewichten oder das Umstrukturieren von Modellen mithilfe von Methoden wie Net2Net, bei denen duplizierende Neuronen Schichten erweitern. Allerdings stören diese Ansätze oft das Gleichgewicht vorab trainierter Modelle, was zu langsameren Konvergenzraten und zusätzlicher Trainingskomplexität führt.

Obwohl diese Methoden schrittweise Fortschritte gemacht haben, stoßen sie immer noch auf Einschränkungen bei der Wahrung der Modellintegrität während der Skalierung. Transformatoren basieren stark auf statischen linearen Projektionen, was die Parametererweiterung teuer und unflexibel macht. Herkömmliche Modelle wie GPT und andere große Transformatoren werden oft von Grund auf neu trainiert, was mit jeder neuen Skalierungsstufe hohe Rechenkosten verursacht.

Jetzt haben Forscher des Max-Planck-Instituts, von Google und der Peking-Universität eine neue Architektur namens Tokenformer entwickelt, die Transformatoren grundlegend neu konzipiert, indem sie Modellparameter als Token behandelt und so dynamische Interaktionen zwischen Token und Parametern ermöglicht.

In diesem Framework führt Tokenformer eine neuartige Komponente namens Token-Parameter-Aufmerksamkeitsschicht (Pattention) ein, die eine inkrementelle Skalierung erleichtert. Das Modell kann ohne erneutes Training neue Parameter-Tokens hinzufügen, wodurch die Trainingskosten drastisch gesenkt werden.

Durch die Darstellung von Eingabetokens und Parametern innerhalb desselben Frameworks ermöglicht Tokenformer eine flexible Skalierung und bietet Forschern eine effizientere, ressourcenschonendere Modellarchitektur, die Skalierbarkeit und hohe Leistung beibehält.

Die Pattention-Schicht von Tokenformer verwendet Eingabe-Tokens als Abfragen, während Modellparameter als Schlüssel und Werte dienen, was sich vom Standard-Transformer-Ansatz unterscheidet, der ausschließlich auf linearen Projektionen basiert.

Die Skalierung des Modells wird durch das Hinzufügen neuer Schlüssel-Wert-Parameterpaare erreicht, wobei die Eingabe- und Ausgabedimensionen konstant gehalten werden und eine vollständige Neuschulung vermieden wird. Die Architektur von Tokenformer ist modular aufgebaut, sodass Forscher das Modell nahtlos durch die Integration zusätzlicher Token erweitern können.

Diese inkrementelle Skalierungsfunktion unterstützt die effiziente Wiederverwendung vorab trainierter Gewichte und ermöglicht gleichzeitig eine schnelle Anpassung an neue Datensätze oder größere Modellgrößen, ohne erlernte Informationen zu beeinträchtigen.

Die Leistungsvorteile von Tokenformer sind bemerkenswert, da das Modell die Rechenkosten erheblich reduziert und gleichzeitig die Genauigkeit beibehält. Tokenformer beispielsweise skalierte von 124 Millionen auf 1,4 Milliarden Parameter mit nur der Hälfte der typischen Schulungskosten, die herkömmliche Transformatoren erfordern.

In einem Experiment erreichte das Modell eine Test-Perplexität von 11,77 für eine Konfiguration mit 1,4 Milliarden Parametern, was nahezu der 11,63-Perplexität eines von Grund auf trainierten Transformators ähnlicher Größe entspricht.

Diese Effizienz bedeutet, dass Tokenformer eine hohe Leistung über mehrere Domänen hinweg, einschließlich sprachlicher und visueller Modellierungsaufgaben, zu einem Bruchteil des Ressourcenaufwands herkömmlicher Modelle erzielen kann.

Tokenformer präsentiert zahlreiche wichtige Erkenntnisse zur Weiterentwicklung der KI-Forschung und zur Verbesserung transformatorbasierter Modelle. Dazu gehören:

Die Behandlung von Parametern als Token ermöglicht eine inkrementelle Modellskalierung ohne erneutes Training.

Die Token-Parameter-Aufmerksamkeitsschicht ermöglicht eine effiziente Parametererweiterung.

Die modulare Architektur unterstützt ein nahtloses Modellwachstum durch die Integration zusätzlicher Token.

Das Modell erreicht eine hohe Leistung in verschiedenen Domänen mit minimalem Ressourcenaufwand.

Zusammenfassend lässt sich sagen, dass Tokenformer einen transformativen Ansatz zur Skalierung transformatorbasierter Modelle bietet. Diese Modellarchitektur erreicht Skalierbarkeit und Ressourceneffizienz, indem Parameter als Token behandelt, Kosten gesenkt und die Modellleistung über alle Aufgaben hinweg erhalten bleibt.

Diese Flexibilität stellt einen Durchbruch im Transformatordesign dar und stellt ein Modell bereit, das sich ohne Umschulung an die Anforderungen fortschrittlicher KI-Anwendungen anpassen kann. Die Architektur von Tokenformer ist vielversprechend für die zukünftige KI-Forschung und bietet einen Weg zur nachhaltigen und effizienten Entwicklung groß angelegter Modelle.

Schauen Sie sich den Artikel, die GitHub-Seite und die Modelle auf HuggingFace an.

Der gesamte Dank für diese Forschung geht an die Forscher dieses Projekts. Vergessen Sie auch nicht, uns auf Twitter zu folgen und unserem Telegram-Kanal und unserer LinkedIn-Gruppe beizutreten. Wenn Ihnen unsere Arbeit gefällt, werden Sie unseren Newsletter lieben. Vergessen Sie nicht, unserem 55k ML SubReddit beizutreten.

[Sponsoring-Möglichkeit bei uns] Bewerben Sie Ihre Forschung/Ihr Produkt/Webinar mit 1 Million monatlichen Lesern und 500.000 Community-Mitgliedern

Das obige ist der detaillierte Inhalt vonTokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Fusionssystem, erklärt
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1666
14
PHP-Tutorial
1273
29
C#-Tutorial
1253
24
OM MANTRA -Kryptowährung stürzt 90% ab, das Team wird angeblich 90% des Token -Angebots abgelegt OM MANTRA -Kryptowährung stürzt 90% ab, das Team wird angeblich 90% des Token -Angebots abgelegt Apr 14, 2025 am 11:26 AM

In einem verheerenden Schlag für die Anleger ist die OM -Mantra -Kryptowährung in den letzten 24 Stunden um etwa 90% zusammengebrochen, wobei der Preis auf 0,58 USD gesunken ist.

Der Kryptomarkt hat nach dem jüngsten schieren Abschwung einen Abpraller gesehen Der Kryptomarkt hat nach dem jüngsten schieren Abschwung einen Abpraller gesehen Apr 13, 2025 am 11:40 AM

Der Kryptomarkt hat nach dem jüngsten bloßen Abschwung einen Abpraller gesehen. Gemäß den exklusiven Marktdaten hat die gesamte Krypto -Marktkapitalisierung 2,71 USD erreicht

Trollercat ($ tcat) sticht als dominierende Kraft im Meme -Münzmarkt aus Trollercat ($ tcat) sticht als dominierende Kraft im Meme -Münzmarkt aus Apr 14, 2025 am 10:24 AM

Haben Sie den meteorischen Aufstieg von Meme -Münzen in der Kryptowährungswelt bemerkt? Was als Online -Witz begann, hat sich schnell zu einer lukrativen Investitionsmöglichkeit entwickelt

Während die Angst den Verkauf fährt, hebt sich Blockdag (BDAG) von der Menge ab Während die Angst den Verkauf fährt, hebt sich Blockdag (BDAG) von der Menge ab Apr 13, 2025 am 11:48 AM

Während Angst auf dem Kryptomarkt den Verkauf fährt, sind große Münzen wie Cardano und Solana vor schweren Zeiten.

Einbruch der Dunkelheit: Ein Datenschutzprotokoll für Ethereum-Blockchains Einbruch der Dunkelheit: Ein Datenschutzprotokoll für Ethereum-Blockchains Apr 13, 2025 am 10:48 AM

In der sich schnell entwickelnden Welt der Blockchain -Technologie hat sich das EY -Dightfall -Protokoll als bedeutende Entwicklung herausgestellt.

Bitwise kündigt die Auflistung von vier seiner Krypto -ETPs an der London Stock Exchange (LSE) an. Bitwise kündigt die Auflistung von vier seiner Krypto -ETPs an der London Stock Exchange (LSE) an. Apr 18, 2025 am 11:24 AM

Bitwise, ein führender digitaler Vermögensverwalter, hat die Auflistung von vier seiner Crypto Exchange-Produkte (ETPs) an der London Stock Exchange (LSE) angekündigt.

Metaplanet erweitert seine Bitcoin Treasury Holdings um weitere 319 BTC Metaplanet erweitert seine Bitcoin Treasury Holdings um weitere 319 BTC Apr 15, 2025 am 11:20 AM

In einer heute früheren Ankündigung gab die japanische Firma Metaplanet bekannt, dass es ein weiteres 319 Bitcoin (BTC) erworben hat und seine gesamten Unternehmensbestände über 4.500 BTC überschritten hat.

Wenn Binance Coin (BNB) zu einem Breakout von 1.000 US Wenn Binance Coin (BNB) zu einem Breakout von 1.000 US Apr 15, 2025 am 09:50 AM

Als Binance Coin (BNB) gewinnt eine Dynamik zu einem Ausbruch von 1.000 US -Dollar