


Das Transformer-Universum wurde in fünf Jahren 38.000 Mal zitiert und hat sich auf diese Weise entwickelt
Seit seiner Einführung im Jahr 2017 hat das Transformer-Modell in anderen Bereichen wie der Verarbeitung natürlicher Sprache und Computer Vision eine beispiellose Stärke gezeigt und technologische Durchbrüche wie ChatGPT ausgelöst. Darüber hinaus haben Menschen verschiedene Variationen vorgeschlagen das Originalmodell.
Da Wissenschaft und Industrie weiterhin neue Modelle auf Basis des Transformer-Aufmerksamkeitsmechanismus vorschlagen, fällt es uns manchmal schwer, diese Richtung zusammenzufassen. Kürzlich könnte uns ein Übersichtsartikel von Xavier Amatriain, Leiter der KI-Produktstrategie bei LinkedIn, bei der Lösung dieses Problems helfen.
In den letzten Jahren sind Dutzende Modelle aus der Transformer-Familie erschienen, alle mit lustigen und leicht verständlichen Namen. Ziel dieses Artikels ist es, einen relativ umfassenden, aber einfachen Katalog und eine Klassifizierung der beliebtesten Transformer-Modelle bereitzustellen. Darüber hinaus stellt dieser Artikel auch die wichtigsten Aspekte und Neuerungen bei Transformer-Modellen vor.
Das Papier „Transformer-Modelle: eine Einführung und ein Katalog“:
#🎜 🎜 #
Papierlink:
https:// arxiv .org/abs/2302.07730
GitHub: https://github.com/xamat/TransformerCatalog# 🎜 🎜#Einführung: Was ist Transformer? Erschien zum ersten Mal in dem berühmten Artikel „Attention is All you Need“, der 2017 von Google-Forschern veröffentlicht wurde (dieser Artikel wurde in nur 5 Jahren mehr als 38.000 Mal zitiert) und verwandten Blogbeiträgen. Die Transformer-Architektur ist eine spezifische Instanz des Encoder-Decoder-Modells [2], das vor zwei bis drei Jahren populär wurde. Allerdings war Aufmerksamkeit bis dahin nur einer der Mechanismen dieser Modelle, die hauptsächlich auf LSTM (Long Short-Term Memory) [3] und anderen RNN-Varianten (Recurrent Neural Network) [4] basierten. Die wichtigste Erkenntnis des Transformers-Papiers besteht darin, dass, wie der Titel schon sagt, Aufmerksamkeit als einziger Mechanismus zur Ableitung von Abhängigkeiten zwischen Eingaben und Ausgaben verwendet werden kann. Die Diskussion aller Details der Transformer-Architektur würde den Rahmen dieses Blogs sprengen. Zu diesem Zweck empfiehlt dieser Artikel, sich auf das obige Originalpapier oder den Beitrag von Transformers zu beziehen, die beide sehr spannend sind. Allerdings werden in diesem Artikel die wichtigsten Aspekte kurz beschrieben und auch im folgenden Inhaltsverzeichnis erwähnt. Dieser Artikel beginnt mit dem grundlegenden Architekturdiagramm im Originalpapier und erweitert dann den zugehörigen Inhalt.
Encoder/Decoder-Architektur
Universal Encoder/ Die Decoder-Architektur (siehe Abbildung 1) besteht aus zwei Modellen. Der Encoder nimmt Eingaben entgegen und codiert sie in einen Vektor fester Länge. Der Decoder nimmt diesen Vektor und dekodiert ihn in eine Ausgabesequenz. Der Encoder und der Decoder werden gemeinsam trainiert, um die bedingte Log-Likelihood zu minimieren. Nach dem Training kann der Encoder/Decoder anhand einer Folge von Eingaben eine Ausgabe generieren oder die Eingabe-/Ausgabesequenzen bewerten. In der ursprünglichen Transformer-Architektur verfügten sowohl der Encoder als auch der Decoder über sechs identische Schichten. Jeder Encoder in diesen 6 Schichten hat zwei Unterschichten: eine Multi-Head-Aufmerksamkeitsschicht und ein einfaches Feedforward-Netzwerk. Jede Unterschicht verfügt über eine Restverbindung und eine Schichtnormalisierung. Die Ausgabegröße des Encoders beträgt 512. Der Decoder fügt eine dritte Unterschicht hinzu, die eine weitere Multi-Head-Aufmerksamkeitsschicht am Encoder-Ausgang darstellt. Zusätzlich wird eine weitere Multi-Head-Schicht im Decoder maskiert. Abbildung 1: Transformator-ArchitekturAbbildung 2: Aufmerksamkeitsmechanismus , hier liegt die volle Kraft des Modells. Was genau ist also Aufmerksamkeit? Eine Aufmerksamkeitsfunktion ist eine Zuordnung zwischen einer Abfrage und einer Reihe von Schlüssel-Wert-Paaren zu einer Ausgabe. Die Ausgabe wird als gewichtete Summe von Werten berechnet, wobei die jedem Wert zugewiesene Gewichtung durch die Kompatibilitätsfunktion der Abfrage mit dem entsprechenden Schlüssel berechnet wird. Transformatoren verwenden Mehrkopfaufmerksamkeit, bei der es sich um die parallele Berechnung einer spezifischen Aufmerksamkeitsfunktion handelt, die als skalierte Skalarproduktaufmerksamkeit bezeichnet wird. Für weitere Einzelheiten zur Funktionsweise des Aufmerksamkeitsmechanismus wird in diesem Artikel erneut auf den Beitrag „The Illustrated Transformer“ verwiesen. Das Diagramm aus dem Originalpapier wird in Abbildung 2 wiedergegeben, um die Hauptidee zu verstehen. Aufmerksamkeitsschichten haben gegenüber wiederkehrenden und Faltungsnetzwerken mehrere Vorteile. Die wichtigsten beiden sind ihre geringere Rechenkomplexität und höhere Konnektivität, die besonders nützlich für das Erlernen langfristiger Abhängigkeiten in Sequenzen sind. Wofür werden Transformer verwendet und warum sind sie so beliebt? Der ursprüngliche Transformer wurde für die Sprachübersetzung entwickelt, insbesondere vom Englischen ins Deutsche. Wie jedoch aus der ursprünglichen Forschungsarbeit hervorgeht, lässt sich die Architektur gut auf andere Sprachaufgaben verallgemeinern. Dieser besondere Trend erregte schnell die Aufmerksamkeit der Forschungsgemeinschaft. In den folgenden Monaten wurden die meisten sprachbezogenen ML-Aufgabenrankings vollständig von einer Version der Transformer-Architektur dominiert (z. B. dem berühmten SQUAD-Ranking, bei dem alle Topmodelle eine Sammlung von Transformers sind). Einer der Hauptgründe dafür, dass Transformer die meisten NLP-Ranglisten so schnell dominieren können, ist ihre Fähigkeit, sich schnell an andere Aufgaben anzupassen, auch bekannt als Transferlernen. Vortrainierte Transformer-Modelle können sehr einfach und schnell an Aufgaben angepasst werden, für die sie nicht trainiert wurden, was einen großen Vorteil hat. Als ML-Praktiker müssen Sie keine großen Modelle mehr anhand riesiger Datensätze trainieren. Alles, was Sie tun müssen, ist, das vorab trainierte Modell in Ihrer Aufgabe wiederzuverwenden und es möglicherweise mit einem viel kleineren Datensatz leicht zu optimieren. Eine spezielle Technik zur Anpassung eines vorab trainierten Modells an verschiedene Aufgaben wird als Feinabstimmung bezeichnet. Natürlich wäre keine dieser Anwendungen möglich, wenn es nicht die unzähligen Tools gäbe, mit denen jeder problemlos ein paar Zeilen Code schreiben kann. Transformer kann nicht nur schnell in große Frameworks für künstliche Intelligenz (z. B. Pytorch8 und TF9) integriert werden, sondern es können sogar ganze Unternehmen darauf aufbauen. Huggingface, ein Startup, das bisher über 60 Millionen US-Dollar eingesammelt hat, basiert fast ausschließlich auf der Idee, die Open-Source-Transformer-Bibliothek zu kommerzialisieren. Abschließend ist es notwendig, über die Auswirkungen von GPT-3 auf Transformer in den frühen Stadien seiner Popularität zu sprechen. GPT-3 ist ein Transformer-Modell, das im Mai 2020 von OpenAI eingeführt wurde und eine Weiterentwicklung der früheren GPT und GPT-2 darstellt. Das Unternehmen sorgte für großes Aufsehen, als es das Modell in einem Vorabdruck vorstellte, von dem es behauptete, es sei so leistungsstark, dass es nicht der Welt zugänglich gemacht werden konnte. Seitdem wurde das Modell nicht nur veröffentlicht, sondern durch eine massive Zusammenarbeit zwischen OpenAI und Microsoft auch kommerzialisiert. GPT-3 unterstützt über 300 verschiedene Anwendungen und ist von grundlegender Bedeutung für die Geschäftsstrategie von OpenAI (was für ein Unternehmen, das über 1 Milliarde US-Dollar an Finanzmitteln eingesammelt hat, sinnvoll ist). RLHF In letzter Zeit ist das verstärkende Lernen aus menschlichem Feedback (oder Präferenzen) (RLHF (auch bekannt als RLHP)) zu einer großen Ergänzung des Toolkits für künstliche Intelligenz geworden Es wurde in „Deep Reinforcement Learning from Human Preferences“ vorgeschlagen und kürzlich auf ChatGPT und ähnliche Konversationsagenten wie BlenderBot oder Sparrow angewendet. Die Idee ist einfach: Sobald das Sprachmodell vorab trainiert ist, kann der Benutzer unterschiedliche Antworten darauf generieren Sie können die Antworten bewerten und die Ergebnisse bewerten (d. h. Präferenzen oder Feedback), um Belohnungen in einer bestärkenden Lernumgebung zu trainieren. Diffusionsmodelle sind zum neuen SOTA in der Bilderzeugung geworden und verdrängen offenbar frühere Methoden wie GANs (Generative Adversarial Networks). Was ist ein Diffusionsmodell? Sie sind eine Klasse latenter Variablenmodelle, die mit Variationsinferenz trainiert werden. Ein auf diese Weise trainiertes Netzwerk lernt tatsächlich den latenten Raum, der durch diese Bilder dargestellt wird (siehe Abbildung 4). Diffusionsmodelle sind mit anderen generativen Modellen verwandt, wie etwa den berühmten [Generative Adversarial Networks (GAN)] 16, die in vielen Anwendungen, insbesondere durch (entrauschende) Autoencoder, ersetzt wurden. Einige Autoren sagen sogar, dass Diffusionsmodelle nur ein spezifisches Beispiel für Autoencoder seien. Sie erkennen jedoch auch an, dass kleine Unterschiede ihre Anwendung von der zugrunde liegenden Darstellung des Autoconders auf die rein generative Natur des Diffusionsmodells ändern.
Abbildung 3: Reinforcement Learning mit menschlichem Feedback.
Abbildung 4: Probabilistische Diffusionsmodellarchitektur ist ein Auszug aus „Diffusion Models: A Comprehensive Survey of Methods and Applications“
Die in vorgestellten Modelle Dieser Artikel enthält:
Das obige ist der detaillierte Inhalt vonDas Transformer-Universum wurde in fünf Jahren 38.000 Mal zitiert und hat sich auf diese Weise entwickelt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

FP8 und die geringere Gleitkomma-Quantifizierungsgenauigkeit sind nicht länger das „Patent“ von H100! Lao Huang wollte, dass jeder INT8/INT4 nutzt, und das Microsoft DeepSpeed-Team begann, FP6 auf A100 ohne offizielle Unterstützung von NVIDIA auszuführen. Testergebnisse zeigen, dass die FP6-Quantisierung der neuen Methode TC-FPx auf A100 nahe an INT4 liegt oder gelegentlich schneller als diese ist und eine höhere Genauigkeit aufweist als letztere. Darüber hinaus gibt es eine durchgängige Unterstützung großer Modelle, die als Open-Source-Lösung bereitgestellt und in Deep-Learning-Inferenz-Frameworks wie DeepSpeed integriert wurde. Dieses Ergebnis wirkt sich auch unmittelbar auf die Beschleunigung großer Modelle aus – in diesem Rahmen ist der Durchsatz bei Verwendung einer einzelnen Karte zum Ausführen von Llama 2,65-mal höher als der von Doppelkarten. eins
