Das Transformer-Universum wurde in fünf Jahren 38.000 Mal zitiert und hat sich auf diese Weise entwickelt-KI-php.cn

Heim

Technologie-Peripheriegeräte

Das Transformer-Universum wurde in fünf Jahren 38.000 Mal zitiert und hat sich auf diese Weise entwickelt

王林

Apr 11, 2023 am 11:46 AM

模型指南

Seit seiner Einführung im Jahr 2017 hat das Transformer-Modell in anderen Bereichen wie der Verarbeitung natürlicher Sprache und Computer Vision eine beispiellose Stärke gezeigt und technologische Durchbrüche wie ChatGPT ausgelöst. Darüber hinaus haben Menschen verschiedene Variationen vorgeschlagen das Originalmodell.

Da Wissenschaft und Industrie weiterhin neue Modelle auf Basis des Transformer-Aufmerksamkeitsmechanismus vorschlagen, fällt es uns manchmal schwer, diese Richtung zusammenzufassen. Kürzlich könnte uns ein Übersichtsartikel von Xavier Amatriain, Leiter der KI-Produktstrategie bei LinkedIn, bei der Lösung dieses Problems helfen.

Das Transformer-Universum wurde in fünf Jahren 38.000 Mal zitiert und hat sich auf diese Weise entwickelt

# 🎜 🎜#

In den letzten Jahren sind Dutzende Modelle aus der Transformer-Familie erschienen, alle mit lustigen und leicht verständlichen Namen. Ziel dieses Artikels ist es, einen relativ umfassenden, aber einfachen Katalog und eine Klassifizierung der beliebtesten Transformer-Modelle bereitzustellen. Darüber hinaus stellt dieser Artikel auch die wichtigsten Aspekte und Neuerungen bei Transformer-Modellen vor.

Das Papier „Transformer-Modelle: eine Einführung und ein Katalog“:

#🎜 🎜 # Das Transformer-Universum wurde in fünf Jahren 38.000 Mal zitiert und hat sich auf diese Weise entwickelt

Papierlink:

https:// arxiv .org/abs/2302.07730

GitHub: https://github.com/xamat/TransformerCatalog# 🎜 🎜#Einführung: Was ist Transformer? Erschien zum ersten Mal in dem berühmten Artikel „Attention is All you Need“, der 2017 von Google-Forschern veröffentlicht wurde (dieser Artikel wurde in nur 5 Jahren mehr als 38.000 Mal zitiert) und verwandten Blogbeiträgen. Die Transformer-Architektur ist eine spezifische Instanz des Encoder-Decoder-Modells [2], das vor zwei bis drei Jahren populär wurde. Allerdings war Aufmerksamkeit bis dahin nur einer der Mechanismen dieser Modelle, die hauptsächlich auf LSTM (Long Short-Term Memory) [3] und anderen RNN-Varianten (Recurrent Neural Network) [4] basierten. Die wichtigste Erkenntnis des Transformers-Papiers besteht darin, dass, wie der Titel schon sagt, Aufmerksamkeit als einziger Mechanismus zur Ableitung von Abhängigkeiten zwischen Eingaben und Ausgaben verwendet werden kann. Die Diskussion aller Details der Transformer-Architektur würde den Rahmen dieses Blogs sprengen. Zu diesem Zweck empfiehlt dieser Artikel, sich auf das obige Originalpapier oder den Beitrag von Transformers zu beziehen, die beide sehr spannend sind. Allerdings werden in diesem Artikel die wichtigsten Aspekte kurz beschrieben und auch im folgenden Inhaltsverzeichnis erwähnt. Dieser Artikel beginnt mit dem grundlegenden Architekturdiagramm im Originalpapier und erweitert dann den zugehörigen Inhalt.

Encoder/Decoder-Architektur

Universal Encoder/ Die Decoder-Architektur (siehe Abbildung 1) besteht aus zwei Modellen. Der Encoder nimmt Eingaben entgegen und codiert sie in einen Vektor fester Länge. Der Decoder nimmt diesen Vektor und dekodiert ihn in eine Ausgabesequenz. Der Encoder und der Decoder werden gemeinsam trainiert, um die bedingte Log-Likelihood zu minimieren. Nach dem Training kann der Encoder/Decoder anhand einer Folge von Eingaben eine Ausgabe generieren oder die Eingabe-/Ausgabesequenzen bewerten. In der ursprünglichen Transformer-Architektur verfügten sowohl der Encoder als auch der Decoder über sechs identische Schichten. Jeder Encoder in diesen 6 Schichten hat zwei Unterschichten: eine Multi-Head-Aufmerksamkeitsschicht und ein einfaches Feedforward-Netzwerk. Jede Unterschicht verfügt über eine Restverbindung und eine Schichtnormalisierung. Die Ausgabegröße des Encoders beträgt 512. Der Decoder fügt eine dritte Unterschicht hinzu, die eine weitere Multi-Head-Aufmerksamkeitsschicht am Encoder-Ausgang darstellt. Zusätzlich wird eine weitere Multi-Head-Schicht im Decoder maskiert. Abbildung 1: Transformator-ArchitekturAbbildung 2: Aufmerksamkeitsmechanismus , hier liegt die volle Kraft des Modells. Was genau ist also Aufmerksamkeit? Eine Aufmerksamkeitsfunktion ist eine Zuordnung zwischen einer Abfrage und einer Reihe von Schlüssel-Wert-Paaren zu einer Ausgabe. Die Ausgabe wird als gewichtete Summe von Werten berechnet, wobei die jedem Wert zugewiesene Gewichtung durch die Kompatibilitätsfunktion der Abfrage mit dem entsprechenden Schlüssel berechnet wird. Transformatoren verwenden Mehrkopfaufmerksamkeit, bei der es sich um die parallele Berechnung einer spezifischen Aufmerksamkeitsfunktion handelt, die als skalierte Skalarproduktaufmerksamkeit bezeichnet wird. Für weitere Einzelheiten zur Funktionsweise des Aufmerksamkeitsmechanismus wird in diesem Artikel erneut auf den Beitrag „The Illustrated Transformer“ verwiesen. Das Diagramm aus dem Originalpapier wird in Abbildung 2 wiedergegeben, um die Hauptidee zu verstehen. Aufmerksamkeitsschichten haben gegenüber wiederkehrenden und Faltungsnetzwerken mehrere Vorteile. Die wichtigsten beiden sind ihre geringere Rechenkomplexität und höhere Konnektivität, die besonders nützlich für das Erlernen langfristiger Abhängigkeiten in Sequenzen sind.

Wofür werden Transformer verwendet und warum sind sie so beliebt?

Der ursprüngliche Transformer wurde für die Sprachübersetzung entwickelt, insbesondere vom Englischen ins Deutsche. Wie jedoch aus der ursprünglichen Forschungsarbeit hervorgeht, lässt sich die Architektur gut auf andere Sprachaufgaben verallgemeinern. Dieser besondere Trend erregte schnell die Aufmerksamkeit der Forschungsgemeinschaft. In den folgenden Monaten wurden die meisten sprachbezogenen ML-Aufgabenrankings vollständig von einer Version der Transformer-Architektur dominiert (z. B. dem berühmten SQUAD-Ranking, bei dem alle Topmodelle eine Sammlung von Transformers sind). Einer der Hauptgründe dafür, dass Transformer die meisten NLP-Ranglisten so schnell dominieren können, ist ihre Fähigkeit, sich schnell an andere Aufgaben anzupassen, auch bekannt als Transferlernen. Vortrainierte Transformer-Modelle können sehr einfach und schnell an Aufgaben angepasst werden, für die sie nicht trainiert wurden, was einen großen Vorteil hat. Als ML-Praktiker müssen Sie keine großen Modelle mehr anhand riesiger Datensätze trainieren. Alles, was Sie tun müssen, ist, das vorab trainierte Modell in Ihrer Aufgabe wiederzuverwenden und es möglicherweise mit einem viel kleineren Datensatz leicht zu optimieren. Eine spezielle Technik zur Anpassung eines vorab trainierten Modells an verschiedene Aufgaben wird als Feinabstimmung bezeichnet.

Es stellt sich heraus, dass Transformers so anpassungsfähig an andere Aufgaben sind, dass sie, obwohl sie ursprünglich für sprachbezogene Aufgaben entwickelt wurden, schnell für andere Aufgaben übernommen wurden, von visuellen oder Audio- und Musik-Apps bis hin zum Schachspielen usw Mathe machen.

Natürlich wäre keine dieser Anwendungen möglich, wenn es nicht die unzähligen Tools gäbe, mit denen jeder problemlos ein paar Zeilen Code schreiben kann. Transformer kann nicht nur schnell in große Frameworks für künstliche Intelligenz (z. B. Pytorch8 und TF9) integriert werden, sondern es können sogar ganze Unternehmen darauf aufbauen. Huggingface, ein Startup, das bisher über 60 Millionen US-Dollar eingesammelt hat, basiert fast ausschließlich auf der Idee, die Open-Source-Transformer-Bibliothek zu kommerzialisieren.

Abschließend ist es notwendig, über die Auswirkungen von GPT-3 auf Transformer in den frühen Stadien seiner Popularität zu sprechen. GPT-3 ist ein Transformer-Modell, das im Mai 2020 von OpenAI eingeführt wurde und eine Weiterentwicklung der früheren GPT und GPT-2 darstellt. Das Unternehmen sorgte für großes Aufsehen, als es das Modell in einem Vorabdruck vorstellte, von dem es behauptete, es sei so leistungsstark, dass es nicht der Welt zugänglich gemacht werden konnte. Seitdem wurde das Modell nicht nur veröffentlicht, sondern durch eine massive Zusammenarbeit zwischen OpenAI und Microsoft auch kommerzialisiert. GPT-3 unterstützt über 300 verschiedene Anwendungen und ist von grundlegender Bedeutung für die Geschäftsstrategie von OpenAI (was für ein Unternehmen, das über 1 Milliarde US-Dollar an Finanzmitteln eingesammelt hat, sinnvoll ist).

RLHF

In letzter Zeit ist das verstärkende Lernen aus menschlichem Feedback (oder Präferenzen) (RLHF (auch bekannt als RLHP)) zu einer großen Ergänzung des Toolkits für künstliche Intelligenz geworden Es wurde in „Deep Reinforcement Learning from Human Preferences“ vorgeschlagen und kürzlich auf ChatGPT und ähnliche Konversationsagenten wie BlenderBot oder Sparrow angewendet. Die Idee ist einfach: Sobald das Sprachmodell vorab trainiert ist, kann der Benutzer unterschiedliche Antworten darauf generieren Sie können die Antworten bewerten und die Ergebnisse bewerten (d. h. Präferenzen oder Feedback), um Belohnungen in einer bestärkenden Lernumgebung zu trainieren.

Diffusionsmodelle sind zum neuen SOTA in der Bilderzeugung geworden und verdrängen offenbar frühere Methoden wie GANs (Generative Adversarial Networks). Was ist ein Diffusionsmodell? Sie sind eine Klasse latenter Variablenmodelle, die mit Variationsinferenz trainiert werden. Ein auf diese Weise trainiertes Netzwerk lernt tatsächlich den latenten Raum, der durch diese Bilder dargestellt wird (siehe Abbildung 4).

Diffusionsmodelle sind mit anderen generativen Modellen verwandt, wie etwa den berühmten [Generative Adversarial Networks (GAN)] 16, die in vielen Anwendungen, insbesondere durch (entrauschende) Autoencoder, ersetzt wurden. Einige Autoren sagen sogar, dass Diffusionsmodelle nur ein spezifisches Beispiel für Autoencoder seien. Sie erkennen jedoch auch an, dass kleine Unterschiede ihre Anwendung von der zugrunde liegenden Darstellung des Autoconders auf die rein generative Natur des Diffusionsmodells ändern.

Das Transformer-Universum wurde in fünf Jahren 38.000 Mal zitiert und hat sich auf diese Weise entwickelt

Abbildung 3: Reinforcement Learning mit menschlichem Feedback.

Das Transformer-Universum wurde in fünf Jahren 38.000 Mal zitiert und hat sich auf diese Weise entwickelt

Abbildung 4: Probabilistische Diffusionsmodellarchitektur ist ein Auszug aus „Diffusion Models: A Comprehensive Survey of Methods and Applications“

Die in vorgestellten Modelle Dieser Artikel enthält:

Das Transformer-Universum wurde in fünf Jahren 38.000 Mal zitiert und hat sich auf diese Weise entwickelt

Das obige ist der detaillierte Inhalt vonDas Transformer-Universum wurde in fünf Jahren 38.000 Mal zitiert und hat sich auf diese Weise entwickelt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

4 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

4 Wochen vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

1 Monate vor By DDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

2 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7728

Java-Tutorial

1643

CakePHP-Tutorial

1397

Laravel-Tutorial

1290

PHP-Tutorial

1233

Related knowledge

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es könnte die schnellste Wahl für das GPU-Inferenztraining werden Apr 01, 2024 pm 07:46 PM

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

FisheyeDetNet: der erste Zielerkennungsalgorithmus basierend auf einer Fischaugenkamera Apr 26, 2024 am 11:37 AM

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

$Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24)$ Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen

See all articles