Inhaltsverzeichnis
Einführung in den Artikel
Heim Technologie-Peripheriegeräte KI Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Apr 09, 2023 pm 08:31 PM
代码 deepmind

Transformer wurde 2017 geboren und von Google in der Veröffentlichung „Attention is all you need“ vorgestellt. In diesem Artikel wird auf CNN und RNN verzichtet, die in früheren Deep-Learning-Aufgaben verwendet wurden. Diese bahnbrechende Forschung hat die bisherige Idee, Sequenzmodellierung und RNN gleichzusetzen, auf den Kopf gestellt und wird heute häufig im NLP verwendet. Die beliebten GPT, BERT usw. basieren alle auf Transformer.

Transformer Seit seiner Einführung haben Forscher viele Variationen vorgeschlagen. Aber alle Beschreibungen von Transformer scheinen die Architektur in verbaler Form, grafischen Erklärungen usw. vorzustellen. Für Pseudocode-Beschreibungen von Transformer sind nur sehr wenige Informationen verfügbar.

Wie in der folgenden Passage ausgedrückt: Ein sehr berühmter Forscher auf dem Gebiet der KI schickte einmal einen Artikel, den er für sehr gut geschrieben hielt, an einen berühmten Komplexitätstheoretiker. Und die Antwort des Theoretikers lautet: Ich kann in der Arbeit keinen Satz finden, ich weiß nicht, worum es in der Arbeit geht.

Für Praktiker sind die Arbeiten vielleicht detailliert genug, aber Theoretiker verlangen in der Regel mehr Präzision. Aus irgendeinem Grund scheint die DL-Community nicht bereit zu sein, Pseudocode für ihre neuronalen Netzwerkmodelle bereitzustellen.

Derzeit scheint es, dass die DL-Community folgende Probleme hat:

DL-Veröffentlichungen mangelt es an wissenschaftlicher Genauigkeit und Detailliertheit. Deep Learning hat in den letzten 5 bis 10 Jahren große Erfolge erzielt und jedes Jahr Tausende von Artikeln veröffentlicht. Viele Forscher beschreiben nur informell, wie sie frühere Modelle modifiziert haben, wobei Arbeiten mit über 100 Seiten nur wenige Zeilen informeller Modellbeschreibungen enthalten. Bestenfalls einige High-Level-Diagramme, kein Pseudocode, keine Gleichungen, keine Erwähnung einer genauen Interpretation des Modells. Niemand stellt Pseudocode für den berühmten Transformer und seine Encoder/Decoder-Varianten zur Verfügung.

Quellcode und Pseudocode. Open-Source-Quellcode ist sehr nützlich, aber im Vergleich zu den Tausenden von Zeilen echten Quellcodes ist gut gestalteter Pseudocode normalerweise weniger als eine Seite lang und dennoch im Wesentlichen vollständig. Es schien harte Arbeit zu sein, die niemand machen wollte.

Es ist ebenso wichtig, den Trainingsprozess zu erklären, aber manchmal wird in der Arbeit nicht einmal erwähnt, was die Ein- und Ausgänge des Modells sind und welche möglichen Nebenwirkungen es gibt. Experimentelle Abschnitte in Aufsätzen erklären oft nicht, was und wie in den Algorithmus eingespeist wird. Wenn der Abschnitt „Methoden“ einige Erklärungen enthält, ist er oft von dem, was im Abschnitt „Experimentelles“ beschrieben wird, getrennt, wahrscheinlich weil verschiedene Autoren unterschiedliche Abschnitte geschrieben haben.

Manche Leute fragen sich vielleicht: Wird Pseudocode wirklich benötigt?

Forscher von DeepMind glauben, dass die Bereitstellung von Pseudocode viele Vorteile hat, verglichen mit dem Lesen eines Artikels oder dem Scrollen durch 1000 Zeilen tatsächlichen Codes. Pseudocode fasst alle wichtigen Inhalte auf einer Seite zusammen und erleichtert so die Entwicklung neuer Varianten. Zu diesem Zweck haben sie kürzlich einen Artikel „Formal Algorithms for Transformers“ veröffentlicht, der die Transformer-Architektur vollständig und mathematisch korrekt beschreibt.

Einführung in den Artikel

Dieser Artikel behandelt, was Transformer ist, wie Transformer trainiert wird, wofür Transformer verwendet wird, die wichtigsten Architekturkomponenten von Transformer und eine Vorschau auf die bekannteren Modelle.

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Papieradresse: https://arxiv.org/pdf/2207.09238.pdf

Um diesen Artikel lesen zu können, müssen die Leser jedoch mit der grundlegenden ML-Terminologie und einfachen neuronalen Netzwerkarchitekturen vertraut sein (wie MLPs) ). Wenn die Leser den Inhalt des Artikels verstanden haben, verfügen sie über ein solides Verständnis von Transformer und können Pseudocode verwenden, um ihre eigenen Transformer-Varianten zu implementieren.

Der Hauptteil dieses Dokuments ist Kapitel 3-8, in dem Transformer und seine typischen Aufgaben, die Tokenisierung, die architektonische Zusammensetzung von Transformer, Transformer-Schulung und -Inferenz sowie praktische Anwendungen vorgestellt werden.

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Der im Wesentlichen vollständige Pseudocode im Papier umfasst etwa 50 Zeilen, während der tatsächliche echte Quellcode Tausende von Zeilen umfasst. Der Pseudocode, der den Algorithmus in der Arbeit beschreibt, eignet sich für theoretische Forscher, die kompakte, vollständige und genaue Formeln benötigen, für experimentelle Forscher, die Transformer von Grund auf implementieren, und ist auch nützlich, um Arbeiten oder Lehrbücher mit dem formalen Transformer-Algorithmus zu erweitern.

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Pseudocode-Beispiele im Artikel

Für Anfänger, die mit der grundlegenden ML-Terminologie und einfachen neuronalen Netzwerkarchitekturen (wie MLP) vertraut sind, hilft Ihnen dieser Artikel dabei, eine solide Grundlage für Transformer zu erlernen und zu verwenden Pseudocode-Vorlagen zur Implementierung Ihres eigenen Transformer-Modells.

Vorstellung des Autors

Die erste Autorin dieses Artikels ist Mary Phuong, eine Forscherin, die im März dieses Jahres offiziell zu DeepMind kam. Sie schloss ihr Studium am Österreichischen Institut für Wissenschaft und Technologie mit einem Doktortitel ab und beschäftigte sich hauptsächlich mit theoretischer Forschung zum maschinellen Lernen.

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Ein weiterer Autor des Papiers ist Marcus Hutter, leitender Forscher bei DeepMind und Honorarprofessor am Research Institute of Computer Science (RSCS) der Australian National University (ANU).

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Marcus Hutter beschäftigt sich seit vielen Jahren mit der Forschung zur mathematischen Theorie der Künstlichen Intelligenz. Dieser Forschungsbereich basiert auf mehreren mathematischen und computerwissenschaftlichen Konzepten, darunter Reinforcement Learning, Wahrscheinlichkeitstheorie, algorithmische Informationstheorie, Optimierung, Suche und Computertheorie. Sein Buch „General Artificial Intelligence: Sequential Decision-Making Based on Algorithmic Probability“ wurde 2005 veröffentlicht und ist ein sehr technisches und mathematisches Buch.

Im Jahr 2002 schlug Marcus Hutter zusammen mit Jürgen Schmidhuber und Shane Legg die mathematische Theorie der künstlichen Intelligenz AIXI vor, die auf idealisierten Agenten und Belohnungsverstärkungslernen basiert. Im Jahr 2009 schlug Marcus Hutter die Feature-Reinforcement-Learning-Theorie vor.

Das obige ist der detaillierte Inhalt vonDer neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

So lösen Sie Win7-Treibercode 28 So lösen Sie Win7-Treibercode 28 Dec 30, 2023 pm 11:55 PM

Bei einigen Benutzern sind bei der Installation des Geräts Fehler aufgetreten, die den Fehlercode 28 angezeigt haben. Tatsächlich ist dies hauptsächlich auf den Treiber zurückzuführen. Wir müssen nur das Problem mit dem Win7-Treibercode 28 lösen. Schauen wir uns an, was zu tun ist . Was tun mit dem Win7-Treibercode 28? Zuerst müssen wir auf das Startmenü in der unteren linken Ecke des Bildschirms klicken. Suchen Sie dann im Popup-Menü nach der Option „Systemsteuerung“ und klicken Sie darauf. Diese Option befindet sich normalerweise am oder nahe dem unteren Rand des Menüs. Nach dem Klicken öffnet das System automatisch die Benutzeroberfläche des Bedienfelds. Im Bedienfeld können wir verschiedene Systemeinstellungen und Verwaltungsvorgänge durchführen. Dies ist der erste Schritt in der Nostalgie-Reinigungsstufe. Ich hoffe, er hilft. Dann müssen wir fortfahren und das System betreten und

Was tun, wenn der Bluescreen-Code 0x0000001 auftritt? Was tun, wenn der Bluescreen-Code 0x0000001 auftritt? Feb 23, 2024 am 08:09 AM

Was tun mit dem Bluescreen-Code 0x0000001? Der Bluescreen-Fehler ist ein Warnmechanismus, wenn ein Problem mit dem Computersystem oder der Hardware vorliegt. Der Code 0x0000001 weist normalerweise auf einen Hardware- oder Treiberfehler hin. Wenn Benutzer bei der Verwendung ihres Computers plötzlich auf einen Bluescreen-Fehler stoßen, geraten sie möglicherweise in Panik und sind ratlos. Glücklicherweise können die meisten Bluescreen-Fehler mit ein paar einfachen Schritten behoben werden. In diesem Artikel werden den Lesern einige Methoden zur Behebung des Bluescreen-Fehlercodes 0x0000001 vorgestellt. Wenn ein Bluescreen-Fehler auftritt, können wir zunächst versuchen, neu zu starten

Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden Aug 09, 2024 pm 04:01 PM

Aber vielleicht kann er den alten Mann im Park nicht besiegen? Die Olympischen Spiele in Paris sind in vollem Gange und Tischtennis hat viel Aufmerksamkeit erregt. Gleichzeitig haben Roboter auch beim Tischtennisspielen neue Durchbrüche erzielt. Gerade hat DeepMind den ersten lernenden Roboteragenten vorgeschlagen, der das Niveau menschlicher Amateurspieler im Tischtennis-Wettkampf erreichen kann. Papieradresse: https://arxiv.org/pdf/2408.03906 Wie gut ist der DeepMind-Roboter beim Tischtennisspielen? Vermutlich auf Augenhöhe mit menschlichen Amateurspielern: Sowohl Vorhand als auch Rückhand: Der Gegner nutzt unterschiedliche Spielstile, und auch der Roboter hält aus: Aufschlagannahme mit unterschiedlichem Spin: Allerdings scheint die Intensität des Spiels nicht so intensiv zu sein wie Der alte Mann im Park. Für Roboter, Tischtennis

Lösen Sie das Problem „Fehler: erwarteter Initialisierer vor ‚Datentyp'' im C++-Code Lösen Sie das Problem „Fehler: erwarteter Initialisierer vor ‚Datentyp'' im C++-Code Aug 25, 2023 pm 01:24 PM

Lösen Sie das „error:expectedinitializerbefore'datatype‘“-Problem in C++-Code. Beim Schreiben von Code treten manchmal Kompilierungsfehler auf. Einer der häufigsten Fehler ist „error:expectedinitializerbefore‘datatype‘“. Dieser Fehler tritt normalerweise in einer Variablendeklaration oder Funktionsdefinition auf und kann dazu führen, dass das Programm nicht korrekt kompiliert werden kann oder

Der Computer zeigt häufig einen Bluescreen an und der Code ist jedes Mal anders Der Computer zeigt häufig einen Bluescreen an und der Code ist jedes Mal anders Jan 06, 2024 pm 10:53 PM

Das Win10-System ist ein sehr hervorragendes, hochintelligentes System, das den Benutzern das beste Benutzererlebnis bieten kann. Unter normalen Umständen werden die Computer des Win10-Systems keine Probleme haben. Es ist jedoch unvermeidlich, dass bei hervorragenden Computern verschiedene Fehler auftreten. In letzter Zeit haben Freunde berichtet, dass ihre Win10-Systeme häufig auf Bluescreens stoßen! Heute stellt Ihnen der Editor Lösungen für verschiedene Codes vor, die häufige Bluescreens auf Windows 10-Computern verursachen. Lösungen für häufige Computer-Bluescreens mit jeweils unterschiedlichen Codes: Ursachen verschiedener Fehlercodes und Lösungsvorschläge 1. Ursache des Fehlers 0×000000116: Es sollte sein, dass der Grafikkartentreiber nicht kompatibel ist. Lösung: Es wird empfohlen, den Treiber des Originalherstellers zu ersetzen. 2,

Beheben Sie den Fehlercode 0xc000007b Beheben Sie den Fehlercode 0xc000007b Feb 18, 2024 pm 07:34 PM

Beendigungscode 0xc000007b Bei der Verwendung Ihres Computers treten manchmal verschiedene Probleme und Fehlercodes auf. Unter ihnen ist der Beendigungscode am störendsten, insbesondere der Beendigungscode 0xc000007b. Dieser Code weist darauf hin, dass eine Anwendung nicht ordnungsgemäß gestartet werden kann, was zu Unannehmlichkeiten für den Benutzer führt. Lassen Sie uns zunächst die Bedeutung des Beendigungscodes 0xc000007b verstehen. Bei diesem Code handelt es sich um einen Fehlercode des Windows-Betriebssystems, der normalerweise auftritt, wenn eine 32-Bit-Anwendung versucht, auf einem 64-Bit-Betriebssystem ausgeführt zu werden. Es bedeutet, dass es so sein sollte

Ausführliche Erläuterung der Ursachen und Lösungen des Bluescreen-Codes 0x0000007f Ausführliche Erläuterung der Ursachen und Lösungen des Bluescreen-Codes 0x0000007f Dec 25, 2023 pm 02:19 PM

Bluescreen ist ein Problem, das bei der Nutzung des Systems häufig auftritt. Je nach Fehlercode gibt es viele verschiedene Gründe und Lösungen. Wenn wir beispielsweise auf das Problem „stop: 0x0000007f“ stoßen, kann es sich um einen Hardware- oder Softwarefehler handeln. Folgen wir dem Editor, um die Lösung herauszufinden. 0x000000c5 Bluescreen-Code-Grund: Antwort: Der Speicher, die CPU und die Grafikkarte sind plötzlich übertaktet oder die Software läuft falsch. Lösung 1: 1. Drücken Sie beim Booten weiterhin F8 zum Aufrufen, wählen Sie den abgesicherten Modus und drücken Sie zum Aufrufen die Eingabetaste. 2. Drücken Sie nach dem Aufrufen des abgesicherten Modus win+r, um das Ausführungsfenster zu öffnen, geben Sie cmd ein und drücken Sie die Eingabetaste. 3. Geben Sie im Eingabeaufforderungsfenster „chkdsk /f /r“ ein, drücken Sie die Eingabetaste und drücken Sie dann die Y-Taste. 4.

Universal-Fernbedienungscode-Programm von GE auf jedem Gerät Universal-Fernbedienungscode-Programm von GE auf jedem Gerät Mar 02, 2024 pm 01:58 PM

Wenn Sie ein Gerät aus der Ferne programmieren müssen, hilft Ihnen dieser Artikel. Wir teilen Ihnen die besten Universal-Fernbedienungscodes von GE für die Programmierung aller Geräte mit. Was ist eine GE-Fernbedienung? GEUniversalRemote ist eine Fernbedienung, mit der mehrere Geräte wie Smart-TVs, LG, Vizio, Sony, Blu-ray, DVD, DVR, Roku, AppleTV, Streaming-Media-Player und mehr gesteuert werden können. GEUniversal-Fernbedienungen gibt es in verschiedenen Modellen mit unterschiedlichen Merkmalen und Funktionen. GEUniversalRemote kann bis zu vier Geräte steuern. Top-Universalfernbedienungscodes zum Programmieren auf jedem Gerät GE-Fernbedienungen werden mit einer Reihe von Codes geliefert, die es ihnen ermöglichen, mit verschiedenen Geräten zu arbeiten. Sie können

See all articles