Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben-KI-php.cn

Heim

Technologie-Peripheriegeräte

Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

王林

Jan 12, 2024 pm 11:48 PM

理论 arxiv

Kürzlich wurde auf arxiv ein Artikel veröffentlicht, der eine neue Interpretation der mathematischen Prinzipien von Transformer bietet. Der Inhalt ist sehr lang und ich empfehle dringend, den Originalartikel zu lesen.

Im Jahr 2017 wurde „Attention is all you need“ von Vaswani et al. zu einem wichtigen Meilenstein in der Entwicklung der neuronalen Netzwerkarchitektur. Der Kernbeitrag dieses Artikels ist der Selbstaufmerksamkeitsmechanismus, die Innovation, die Transformers von traditionellen Architekturen unterscheidet und eine wichtige Rolle für seine hervorragende praktische Leistung spielt.

Tatsächlich ist diese Innovation zu einem wichtigen Katalysator für die Weiterentwicklung der künstlichen Intelligenz in Bereichen wie Computer Vision und Verarbeitung natürlicher Sprache geworden und spielt gleichzeitig eine Schlüsselrolle bei der Entstehung großer Sprachmodelle. Daher ist das Verständnis von Transformern und insbesondere der Mechanismen, mit denen die Selbstaufmerksamkeit Daten verarbeitet, ein entscheidender, aber weitgehend unerforschter Bereich.

Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

Papieradresse: https://arxiv.org/pdf/2312.10794.pdf

Tiefe neuronale Netze (DNNs) haben ein gemeinsames Merkmal: Die Eingabedaten werden Schicht für Schicht der Reihe nach verarbeitet und bilden ein Zeit Diskretes dynamisches System (spezifische Inhalte finden Sie im vom MIT veröffentlichten „Deep Learning“, in China auch als „Flower Book“ bekannt). Diese Perspektive wurde erfolgreich verwendet, um Restnetzwerke auf zeitkontinuierlichen dynamischen Systemen zu modellieren, die als neuronale gewöhnliche Differentialgleichungen (neuronale ODEs) bezeichnet werden. In der Differentialgleichung der göttlichen Konstante entwickelt sich das Eingabebild Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

entsprechend dem gegebenen zeitlich veränderlichen Geschwindigkeitsfeld Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

über das Zeitintervall (0, T). Daher kann DNN als Flusskarte Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

von einem

zum anderen Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

betrachtet werden. Selbst in Geschwindigkeitsfeldern Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

besteht unter den Einschränkungen klassischer DNN-Architekturen eine starke Ähnlichkeit zwischen Flusskarten.

Forscher fanden heraus, dass Transformer tatsächlich Flussabbildungen auf Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

sind, also Abbildungen zwischen d-dimensionalen Wahrscheinlichkeitsmaßräumen (dem Raum der Wahrscheinlichkeitsmaße). Um diese Flusskartierung zu implementieren, die zwischen metrischen Räumen konvertiert, müssen Transformers ein mit mittlerem Feld interagierendes Partikelsystem einrichten.

Konkret folgt jedes Teilchen (das im Kontext von Deep Learning als Token verstanden werden kann) dem Fluss des Vektorfeldes, und der Fluss hängt vom empirischen Maß aller Teilchen ab. Die Gleichungen wiederum bestimmen die Entwicklung empirischer Partikelmessungen, ein Prozess, der lange dauern kann und anhaltende Aufmerksamkeit erfordert.

Die wichtigste Beobachtung der Forscher ist, dass Partikel dazu neigen, irgendwann zusammenzuklumpen. Dieses Phänomen zeigt sich besonders deutlich bei Lernaufgaben wie der einseitigen Ableitung (d. h. der Vorhersage des nächsten Wortes in einer Sequenz). Die Ausgabemetrik kodiert die Wahrscheinlichkeitsverteilung des nächsten Tokens und eine kleine Anzahl möglicher Ergebnisse kann basierend auf den Clustering-Ergebnissen herausgefiltert werden.

Die Forschungsergebnisse dieses Artikels zeigen, dass die Grenzverteilung tatsächlich eine Punktmasse ist und es keine Diversität oder Zufälligkeit gibt, dies steht jedoch nicht im Einklang mit den tatsächlichen Beobachtungsergebnissen. Dieses scheinbare Paradox wird durch die Tatsache gelöst, dass die Teilchen über lange Zeiträume in variablen Zuständen existieren. Wie aus den Abbildungen 2 und 4 ersichtlich ist, haben Transformatoren zwei unterschiedliche Zeitskalen: In der ersten Stufe bilden alle Token schnell mehrere Cluster, während sie in der zweiten Stufe (viel langsamer als die erste Stufe) durch den paarweisen Zusammenführungsprozess erfolgen In Clustern fallen alle Token schließlich an einem Punkt zusammen.

Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

Das Ziel dieses Artikels ist zweifach. Einerseits soll Dieser Artikel einen allgemeinen und leicht verständlichen Rahmen für das Studium von Transformern aus mathematischer Sicht bieten. Insbesondere die Struktur dieser Systeme interagierender Teilchen ermöglicht es Forschern, konkrete Verbindungen zu etablierten Themen der Mathematik herzustellen, darunter nichtlineare Transportgleichungen, Wasserstein-Gradientenflüsse, Modelle kollektiven Verhaltens und optimale Konfigurationen von Punkten auf einer Kugel. Andererseits beschreibt dieser Artikel mehrere vielversprechende Forschungsrichtungen, mit besonderem Fokus auf Clustering-Phänomene über lange Zeiträume. Die von den Forschern vorgeschlagenen Hauptergebnismaße sind neu und werfen in der gesamten Arbeit auch offene Fragen auf, die sie für interessant halten.

Die Hauptbeiträge dieses Artikels sind in drei Teile gegliedert.

Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

Teil 1: Modellieren. Dieser Artikel definiert ein ideales Modell der Transformer-Architektur, das die Anzahl der Schichten als kontinuierliche Zeitvariable behandelt. Dieser Abstraktionsansatz ist nicht neu und ähnelt dem Ansatz klassischer Architekturen wie ResNets. Das Modell dieses Artikels konzentriert sich nur auf zwei Schlüsselkomponenten der Transformer-Architektur: Selbstaufmerksamkeitsmechanismus und Ebenennormalisierung. Durch die Schichtnormalisierung werden Partikel effektiv auf den Raum der Einheitskugel beschränkt Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

, während der Selbstaufmerksamkeitsmechanismus durch empirische Messungen eine nichtlineare Kopplung zwischen Partikeln erreicht. Das empirische Maß wiederum entwickelt sich gemäß einer Kontinuitäts-Partialdifferentialgleichung. In diesem Artikel wird auch ein einfacheres und benutzerfreundlicheres alternatives Modell für die Selbstaufmerksamkeit vorgestellt, ein Wasserstein-Gradientenfluss einer Energiefunktion. Es gibt bereits ausgereifte Forschungsmethoden für die optimale Konfiguration von Punkten auf der Sphäre der Energiefunktion.

Teil 2: Clustering. In diesem Teil schlagen die Forscher neue mathematische Ergebnisse zum Token-Clustering über einen längeren Zeitraum vor. Wie Satz 4.1 zeigt, sammelt sich im hochdimensionalen Raum eine Gruppe von n Teilchen, die zufällig auf der Einheitskugel initialisiert werden, an einem Punkt bei Enthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben

. Die genaue Beschreibung der Schrumpfungsrate der Partikelcluster durch die Forscher ergänzt dieses Ergebnis. Konkret zeichneten die Forscher Histogramme der Abstände zwischen allen Partikeln sowie der Zeitpunkte auf, zu denen alle Partikel kurz vor der vollständigen Clusterbildung standen (siehe Abschnitt 4 des Originalartikels). Die Forscher erzielten auch Clustering-Ergebnisse, ohne eine große Dimension d anzunehmen (siehe Abschnitt 5 des Originalartikels).

Teil 3: Der Blick nach vorne. In diesem Artikel werden mögliche zukünftige Forschungsrichtungen vorgeschlagen, indem Fragen vor allem in Form offener Fragen gestellt und durch numerische Beobachtungen untermauert werden. Die Forscher konzentrieren sich zunächst auf den Fall der Dimension d = 2 (siehe Abschnitt 6 des Originalartikels) und stellen den Zusammenhang mit dem Kuramoto-Oszillator her. Anschließend wird kurz gezeigt, wie schwierige Probleme im Zusammenhang mit der sphärischen Optimierung durch einfache und natürliche Änderungen am Modell gelöst werden können (siehe Abschnitt 7 des Originalartikels). In den folgenden Kapiteln werden die interagierenden Partikelsysteme untersucht, die es ermöglichen, Parameter in der Transformer-Architektur anzupassen, was später zu praktischen Anwendungen führen kann.

Das obige ist der detaillierte Inhalt vonEnthüllte neue Version: Mathematische Prinzipien von Transformer, die Sie noch nie zuvor gesehen haben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7569

CakePHP-Tutorial

1386

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

107

Related knowledge

„Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. Jul 26, 2024 pm 05:38 PM

In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Jul 26, 2024 am 08:40 AM

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Aug 08, 2024 pm 09:22 PM

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Jul 26, 2024 pm 02:40 PM

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Aug 22, 2024 pm 04:37 PM

Herausgeber | ScienceAI Basierend auf begrenzten klinischen Daten wurden Hunderte medizinischer Algorithmen genehmigt. Wissenschaftler diskutieren darüber, wer die Werkzeuge testen soll und wie dies am besten geschieht. Devin Singh wurde Zeuge, wie ein pädiatrischer Patient in der Notaufnahme einen Herzstillstand erlitt, während er lange auf eine Behandlung wartete, was ihn dazu veranlasste, den Einsatz von KI zu erforschen, um Wartezeiten zu verkürzen. Mithilfe von Triage-Daten aus den Notaufnahmen von SickKids erstellten Singh und Kollegen eine Reihe von KI-Modellen, um mögliche Diagnosen zu stellen und Tests zu empfehlen. Eine Studie zeigte, dass diese Modelle die Zahl der Arztbesuche um 22,3 % verkürzen können und die Verarbeitung der Ergebnisse pro Patient, der einen medizinischen Test benötigt, um fast drei Stunden beschleunigt. Der Erfolg von Algorithmen der künstlichen Intelligenz in der Forschung bestätigt dies jedoch nur

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

PRO |. Warum verdienen große Modelle, die auf MoE basieren, mehr Aufmerksamkeit? Aug 07, 2024 pm 07:08 PM

Im Jahr 2023 entwickeln sich fast alle Bereiche der KI in beispielloser Geschwindigkeit weiter. Gleichzeitig verschiebt die KI ständig die technologischen Grenzen wichtiger Bereiche wie der verkörperten Intelligenz und des autonomen Fahrens. Wird der Status von Transformer als Mainstream-Architektur großer KI-Modelle durch den multimodalen Trend erschüttert? Warum ist die Erforschung großer Modelle auf Basis der MoE-Architektur (Mixture of Experts) zu einem neuen Trend in der Branche geworden? Können Large Vision Models (LVM) ein neuer Durchbruch im allgemeinen Sehvermögen sein? ...Aus dem PRO-Mitglieder-Newsletter 2023 dieser Website, der in den letzten sechs Monaten veröffentlicht wurde, haben wir 10 spezielle Interpretationen ausgewählt, die eine detaillierte Analyse der technologischen Trends und industriellen Veränderungen in den oben genannten Bereichen bieten, um Ihnen dabei zu helfen, Ihre Ziele in der Zukunft zu erreichen Jahr vorbereitet sein. Diese Interpretation stammt aus Week50 2023

See all articles