Heim Technologie-Peripheriegeräte KI Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Jan 14, 2024 pm 01:51 PM
工程

Optimieren Sie ausgehend von den Wurzeln großer Modelle. Man kann sagen, dass die

Transformer-Architektur die treibende Kraft hinter vielen aktuellen Erfolgsgeschichten im Bereich Deep Learning ist. Eine einfache Möglichkeit, eine tiefe Transformer-Architektur aufzubauen, besteht darin, mehrere identische Transformer-„Blöcke“ nacheinander zu stapeln. Allerdings ist jeder „Block“ komplexer und besteht aus vielen verschiedenen Komponenten, die eine bestimmte Anordnung und Kombination erfordern, um eine gute Leistung zu erzielen.

Seit der Geburt der Transformer-Architektur im Jahr 2017 haben Forscher eine große Anzahl darauf basierender abgeleiteter Studien gestartet, es wurden jedoch fast keine Änderungen am Transformer-„Block“ vorgenommen.

Die Frage ist also: Kann der Standard-Transformer-Block vereinfacht werden?

In einem aktuellen Artikel diskutieren Forscher der ETH Zürich, wie der für LLM erforderliche Standard-Transformerblock vereinfacht werden kann, ohne die Konvergenzeigenschaften und die Leistung nachgelagerter Aufgaben zu beeinträchtigen. Basierend auf der Signalausbreitungstheorie und empirischen Beweisen fanden sie heraus, dass einige Teile wie Restverbindungen, Normalisierungsschichten (LayerNorm), Projektions- und Wertparameter sowie „MLP-Serialisierungsunterblöcke“ (bevorzugt paralleles Layout) entfernt werden können, um GPT zu vereinfachen. wie Decoder-Architektur und BERT-Modell im Encoder-Stil. Die Forscher untersuchten, ob die beteiligten Komponenten entfernt werden können, ohne die Trainingsgeschwindigkeit zu beeinträchtigen, und welche architektonischen Änderungen am Transformer-Block vorgenommen werden sollten.

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier anLink zum Papier: https://arxiv.org/pdf/2311.01906.pdf

Lightning AI

Der Gründer und Forscher für maschinelles Lernen, Sebastian Raschka, nennt diese Forschung seine „Lieblingsarbeit des Jahres“ One “:

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier anAber einige Forscher fragten: „

Es ist schwer zu kommentieren, es sei denn, ich habe den vollständigen Trainingsprozess gesehen. Wenn es keine Normalisierungsschicht und keine Restverbindung gibt, wie kann sie dann größer als 1

sein?“

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an
Sebastian Raschka

stimmte zu: „Ja, die Architektur, mit der sie experimentiert haben, ist relativ klein. Ob sich dies auf einen Transformer mit Milliarden von Parametern übertragen lässt, bleibt abzuwarten. Aber er sagte trotzdem, die Arbeit sei beeindruckend und glaubte daran Das erfolgreiche Entfernen verbleibender Verbindungen war völlig vernünftig (angesichts des Initialisierungsschemas). In diesem Zusammenhang kommentierte Turing-Preisträger Yann LeCun: „

Wir haben nur die Oberfläche des Bereichs der Deep-Learning-Architektur berührt. Dies ist ein hochdimensionaler Raum, daher ist das Volumen fast vollständig in der Oberfläche enthalten, aber wir.“ habe nur die Oberfläche berührt. Ein kleiner Teil von

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Warum müssen wir den Transformer-Block vereinfachen?

Die Forscher sagten, dass die Vereinfachung des Transformer-Blocks ohne Beeinträchtigung der Trainingsgeschwindigkeit ein interessantes Forschungsproblem sei.

Erstens sind moderne neuronale Netzwerkarchitekturen komplex im Design und enthalten viele Komponenten, und die Rolle, die diese verschiedenen Komponenten in der Dynamik des neuronalen Netzwerktrainings spielen und wie sie miteinander interagieren, ist nicht gut verstanden. Diese Frage bezieht sich auf die Kluft zwischen Deep-Learning-Theorie und -Praxis und ist daher sehr wichtig.

Die Signalausbreitungstheorie hat sich als einflussreich erwiesen, da sie praktische Designentscheidungen in tiefen neuronalen Netzwerkarchitekturen motiviert. Die Signalausbreitung untersucht die Entwicklung geometrischer Informationen in neuronalen Netzen bei der Initialisierung, erfasst durch das innere Produkt hierarchischer Darstellungen über Eingaben hinweg, und hat zu vielen beeindruckenden Ergebnissen beim Training tiefer neuronaler Netze geführt.

Allerdings berücksichtigt diese Theorie derzeit nur das Modell während der Initialisierung und oft nur den anfänglichen Vorwärtsdurchlauf, sodass sie viele komplexe Probleme in der Trainingsdynamik tiefer neuronaler Netze, wie etwa den Beitrag von Restverbindungen zur Trainingsgeschwindigkeit, nicht aufdecken kann. Während die Signalausbreitung für die Modifikationsmotivation von entscheidender Bedeutung ist, sagten die Forscher, dass sie aus der Theorie allein kein vereinfachtes Transformer-Modul ableiten könnten und sich auf empirische Erkenntnisse verlassen müssten.

Im Hinblick auf praktische Anwendungen stellen Effizienzverbesserungen in den Trainings- und Inferenzpipelines der Transformer-Architektur angesichts der derzeit hohen Kosten für Training und Bereitstellung großer Transformer-Modelle ein enormes Einsparpotenzial dar. Wenn das Transformer-Modul durch Entfernen unnötiger Komponenten vereinfacht werden kann, kann dies sowohl die Anzahl der Parameter reduzieren als auch den Durchsatz des Modells verbessern.

In diesem Artikel wurde auch erwähnt, dass es nach dem Entfernen der Restverbindung, der Wertparameter, der Projektionsparameter und der Serialisierungsunterblöcke hinsichtlich der Trainingsgeschwindigkeit und der Leistung nachgelagerter Aufgaben mit dem Standard-Transformer mithalten kann. Letztendlich reduzierten die Forscher die Anzahl der Parameter um 16 % und beobachteten eine Steigerung des Durchsatzes bei Trainings- und Inferenzzeiten um 16 %.

Wie vereinfacht man den Transformer-Block?

Basierend auf der Signalausbreitungstheorie und empirischen Beobachtungen stellte der Forscher vor, wie man ausgehend vom Pre-LN-Modul den einfachsten Transformatorblock generiert (wie unten gezeigt).

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

In jedem Abschnitt von Kapitel 4 des Papiers stellt der Autor vor, wie man jeweils eine Blockkomponente löscht, ohne die Trainingsgeschwindigkeit zu beeinträchtigen.

Alle Experimente in diesem Teil verwenden ein 18-Block-768-Breite-Kausal-Decoder-only-GPT-Modell auf dem CodeParrot-Datensatz. Dieser Datensatz ist groß genug, sodass die Generalisierungslücke besteht, wenn sich der Autor im Einzeltrainingsepochenmodus befindet sehr klein (siehe Abbildung 2), sodass sie sich auf die Trainingsgeschwindigkeit konzentrieren können.

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Restverbindungen löschen

Die Forscher erwogen zunächst, die Restverbindungen im Aufmerksamkeitsunterblock zu löschen. In der Notation von Gleichung (1) entspricht dies der Festlegung von α_SA auf 0. Das bloße Entfernen verbleibender Aufmerksamkeitsverbindungen kann zu einer Signalverschlechterung, d. h. einem Rangzusammenbruch, führen, was zu einer schlechten Trainierbarkeit führt. In Abschnitt 4.1 der Arbeit erläutern die Forscher ihre Methode ausführlich.

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Projektions-/Wertparameter entfernen

Aus Abbildung 3 kann geschlossen werden, dass eine vollständige Entfernung der Wert- und Projektionsparameter W^V, W^P mit minimalem Verlust der Trainingsgeschwindigkeit pro Aktualisierung möglich ist. Das heißt, wenn β_V = β_P = 0 und die Identität initialisiert wird

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

, kann diese Studie nach der gleichen Anzahl von Trainingsschritten grundsätzlich die Leistung des Pre-LN-Blocks erreichen. In diesem Fall gilt für W^V = W^P = I während des gesamten Trainingsprozesses W^V = W^P = I, d. h. die Werte und Projektionsparameter sind konsistent. Detaillierte Methoden stellen die Autoren in Abschnitt 4.2 vor.

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Löschen von MLP-Unterblock-Restverbindungen

Im Vergleich zu den oben genannten Modulen ist das Löschen von MLP-Unterblock-Restverbindungen eine größere Herausforderung. Wie in früheren Untersuchungen stellten die Autoren fest, dass bei der Verwendung von Adam ohne MLP-Restverbindungen eine linearere Aktivierung von Aktivierungen durch Signalausbreitung immer noch zu einer erheblichen Verringerung der Trainingsgeschwindigkeit pro Aktualisierung führte, wie in Abbildung 22 dargestellt.

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Sie haben auch verschiedene Variationen der Looks Linear-Initialisierung ausprobiert, darunter Gaußsche Gewichte, orthogonale Gewichte oder Identitätsgewichte, aber ohne Erfolg. Daher verwenden sie während ihrer gesamten Arbeit und Initialisierung in MLP-Unterblöcken Standardaktivierungen (z. B. ReLU).

Die Autoren wenden sich dem Konzept paralleler MHA- und MLP-Unterblöcke zu, das sich in mehreren neueren großen Transformatormodellen wie PALM und ViT-22B als beliebt erwiesen hat. Der Paralleltransformatorblock ist in der folgenden Abbildung dargestellt.

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Der Autor beschreibt den spezifischen Vorgang zum Entfernen von MLP-Unterblock-Restverbindungen in Abschnitt 4.3 des Papiers.

Löschen Sie die Normalisierungsebene

Als letztes wird die Normalisierungsebene gelöscht, sodass Sie den einfachsten Block in der oberen rechten Ecke von Abbildung 1 erhalten. Aus Sicht der Signalausbreitungsinitialisierung können die Autoren die Normalisierungsschicht in jeder Phase der Vereinfachung in diesem Abschnitt entfernen. Ihre Idee ist, dass die Normalisierung im Pre-LN-Block implizit das Gewicht der Restzweige reduziert und dieser vorteilhafte Effekt ohne die Normalisierungsschicht durch einen anderen Mechanismus repliziert werden kann: Entweder bei Verwendung von Restverbindungen das Gewicht des Restzweigs explizit reduzieren , oder die Aufmerksamkeitsmatrix in Richtung Identität lenken/MLP-Nichtlinearität in „mehr“ Linearität umwandeln.

Da der Autor diese Mechanismen während des Änderungsprozesses berücksichtigt hat (z. B. die Reduzierung des Gewichts von MLP β_FF und Shaped Attention), besteht keine Notwendigkeit für eine Normalisierung. Weitere Informationen stellen die Autoren in Abschnitt 4.4 vor.

Experimentelle Ergebnisse

Tiefenerweiterung

Da sich die Signalausbreitungstheorie normalerweise auf große Tiefen konzentriert, kommt es in diesem Fall normalerweise zu einer Signalverschlechterung. Eine natürliche Frage ist also: Lässt sich die verbesserte Trainingsgeschwindigkeit, die durch unseren vereinfachten Transformatorblock erreicht wird, auch auf größere Tiefen übertragen?

Aus Abbildung 6 ist ersichtlich, dass nach der Erweiterung der Tiefe von 18 Blöcken auf 72 Blöcke die Leistung sowohl des Modells als auch des Pre-LN-Transformators in dieser Studie verbessert wird, was zeigt, dass das vereinfachte Modell in dieser Studie nicht nur verbessert wird schneller im Training Schneller und in der Lage, die zusätzlichen Fähigkeiten zu nutzen, die eine größere Tiefe bietet. Tatsächlich sind die Trajektorien pro Aktualisierung des vereinfachten Blocks und des Pre-LN in dieser Studie bei Verwendung der Normalisierung in unterschiedlichen Tiefen nahezu nicht zu unterscheiden.

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

BERT

Als nächstes zeigen die Autoren, dass ihre vereinfachte Blockleistung neben autoregressiven Decodern auch für verschiedene Datensätze und Architekturen sowie nachgelagerte Aufgaben gilt. Sie wählten die beliebte Einstellung des bidirektionalen Encoder-only-BERT-Modells für die maskierte Sprachmodellierung und verwendeten den nachgeschalteten GLUE-Benchmark.

Wie in Abbildung 7 dargestellt, sind die vereinfachten Blöcke dieser Studie innerhalb von 24 Stunden Laufzeit mit der Geschwindigkeit vor dem Training der maskierten Sprachmodellierungsaufgabe im Vergleich zur (überfüllten) Pre-LN-Basislinie vergleichbar. Andererseits führt das Entfernen restlicher Verbindungen ohne erneute Änderung von Werten und Prognosen zu einer deutlichen Verringerung der Trainingsgeschwindigkeit. In Abbildung 24 stellen die Autoren ein entsprechendes Diagramm des Mikrobatch-Schritts bereit.

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Darüber hinaus stellten die Forscher in Tabelle 1 fest, dass ihre Methode nach der Feinabstimmung am GLUE-Benchmark eine vergleichbare Leistung wie der Crammed BERT-Benchmark erbrachte.

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Sie schlüsseln die nachgelagerten Aufgaben in Tabelle 2 auf. Für einen fairen Vergleich verwendeten sie dasselbe Feinabstimmungsprotokoll wie Geiping & Goldstein (2023) (5 Epochen, konstante Hyperparameter für jede Aufgabe, Dropout-Regularisierung).

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Verbesserte Effizienz

In Tabelle 1 haben die Forscher auch die Anzahl der Parameter und die Trainingsgeschwindigkeit von Modellen detailliert beschrieben, die verschiedene Transformer-Blöcke in der maskierten Sprachmodellierungsaufgabe verwenden. Sie berechneten die Geschwindigkeit als das Verhältnis der Anzahl der Mikrobatch-Schritte, die während 24 Stunden des Vortrainings durchgeführt wurden, zum Basiswert des Pre-LN Crammed BERT. Die Schlussfolgerung ist, dass das Modell 16 % weniger Parameter verwendet und SAS-P und SAS pro Iteration 16 % bzw. 9 % schneller sind als der Pre-LN-Block.

Es ist zu beachten, dass bei der Implementierung hier der Parallelblock nur 5 % schneller ist als der Pre-LN-Block, während die von Chowdhery et al. (2022) beobachtete Trainingsgeschwindigkeit 15 % schneller ist, was zeigt, dass mit a optimiertere Umsetzung, Es ist möglich, dass die gesamte Trainingsgeschwindigkeit weiter erhöht werden kann. Wie Geiping & Goldstein (2023) nutzt auch diese Implementierung die automatische Operator-Fusion-Technologie in PyTorch (Sarofeen et al., 2022).

Längeres Training

Angesichts des aktuellen Trends, kleinere Modelle auf mehr Daten über längere Zeiträume zu trainieren, diskutierten die Forscher schließlich, ob vereinfachte Blöcke nach langer Trainingsgeschwindigkeit immer noch das Training von Pre-LN-Blöcken erreichen können. Dazu verwenden sie das Modell in Abbildung 5 auf CodeParrot und trainieren mit 3x-Tokens. Um genau zu sein, erfordert das Training etwa 120.000 Schritte (anstelle von 40.000 Schritten) bei einer Stapelgröße von 128 und einer Sequenzlänge von 128, was zu etwa 2B Token führt.

Wie aus Abbildung 8 ersichtlich ist, ist die Trainingsgeschwindigkeit der vereinfachten SAS- und SAS-P-Codeblöcke immer noch mit der der PreLN-Codeblöcke vergleichbar oder sogar besser, wenn mehr Token für das Training verwendet werden.

Netizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an

Weitere Forschungsdetails finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonNetizens loben: Transformer führt die vereinfachte Version des Jahrespapiers hier an. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Axiomatisches Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4 Axiomatisches Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4 Jul 17, 2024 am 10:14 AM

Zeigen Sie LLM die Kausalkette und es lernt die Axiome. KI hilft Mathematikern und Wissenschaftlern bereits bei der Forschung. Beispielsweise hat der berühmte Mathematiker Terence Tao wiederholt seine Forschungs- und Forschungserfahrungen mit Hilfe von KI-Tools wie GPT geteilt. Damit KI in diesen Bereichen konkurrenzfähig sein kann, sind starke und zuverlässige Fähigkeiten zum kausalen Denken unerlässlich. Die in diesem Artikel vorgestellte Forschung ergab, dass ein Transformer-Modell, das auf die Demonstration des kausalen Transitivitätsaxioms für kleine Graphen trainiert wurde, auf das Transitivitätsaxiom für große Graphen verallgemeinern kann. Mit anderen Worten: Wenn der Transformer lernt, einfache kausale Überlegungen anzustellen, kann er für komplexere kausale Überlegungen verwendet werden. Der vom Team vorgeschlagene axiomatische Trainingsrahmen ist ein neues Paradigma zum Erlernen des kausalen Denkens auf der Grundlage passiver Daten, nur mit Demonstrationen

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, erzwungene Verbreitung der nächsten Token-Vorhersage und vollständige Sequenzverbreitung Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, erzwungene Verbreitung der nächsten Token-Vorhersage und vollständige Sequenzverbreitung Jul 23, 2024 pm 02:05 PM

Derzeit sind autoregressive groß angelegte Sprachmodelle, die das nächste Token-Vorhersageparadigma verwenden, auf der ganzen Welt populär geworden. Gleichzeitig haben uns zahlreiche synthetische Bilder und Videos im Internet bereits die Leistungsfähigkeit von Diffusionsmodellen gezeigt. Kürzlich hat ein Forschungsteam am MITCSAIL (darunter Chen Boyuan, ein Doktorand am MIT) erfolgreich die leistungsstarken Fähigkeiten des Vollsequenz-Diffusionsmodells und des nächsten Token-Modells integriert und ein Trainings- und Sampling-Paradigma vorgeschlagen: Diffusion Forcing (DF). ). Papiertitel: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Papieradresse: https:/

See all articles