Das PyTorch-Team hat das „Split Everything'-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung-KI-php.cn

Heim

Das PyTorch-Team hat das „Split Everything'-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 22, 2023 pm 03:45 PM

pytorch 工程

Wie sollten wir Metas „Alles aufteilen“-Modell optimieren? Dieser vom PyTorch-Team verfasste Blog hilft Ihnen dabei, die Frage von einfach bis tief zu beantworten.

Von Anfang des Jahres bis heute hat sich die generative KI rasant entwickelt. Aber oft stehen wir vor einem schwierigen Problem: Wie können wir das Training, die Argumentation usw. der generativen KI beschleunigen, insbesondere bei Verwendung von PyTorch?

In diesem Artikel liefern uns Forscher des PyTorch-Teams eine Lösung. Der Artikel konzentriert sich auf die Verwendung von reinem nativem PyTorch zur Beschleunigung generativer KI-Modelle. Außerdem werden neue PyTorch-Funktionen und praktische Beispiele für deren Kombination vorgestellt.

Was war das Ergebnis? Das PyTorch-Team gab an, das „Split Everything“ (SAM)-Modell von Meta neu geschrieben zu haben, was zu einem Code führte, der achtmal schneller als die ursprüngliche Implementierung ist, ohne an Genauigkeit zu verlieren, alles mit nativem PyTorch optimiert.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Blog-Adresse: https://pytorch.org/blog/accelerating-generative-ai/

Nachdem Sie diesen Artikel gelesen haben, erfahren Sie:

Torch.compile: PyTorch Der Modell-Compiler PyTorch 2.0 fügt eine neue Funktion namens Torch.compile () hinzu, die vorhandene Modelle mit einer Codezeile beschleunigen kann.
GPU-Quantisierung: Beschleunigen Sie das Modell durch Reduzierung der Berechnungsgenauigkeit; Dot Product Attention): speichereffiziente Aufmerksamkeitsimplementierung;
Halbstrukturierte (2:4) Sparsity: ein für GPU optimiertes Sparse-Speicherformat; Stapeln Sie Daten uneinheitlicher Größe in einen einzigen Tensor, z. B. Bilder unterschiedlicher Größe.
Benutzerdefinierte Triton-Operationen: Verwenden Sie Triton Python DSL, um GPU-Operationen zu schreiben und anzupassen. Durch die Operatorregistrierung können Sie sie einfach in verschiedene Komponenten von PyTorch integrieren .
Erhöhter Durchsatz und geringerer Speicheraufwand durch die nativen Funktionen von PyTorch.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

^{SAM wurde von Meta vorgeschlagen. Weitere Informationen zu dieser Forschung finden Sie unter „}CV existiert nicht mehr? Meta veröffentlicht „Alles aufteilen“-KI-Modell, CV könnte den GPT-3-Moment einleiten
“ .

Als nächstes stellt der Artikel den SAM-Optimierungsprozess vor, einschließlich Leistungsanalyse, Engpasserkennung und wie man diese neuen Funktionen in PyTorch integriert, um diese Probleme zu lösen, mit denen SAM konfrontiert ist. Darüber hinaus werden in diesem Artikel auch einige neue Funktionen von PyTorch vorgestellt: Torch.compile, SDPA, Triton-Kernel, Nested Tensor und halbstrukturierte Sparsity (halbstrukturierte Sparsity).

Der Inhalt dieses Artikels wird Schritt für Schritt ausführlich vorgestellt. Interessierte Freunde können ihn außerdem auf GitHub herunterladen Daten über die Perfetto-Benutzeroberfläche, um den Anwendungswert jedes Merkmals zu erläutern. Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

GitHub-Adresse: https://github.com/pytorch-labs/segment-anything-fast

Neuschreiben des Segmentierungs-Alles-Modells SAM

Diese Studie besagt, dass dieser Artikel Der verwendete SAM-Basisdatentyp ist float32 dtype und die Stapelgröße beträgt 1. Die Ergebnisse der Verwendung von PyTorch Profiler zum Anzeigen des Kernel-Trace sind wie folgt:

In diesem Artikel wurde festgestellt, dass es zwei Stellen gibt, an denen SAM optimiert werden kann:

Der erste ist ein langer Aufruf von aten::index, der durch den zugrunde liegenden Aufruf verursacht wird, der durch Tensorindexoperationen (z. B. []) generiert wird. . Die tatsächliche Zeit, die die GPU für aten::index aufwendet, ist jedoch relativ gering. Der Grund dafür ist, dass aten::index beim Starten von zwei Kernen cudaStreamSynchronize zwischen den beiden blockiert. Das bedeutet, dass die CPU darauf wartet, dass die GPU die Verarbeitung beendet, bis der zweite Kern gestartet wird. Um SAM zu optimieren, ist dieses Papier daher der Ansicht, dass man sich bemühen sollte, die blockierende GPU-Synchronisierung zu beseitigen, die Leerlaufzeiten verursacht.

Der zweite Grund ist, dass SAM viel GPU-Zeit mit der Matrixmultiplikation verbringt (dunkelgrün im Bild oben), was in Transformers üblich ist. Wenn wir die GPU-Zeit reduzieren können, die ein SAM-Modell für Matrixmultiplikationen aufwendet, können wir SAM erheblich beschleunigen.

Als Nächstes verwendet dieser Artikel den Durchsatz (img/s) und den Speicher-Overhead (GiB) von SAM, um eine Basislinie festzulegen. Danach folgt der Optimierungsprozess.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Bfloat16 mit halber Präzision (plus GPU-Synchronisierung und Stapelverarbeitung)

Um das oben genannte Problem zu lösen, d. h. dafür zu sorgen, dass die Matrixmultiplikation weniger Zeit in Anspruch nimmt, wendet sich dieser Artikel an bfloat16. Bfloat16 ist ein häufig verwendeter Typ mit halber Genauigkeit, der viel Rechenzeit und Speicher sparen kann, indem er die Präzision jedes Parameters und jeder Aktivierung verringert. 1 Verwenden Sie BFLOAT16, um den Padding-Typ zu ersetzen. Um die GPU-Synchronisierung zu entfernen, stellt dieser Artikel außerdem fest, dass es zwei Positionen gibt, die optimiert werden können.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Insbesondere (anhand des Bildes oben ist es einfacher zu verstehen, dass die angezeigten Variablennamen alle im Code enthalten sind) ergab die Studie, dass es im SAM-Bildencoder Koordinatenskalierer gibt und k_coords, diese Variablen werden auf der CPU zugewiesen und verarbeitet. Sobald diese Variablen jedoch zur Indizierung in rel_pos_resized verwendet werden, werden diese Variablen durch diese Indizierungsvorgänge automatisch auf die GPU verschoben, und diese Kopie führt zu einer GPU-Synchronisierung. Um das obige Problem zu lösen, wurde in der Studie festgestellt, dass dieser Teil gelöst werden kann, indem man ihn wie oben gezeigt mit Torch.where umschreibt.

Kernel Trace

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung Nach der Anwendung dieser Änderungen wurde in diesem Artikel festgestellt, dass zwischen einzelnen Kernel-Aufrufen eine erhebliche Zeitlücke besteht, insbesondere bei kleinen Chargen (hier 1). Um ein tieferes Verständnis dieses Phänomens zu erlangen, beginnt dieser Artikel mit einer Leistungsanalyse der SAM-Inferenz mit einer Stapelgröße von 8:

Bei der Betrachtung der pro Kern aufgewendeten Zeit stellt dieser Artikel fest, dass SAM den größten Teil seiner GPU verbraucht Zeit Auf elementweisen Kerneln und Softmax-Operationen.

Jetzt können Sie sehen, dass die relativen Kosten der Matrixmultiplikation viel geringer sind.

Durch die Kombination von GPU-Synchronisierung und bfloat16-Optimierung wird die SAM-Leistung um das Dreifache verbessert.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Torch.compile (+Graph Breaks und CUDA Graphs)

In diesem Artikel wurde festgestellt, dass es im Prozess der eingehenden Untersuchung von SAM viele kleine Operationen gibt. Sie glauben, dass die Verwendung eines Compilers zum Zusammenführen von Operationen großartig ist Vorteile, also PyTorch Die folgenden Optimierungen wurden an Torch.compile vorgenommen:

Fusion von Operationssequenzen wie nn.LayerNorm oder nn.GELU in einen einzigen GPU-Kernel;
Fusion von Operationen direkt im Anschluss der Matrixmultiplikationskernel, um die Anzahl der GPU-Kernelaufrufe zu reduzieren.

Durch diese Optimierungen reduzierte die Forschung die Anzahl der globalen GPU-Speicher-Roundtrips und beschleunigte so die Schlussfolgerung. Wir können Torch.compile jetzt auf dem Bildencoder von SAM ausprobieren. Um die Leistung zu maximieren, verwendet dieser Artikel einige erweiterte Kompilierungstechniken:

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Kernel-Tracing

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Die Ergebnisse zeigen, dass Torch.compile sehr gut funktioniert.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Es ist zu beobachten, dass Softmax einen großen Teil der Zeit einnimmt, gefolgt von verschiedenen GEMM-Varianten. Die folgenden Maße gelten für Losgrößen ab 8 Stück.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

SDPA:scaled_dot_product_attention

Als nächstes führte dieser Artikel Experimente zu SDPA (scaled_dot_product_attention) durch, wobei der Schwerpunkt auf dem Aufmerksamkeitsmechanismus lag. Im Allgemeinen skalieren native Aufmerksamkeitsmechanismen quadratisch mit der Sequenzlänge in Zeit und Gedächtnis. Die SDPA-Operationen von PyTorch basieren auf den speichereffizienten Aufmerksamkeitsprinzipien von Flash Attention, FlashAttentionV2 und xFormer, die die GPU-Aufmerksamkeit erheblich beschleunigen können. In Kombination mit Torch.compile ermöglicht dieser Vorgang den Ausdruck und die Fusion eines gemeinsamen Musters in Varianten von MultiheadAttention. Nach einer kleinen Änderung kann das Modell nun Scaled_dot_product_attention verwenden.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Kernel-Tracing

Jetzt können Sie sehen, dass der speichereffiziente Attention-Kernel viel Rechenzeit auf der GPU beansprucht:

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Mit PyTorchs nativem Scaled_dot_product_attention können Sie dies erheblich erhöhen die Losgröße. Die folgende Grafik zeigt die Änderungen für Losgrößen ab 32.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Danach experimentierte die Forschung auch mit Triton, NestedTensor, Stapelverarbeitung Predict_torch, int8-Quantisierung, halbstrukturierter (2:4) Sparsity und anderen Operationen.

In diesem Artikel wird beispielsweise ein benutzerdefinierter positioneller Triton-Kernel verwendet und Messergebnisse mit einer Chargengröße von 32 beobachtet.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Bei Verwendung von Nested Tensor variieren die Stapelgrößen von 32 und mehr.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Messungen für Losgrößen ab 32 nach Hinzufügung der Quantisierung.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Das Ende des Artikels ist halbstrukturierte Sparsity. Die Studie zeigt, dass die Matrixmultiplikation immer noch einen Engpass darstellt, der angegangen werden muss. Die Lösung besteht darin, die Sparsifizierung zur Annäherung an die Matrixmultiplikation zu verwenden. Durch dünn besetzte Matrizen (d. h. das Nullen der Werte) können weniger Bits zum Speichern von Gewichten und Aktivierungstensoren verwendet werden. Der Vorgang, bei dem festgelegt wird, welche Gewichte in einem Tensor auf Null gesetzt werden, wird als Pruning bezeichnet. Durch das Weglassen kleinerer Gewichte kann die Modellgröße möglicherweise ohne nennenswerten Genauigkeitsverlust verringert werden.

Es gibt viele Möglichkeiten zum Beschneiden, von völlig unstrukturiert bis stark strukturiert. Während unstrukturiertes Bereinigen theoretisch nur minimale Auswirkungen auf die Genauigkeit hat, können GPUs, obwohl sie bei der Durchführung großer Multiplikationen mit dichter Matrix sehr effizient sind, in spärlichen Fällen erhebliche Leistungseinbußen erleiden. Eine kürzlich von PyTorch unterstützte Bereinigungsmethode zielt darauf ab, ein Gleichgewicht zu erreichen, das als halbstrukturierte (oder 2:4) Sparsity bezeichnet wird. Diese spärliche Speicherung reduziert den ursprünglichen Tensor um 50 % und erzeugt gleichzeitig eine dichte Tensorausgabe. Siehe Abbildung unten.

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Um dieses spärliche Speicherformat und die damit verbundenen schnellen Kernel nutzen zu können, müssen als nächstes die Gewichte beschnitten werden. In diesem Artikel werden die kleinsten zwei Gewichte zum Bereinigen bei einer Sparse von 2:4 ausgewählt. Das Ändern der Gewichte vom standardmäßigen PyTorch-Layout („gestrided“) in dieses neue halbstrukturierte Sparse-Layout ist einfach. Um apply_sparse (Modell) zu implementieren, sind nur 32 Zeilen Python-Code erforderlich:

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Bei einer Sparsity von 2:4 beobachtet dieses Papier die SAM-Spitzenleistung, wenn vit_b und die Batchgröße 32 sind:

Das PyTorch-Team hat das „Split Everything-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung

Abschließend Um diesen Artikel in einem Satz zusammenzufassen: Dieser Artikel stellt die bisher schnellste Segment Anything-Implementierung auf PyTorch vor. Mit einer Reihe offiziell veröffentlichter neuer Funktionen schreibt dieser Artikel das ursprüngliche SAM in reinem PyTorch neu, ohne an Genauigkeit zu verlieren.

Interessierte Leser können sich für weitere Informationen den Originalblog ansehen.

^{Referenzlink: https://pytorch.org/blog/accelerating-generative-ai/}

Das obige ist der detaillierte Inhalt vonDas PyTorch-Team hat das „Split Everything'-Modell neu geschrieben, das achtmal schneller ist als die ursprüngliche Implementierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7564

CakePHP-Tutorial

1386

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Jul 17, 2024 am 02:46 AM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Einleitung In den letzten Jahren hat die Anwendung multimodaler großer Sprachmodelle (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Als Grundmodell für viele nachgelagerte Aufgaben besteht aktuelles MLLM jedoch aus dem bekannten Transformer-Netzwerk, das

Axiomatisches Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4 Jul 17, 2024 am 10:14 AM

Zeigen Sie LLM die Kausalkette und es lernt die Axiome. KI hilft Mathematikern und Wissenschaftlern bereits bei der Forschung. Beispielsweise hat der berühmte Mathematiker Terence Tao wiederholt seine Forschungs- und Forschungserfahrungen mit Hilfe von KI-Tools wie GPT geteilt. Damit KI in diesen Bereichen konkurrenzfähig sein kann, sind starke und zuverlässige Fähigkeiten zum kausalen Denken unerlässlich. Die in diesem Artikel vorgestellte Forschung ergab, dass ein Transformer-Modell, das auf die Demonstration des kausalen Transitivitätsaxioms für kleine Graphen trainiert wurde, auf das Transitivitätsaxiom für große Graphen verallgemeinern kann. Mit anderen Worten: Wenn der Transformer lernt, einfache kausale Überlegungen anzustellen, kann er für komplexere kausale Überlegungen verwendet werden. Der vom Team vorgeschlagene axiomatische Trainingsrahmen ist ein neues Paradigma zum Erlernen des kausalen Denkens auf der Grundlage passiver Daten, nur mit Demonstrationen

See all articles