Heim

CVPR 2024-Partiturarbeit: Die Zhejiang-Universität schlägt eine neue Methode zur hochwertigen monokularen dynamischen Rekonstruktion auf der Grundlage verformbarer dreidimensionaler Gauß-Funktionen vor

CVPR 2024-Partiturarbeit: Die Zhejiang-Universität schlägt eine neue Methode zur hochwertigen monokularen dynamischen Rekonstruktion auf der Grundlage verformbarer dreidimensionaler Gauß-Funktionen vor

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 05, 2024 pm 03:58 PM

工程 Monokulare dynamische Szene

Monokulare dynamische Szene bezieht sich auf eine dynamische Umgebung, die mit einer monokularen Kamera beobachtet und analysiert wird, in der sich Objekte in der Szene frei bewegen können. Die monokulare dynamische Szenenrekonstruktion ist von entscheidender Bedeutung für Aufgaben wie das Verständnis dynamischer Veränderungen in der Umgebung, die Vorhersage von Objektbewegungsbahnen und die Generierung dynamischer digitaler Assets. Mithilfe der monokularen Sehtechnologie können eine dreidimensionale Rekonstruktion und Modellschätzung dynamischer Szenen erreicht werden, was uns hilft, verschiedene Situationen in dynamischen Umgebungen besser zu verstehen und damit umzugehen. Diese Technologie kann nicht nur im Bereich Computer Vision eingesetzt werden, sondern spielt auch in Bereichen wie autonomes Fahren, Augmented Reality und Virtual Reality eine wichtige Rolle. Durch die monokulare dynamische Szenenrekonstruktion können wir die Bewegung von Objekten in der Umgebung genauer erfassen.

Mit dem Aufkommen des neuronalen Renderings, das durch das Neural Radiance Field (NeRF) dargestellt wird, beginnen immer mehr Arbeiten, versteckte 3D-Rekonstruktionen dynamischer Szenen durchzuführen implizite Darstellung. Obwohl einige repräsentative Werke, die auf NeRF basieren, wie D-NeRF, Nerfies, K-planes usw., eine zufriedenstellende Wiedergabequalität erreicht haben, sind sie noch weit von einer echten fotorealistischen Wiedergabe entfernt.

Das Forschungsteam der Zhejiang-Universität und ByteDance wies darauf hin, dass der Kern des oben genannten Problems darin besteht, dass die auf Ray Casting basierende NeRF-Pipeline den Beobachtungsraum durch Rückwärtsfluss auf den kanonischen Raum abbildet, was zu Genauigkeits- und Klarheitsproblemen führt. Die inverse Zuordnung ist für die Konvergenz der erlernten Struktur nicht ideal, was dazu führt, dass aktuelle Methoden im D-NeRF-Datensatz nur PSNR-Rendering-Indikatoren mit mehr als 30 Ebenen erreichen.

Um diese Herausforderung zu lösen, schlug das Forschungsteam einen monokularen dynamischen Szenenmodellierungsprozess vor, der auf Rasterisierung basiert. Sie kombinierten erstmals Deformationsfelder mit 3D-Gauß-Funktionen und schufen so eine neue Methode, die eine hochwertige Rekonstruktion und eine neue perspektivische Darstellung ermöglicht. Dieses Forschungspapier „Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction“ wurde von CVPR 2024, der führenden internationalen akademischen Konferenz im Bereich Computer Vision, angenommen. Das Besondere an dieser Arbeit ist, dass es sich um die erste Studie handelt, die Deformationsfelder auf 3D-Gaußkurven anwendet, um sie auf monokulare dynamische Szenen auszudehnen.

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

Projekthomepage: https://ingra14m.github.io/Deformable-Gaussians/
Papierlink: https://arxiv.org/abs/2309.13101
Code: https: //github.com/ingra14m/Deformable-3D-Gaussians

Die experimentellen Ergebnisse zeigen, dass das verformbare Feld die 3D-Gaußsche Vorwärtsabbildung im kanonischen Raum effektiv und genau auf den Beobachtungsraum abbilden kann. Beim D-NeRF-Datensatz wurde eine PSNR-Verbesserung von mehr als 10 % erreicht. Darüber hinaus können in realen Szenen die Rendering-Details erhöht werden, auch wenn die Kamerahaltung nicht genau genug ist. N Abbildung 1 experimentelles Ergebnis der realen Szene von Hypernerf.

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

Verwandte ArbeitenDie dynamische Szenenrekonstruktion war schon immer ein heißes Thema bei der 3D-Rekonstruktion. Da das durch NeRF dargestellte neuronale Rendering ein qualitativ hochwertiges Rendering ermöglicht, ist im Bereich der dynamischen Rekonstruktion eine Reihe von Arbeiten entstanden, die auf impliziter Darstellung basieren. D-NeRF und Nerfies führen Deformationsfelder basierend auf der NeRF-Raycasting-Pipeline ein, um eine robuste dynamische Szenenrekonstruktion zu erreichen. TiNeuVox, K-Planes und Hexplanes führen auf dieser Basis eine Gitterstruktur ein, die den Modelltrainingsprozess erheblich beschleunigt und die Rendering-Geschwindigkeit verbessert. Diese Methoden basieren jedoch alle auf der inversen Abbildung und können keine wirklich hochwertige Entkopplung von Eichraum und Deformationsfeldern erreichen.

3D Gaussian Splash ist eine Punktwolken-Rendering-Pipeline, die auf Rasterisierung basiert. Seine CUDA-maßgeschneiderte differenzierbare Gaußsche Rasterisierungspipeline und die innovative Verdichtung ermöglichen es 3D-Gaußian nicht nur, SOTA-Rendering-Qualität zu erreichen, sondern auch Echtzeit-Rendering zu erreichen. Dynamischer 3D-Gauß erweitert zunächst den statischen 3D-Gauß auf das dynamische Feld. Allerdings schränkt seine Fähigkeit, nur Multi-View-Szenen zu verarbeiten, seine Anwendung in allgemeineren Situationen, wie Single-View-Szenen wie bei Handyaufnahmen, stark ein.

Forschungsideen

Der Kern von Deformable-GS besteht darin, statische 3D-Gaußsche Szenen auf monokulare dynamische Szenen zu erweitern. Jeder 3D-Gauß-Wert trägt Position, Drehung, Skalierung, Deckkraft und SH-Koeffizienten für die Darstellung auf Bildebene. Gemäß der Formel der 3D-Gaußschen Alphamischung ist es nicht schwer herauszufinden, dass die Position über die Zeit sowie die Rotation und Skalierung, die die Gaußsche Form steuert, die entscheidenden Parameter sind, die den dynamischen 3D-Gaußschen Verlauf bestimmen. Im Gegensatz zu herkömmlichen punktwolkenbasierten Rendering-Methoden werden Parameter wie Position und Transparenz jedoch nach der Initialisierung von 3D-Gauß durch Optimierung kontinuierlich aktualisiert. Dies erschwert das Erlernen dynamischer Gauß-Funktionen.

Diese Forschung schlägt auf innovative Weise ein dynamisches Szenen-Rendering-Framework vor, das gemeinsam mit Deformationsfeldern und 3D-Gauß-Funktionen optimiert wird. Insbesondere behandelt diese Studie durch COLMAP initialisierte 3D-Gaußsche oder zufällige Punktwolken als kanonischen Raum und verwendet dann das Verformungsfeld, um die Koordinateninformationen der 3D-Gaußschen im kanonischen Raum als Eingabe zu verwenden, um die Position und Form jedes 3D-Gaußschen zu vorhersagen im Laufe der Zeit. Mithilfe von Deformationsfeldern kann diese Studie einen 3D-Gaußschen Raum vom kanonischen Raum in den Beobachtungsraum für die gerasterte Darstellung umwandeln. Diese Strategie hat keinen Einfluss auf die differenzierbare Rasterisierungspipeline von 3D-Gauß-Funktionen, und die von ihr berechneten Gradienten können zur Aktualisierung der Parameter der 3D-Gauß-Funktionen im kanonischen Raum verwendet werden.

Darüber hinaus ist die Einführung eines Verformungsfeldes vorteilhaft für die Gaußsche Verdichtung von Teilen mit größeren Bewegungsbereichen. Dies liegt daran, dass der Gradient des Verformungsfeldes in Bereichen mit größeren Bewegungsamplituden relativ höher ist, was dazu führt, dass die entsprechenden Bereiche während des Verdichtungsprozesses feiner reguliert werden. Auch wenn die Anzahl und Positionsparameter der 3D-Gaußschen Werte im kanonischen Raum im Frühstadium ständig aktualisiert werden, zeigen die experimentellen Ergebnisse, dass diese gemeinsame Optimierungsstrategie letztendlich robuste Konvergenzergebnisse erzielen kann. Nach etwa 20.000 Iterationen ändern sich die Positionsparameter des 3D-Gauß-Operators im kanonischen Raum kaum noch.

Das Forschungsteam stellte fest, dass Kamerapositionen in realen Szenen oft nicht genau genug sind und dynamische Szenen dieses Problem verschärfen. Auf die auf dem neuronalen Strahlungsfeld basierende Struktur wird dies keine großen Auswirkungen haben, da das neuronale Strahlungsfeld auf dem Multilayer-Perzeptron (MLP) basiert und eine sehr glatte Struktur darstellt. Allerdings basiert 3D-Gauß auf der expliziten Struktur von Punktwolken, und leicht ungenaue Kamerapositionen lassen sich durch Gauß-Splashing nur schwer robust korrigieren.

Um dieses Problem zu lindern, wurde in dieser Studie das Annealing Smooth Training (AST) innovativ eingeführt. Dieser Trainingsmechanismus soll das Erlernen von 3D-Gauß-Funktionen in der frühen Phase erleichtern und die Rendering-Details in der späteren Phase verbessern. Die Einführung dieses Mechanismus verbessert nicht nur die Qualität des Renderings, sondern verbessert auch die Stabilität und Glätte der zeitlichen Interpolationsaufgabe erheblich.

Abbildung 2 zeigt die Pipeline dieser Forschung. Einzelheiten finden Sie im Originalpapier. Abbildung 2 Die Pipeline dieser Studie.

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

ErgebnisanzeigeDiese Studie führte zunächst Experimente mit synthetischen Datensätzen am D-NeRF-Datensatz durch, der im Bereich der dynamischen Rekonstruktion weit verbreitet ist. Aus den Visualisierungsergebnissen in Abbildung 3 ist nicht schwer zu erkennen, dass Deformable-GS im Vergleich zur vorherigen Methode eine enorme Verbesserung der Rendering-Qualität aufweist. Abbildung 3 Qualitative experimentelle Vergleichsergebnisse dieser Studie zum D-NeRF-Datensatz.

Die in dieser Studie vorgeschlagene Methode hat nicht nur erhebliche Verbesserungen bei den visuellen Effekten erzielt, sondern auch entsprechende Verbesserungen bei den quantitativen Rendering-Indikatoren. Es ist erwähnenswert, dass das Forschungsteam Fehler in den Lego-Szenen des D-NeRF-Datensatzes festgestellt hat, d. h. es gibt geringfügige Unterschiede zwischen den Szenen im Trainingssatz und im Testsatz. Dies spiegelt sich im inkonsistenten Kippwinkel der Lego-Modellschaufel wider. Dies ist auch der wesentliche Grund, warum die Indikatoren der bisherigen Methode in der Lego-Szene nicht verbessert werden können. Um aussagekräftige Vergleiche zu ermöglichen, verwendete die Studie den Validierungssatz von Lego als Basis für metrische Messungen. Abbildung 4 Quantitativer Vergleich synthetischer Datensätze.

Wie in Abbildung 4 dargestellt, verglich diese Studie SOTA-Methoden bei voller Auflösung (800 x 800), einschließlich D-NeRF von CVPR 2020, TiNeuVox von Sig Asia 2022 und Tensor4D von CVPR2023, K-Ebenen. Die in dieser Studie vorgeschlagene Methode hat bei verschiedenen Rendering-Indikatoren (PSNR, SSIM, LPIPS) und in verschiedenen Szenarien erhebliche Verbesserungen erzielt.

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法 Die in dieser Studie vorgeschlagene Methode ist nicht nur auf synthetische Szenen anwendbar, sondern erzielt auch SOTA-Ergebnisse in realen Szenen, in denen die Kamerahaltung nicht genau genug ist. Wie in Abbildung 5 dargestellt, wird diese Studie mit der SOTA-Methode für den NeRF-DS-Datensatz verglichen. Experimentelle Ergebnisse zeigen, dass die in dieser Studie vorgeschlagene Methode auch ohne spezielle Verarbeitung stark lichtreflektierender Oberflächen NeRF-DS, das speziell für stark lichtreflektierende Szenen entwickelt wurde, immer noch übertreffen und den besten Rendering-Effekt erzielen kann.

方法 Abbildung 5 Methodenvergleich in realen Szenen.

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

Obwohl die Einführung von MLP den Rendering-Overhead erhöht, können wir dank der äußerst effizienten CUDA-Implementierung von 3D Gaussian und unserer kompakten MLP-Struktur immer noch Echtzeit-Rendering erreichen. Auf 3090 kann die durchschnittliche FPS des D-NeRF-Datensatzes 85 (400 x 400) bzw. 68 (800 x 800) erreichen.

Darüber hinaus wendet diese Forschung erstmals auch eine differenzierbare Gaußsche Rasterisierungspipeline mit Vorwärts- und Rückwärts-Tiefenausbreitung an. Wie in Abbildung 6 dargestellt, beweist diese Tiefe auch, dass Deformable-GS auch robuste geometrische Darstellungen erhalten kann. Deep Backpropagation kann viele Aufgaben fördern, die in Zukunft eine umfassende Überwachung erfordern, wie z. B. Inverse Rendering (Inverse Rendering), SLAM und autonomes Fahren. Abbildung 6 Tiefenvisualisierung.

Über den Autor

Der erste Autor des Artikels: Yang Ziyi, ein Masterstudent im zweiten Jahr an der Zhejiang-Universität. Seine Hauptforschungsrichtungen sind dreidimensionale Gaußsche Felder, neuronale Strahlungsfelder, Echtzeit-Rendering, usw.

Andere Autoren des Artikels: Gao Xinyu, ein Masterstudent im dritten Jahr an der Zhejiang-Universität. Sein Forschungsschwerpunkt sind neuronale Strahlungsfelder und implizite Szenenkombinationen.

Zhang Yuqing: Masterstudentin im zweiten Jahr an der Zhejiang-Universität. Ihre Hauptforschungsrichtung ist 3D-Generierung und Reverse Rendering.

Der korrespondierende Autor des Artikels ist Professor Jin Xiaogang von der School of Computer Science and Technology der Zhejiang University.

E-Mail: jin@cad.zju.edu.cn

Persönliche Homepage: http://www.cad.zju.edu.cn/home/jin/

Das obige ist der detaillierte Inhalt vonCVPR 2024-Partiturarbeit: Die Zhejiang-Universität schlägt eine neue Methode zur hochwertigen monokularen dynamischen Rekonstruktion auf der Grundlage verformbarer dreidimensionaler Gauß-Funktionen vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7478

CakePHP-Tutorial

1377

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Axiomatisches Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4 Jul 17, 2024 am 10:14 AM

Zeigen Sie LLM die Kausalkette und es lernt die Axiome. KI hilft Mathematikern und Wissenschaftlern bereits bei der Forschung. Beispielsweise hat der berühmte Mathematiker Terence Tao wiederholt seine Forschungs- und Forschungserfahrungen mit Hilfe von KI-Tools wie GPT geteilt. Damit KI in diesen Bereichen konkurrenzfähig sein kann, sind starke und zuverlässige Fähigkeiten zum kausalen Denken unerlässlich. Die in diesem Artikel vorgestellte Forschung ergab, dass ein Transformer-Modell, das auf die Demonstration des kausalen Transitivitätsaxioms für kleine Graphen trainiert wurde, auf das Transitivitätsaxiom für große Graphen verallgemeinern kann. Mit anderen Worten: Wenn der Transformer lernt, einfache kausale Überlegungen anzustellen, kann er für komplexere kausale Überlegungen verwendet werden. Der vom Team vorgeschlagene axiomatische Trainingsrahmen ist ein neues Paradigma zum Erlernen des kausalen Denkens auf der Grundlage passiver Daten, nur mit Demonstrationen

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, erzwungene Verbreitung der nächsten Token-Vorhersage und vollständige Sequenzverbreitung Jul 23, 2024 pm 02:05 PM

Derzeit sind autoregressive groß angelegte Sprachmodelle, die das nächste Token-Vorhersageparadigma verwenden, auf der ganzen Welt populär geworden. Gleichzeitig haben uns zahlreiche synthetische Bilder und Videos im Internet bereits die Leistungsfähigkeit von Diffusionsmodellen gezeigt. Kürzlich hat ein Forschungsteam am MITCSAIL (darunter Chen Boyuan, ein Doktorand am MIT) erfolgreich die leistungsstarken Fähigkeiten des Vollsequenz-Diffusionsmodells und des nächsten Token-Modells integriert und ein Trainings- und Sampling-Paradigma vorgeschlagen: Diffusion Forcing (DF). ). Papiertitel: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Papieradresse: https:/

See all articles