CVPR 2024 |. Zero-Sample-6D-Objekthaltungsschätzungs-Framework SAM-6D, ein Schritt näher an der verkörperten Intelligenz-KI-php.cn

Heim

CVPR 2024 |. Zero-Sample-6D-Objekthaltungsschätzungs-Framework SAM-6D, ein Schritt näher an der verkörperten Intelligenz

王林

Mar 25, 2024 pm 06:56 PM

工程 sam-6d

Die Schätzung der Objekthaltung spielt in vielen praktischen Anwendungen eine Schlüsselrolle, beispielsweise in Bereichen wie verkörperte Intelligenz, Roboterbetrieb und Augmented Reality.

In diesem Bereich ist die Aufgabe, die zuerst Aufmerksamkeit erregte, die 6D-Posenschätzung auf Instanzebene, die annotierte Daten über das Zielobjekt für das Modelltraining erfordert, wodurch das tiefe Modell objektspezifisch wird und nicht auf neue Objekte übertragen werden kann. Vorgesetzter. Später verlagerte sich der Forschungsschwerpunkt nach und nach auf die „6D-Posenschätzung auf Kategorieebene“, die zur Verarbeitung unsichtbarer Objekte verwendet wird, aber erfordert, dass das Objekt zu einer bekannten Kategorie von Interesse gehört. Und Zero-Shot 6D-Poseschätzung ist eine allgemeinere Aufgabenstellung, bei der ein CAD-Modell eines beliebigen Objekts gegeben wird und die darauf abzielt, das Zielobjekt in der Szene zu erkennen und seine 6D-Pose abzuschätzen. Trotz ihrer Bedeutung steht diese Zero-Shot-Aufgabeneinstellung vor erheblichen Herausforderungen sowohl bei der Objekterkennung als auch bei der Posenschätzung.

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步 Abbildung 1. 6D-Objektposition ohne Stichprobe ationsaufgabe

^{In letzter Zeit hat das Segmentierungs-All-Model-SAM [1] viel Aufmerksamkeit auf sich gezogen und seine hervorragende Null-Probe-Segmentierungsfähigkeit ist ein Blickfang. SAM erreicht eine hochpräzise Segmentierung durch verschiedene Hinweise wie Pixel, Begrenzungsrahmen, Text und Masken usw., was auch eine zuverlässige Unterstützung für die Null-Probe-6D-Objekthaltungsschätzungsaufgabe bietet und sein vielversprechendes Potenzial demonstriert.}Daher wurde von Forschern von Cross-Dimensional Intelligence, der Chinese University of Hong Kong (Shenzhen) und der South China University of Technology ein neues Zero-Sample-Framework zur 6D-Objekthaltungsschätzung SAM-6D vorgeschlagen. Diese Forschung wurde vom CVPR 2024 anerkannt.

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步 Papier-Link: https://arxiv.org/pdf/2311.15707.pdf

Code-Link: https://github.com/JiehongLin/SAM-6D
SAM-6D Die Posenschätzung von 6D-Objekten ohne Stichprobe wird durch zwei Schritte erreicht, einschließlich Instanzsegmentierung und Posenschätzung. Dementsprechend nutzt SAM-6D bei jedem Zielobjekt zwei dedizierte Subnetzwerke, nämlich
Instance Segmentation Model (ISM) und Pose Estimation Model (PEM)

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步 andere AM-6D ist ein innovatives Zero-Sample-6D-Posenschätzungs-Framework, das anhand des CAD-Modells eines beliebigen Objekts eine Instanzsegmentierung und Posenschätzung von Zielobjekten aus RGB-D-Bildern erreicht und eine hervorragende Leistung erbringt zu den sieben Kerndatensätzen von BOP [2].

^{SAM-6D nutzt die Zero-Shot-Segmentierungsfähigkeit des Segment Everything-Modells, um alle möglichen Kandidaten zu generieren, und entwirft einen neuartigen Objekt-Matching-Score, um Kandidaten zu identifizieren, die Zielobjekten entsprechen.}

SAM-6D behandelt die Posenschätzung als ein lokales Punktmengen-Matching-Problem, übernimmt ein einfaches, aber effektives Hintergrund-Token-Design und schlägt zunächst ein zweistufiges Punktmengen-Matching-Modell für beliebige Objekte vor. Die erste Stufe wird implementiert Grober Punktsatzabgleich, um die anfängliche Objektpose zu erhalten, und die zweite Stufe verwendet einen neuartigen Punktsatztransformator von dünner bis dichter Dichte, um einen feinen Punktsatzabgleich durchzuführen, um die Pose weiter zu optimieren.

Instance Segmentation Model (ISM)
SAM-6D verwendet das Instance Segmentation Model (ISM), um Masken beliebiger Objekte zu erkennen und zu segmentieren.
Der Objekt-Matching-Score wird durch die gewichtete Summe von drei Matching-Termen berechnet:

Semantischer Matching-Term

– Für das Zielobjekt rendert ISM Objektvorlagen aus mehreren Perspektiven und verwendet DINOv2 [3] für das Vortraining des ViT-Modells Extrahiert semantische Merkmale von Kandidatenobjekten und Objektvorlagen und berechnet Korrelationswerte zwischen ihnen. Die semantische Übereinstimmungsbewertung wird durch Mitteln der höchsten K-Bewertungen erhalten, und die Objektvorlage, die der höchsten Korrelationsbewertung entspricht, wird als die am besten übereinstimmende Vorlage angesehen.

Aussehensübereinstimmung – Für die beste Übereinstimmungsvorlage wird das ViT-Modell verwendet, um Bildblockmerkmale zu extrahieren und die Korrelation zwischen ihnen und den Blockmerkmalen des Kandidatenobjekts zu berechnen, um den Aussehensübereinstimmungswert zu erhalten, der zur Unterscheidung semantisch ähnlicher Elemente verwendet wird aber äußerlich passende Gegenstände.

Geometrische Übereinstimmungen – Unter Berücksichtigung von Faktoren wie den Unterschieden in Form und Größe verschiedener Objekte hat ISM auch einen geometrischen Übereinstimmungswert entwickelt. Der Durchschnitt der Drehung entsprechend der am besten passenden Vorlage und der Punktwolke des Kandidatenobjekts kann eine grobe Objekthaltung ergeben, und der Begrenzungsrahmen kann durch starre Transformation und Projektion des Objekt-CAD-Modells unter Verwendung dieser Haltung erhalten werden. Durch Berechnen des Schnittmengen-über-Union-Verhältnisses (IoU) zwischen dem Begrenzungsrahmen und dem Kandidaten-Begrenzungsrahmen kann der geometrische Übereinstimmungswert ermittelt werden.

Pose Estimation Model (PEM)

Für jedes Kandidatenobjekt, das mit einem Zielobjekt übereinstimmt, verwendet SAM-6D ein Pose Estimation Model (PEM), um seine 6D-Pose relativ zum CAD-Modell des Objekts vorherzusagen.

Bezeichnen Sie die Abtastpunktsätze segmentierter Kandidatenobjekte und Objekt-CAD-Modelle als bzw. , wobei N_m und N_o gleichzeitig die Anzahl ihrer Punkte darstellen und die Eigenschaften dieser beiden Punktsätze als und darstellen. C steht für die Anzahl der Kanäle der Funktion. Das Ziel von PEM besteht darin, eine Zuordnungsmatrix zu erhalten, die die örtliche Korrespondenz von P_m zu P_o darstellt. Aufgrund der Okklusion stimmt P_o nur teilweise mit P_m überein, und aufgrund von Segmentierungsungenauigkeiten und Sensorrauschen stimmt P_m nur teilweise überein. Teilweise UND-Übereinstimmungen P_o.

Um das Problem der Zuweisung nicht überlappender Punkte in zwei Punktmengen zu lösen, stattet ISM sie mit Hintergrund-Tokens aus, die als und bezeichnet werden und auf der Grundlage der Merkmalsähnlichkeit effektiv eine lokale Korrespondenz herstellen können. Konkret kann die Aufmerksamkeitsmatrix zunächst wie folgt berechnet werden:

Dann stellen die Verteilungsmatrix

und die Softmax-Operation entlang der Zeilen bzw. Spalten dar und stellt eine Konstante dar. Der Wert jeder Zeile in (mit Ausnahme der ersten Zeile) stellt die Übereinstimmungswahrscheinlichkeit jedes Punktes P_m in der Punktmenge P_m mit dem Hintergrund und dem Mittelpunkt von P_o dar. Durch Lokalisieren des Index der maximalen Punktzahl wird der Punkt, der P_m entspricht (einschließlich). der Hintergrund) finden Sie ).

Sobald berechnet ist, können alle übereinstimmenden Punktpaare {(P_m,P_o)} und ihre Übereinstimmungswerte gesammelt werden, und schließlich wird die gewichtete SVD zur Berechnung der Objektpose verwendet.

Unter Verwendung der oben genannten Strategie basierend auf dem Hintergrundtoken werden in PEM zwei Phasen des Punktsatzabgleichs entworfen. Die Modellstruktur ist in Abbildung 3 dargestellt, die drei Module umfasst: Merkmalsextraktion, grober Punktsatzabgleich und feiner Punktsatzabgleich.
Das Modul zur groben Punktmengenanpassung implementiert eine spärliche Korrespondenz, um die anfängliche Objekthaltung zu berechnen, und verwendet diese Haltung dann, um die Punktmenge des Kandidatenobjekts zu transformieren, um ein Lernen der Positionskodierung zu erreichen.
Das Feinpunktsatz-Matching-Modul kombiniert die Positionskodierung der Beispielpunktsätze des Kandidatenobjekts und des Zielobjekts, wodurch in der ersten Stufe die grobe Korrespondenz eingefügt und weiter eine dichte Korrespondenz hergestellt wird, um eine präzisere Objekthaltung zu erhalten. Um dichte Wechselwirkungen in dieser Phase effektiv zu lernen, führt PEM einen neuartigen Transformator für spärliche in dichte Punktmengen ein, der Wechselwirkungen auf spärliche Versionen dichter Merkmale implementiert und den linearen Transformator [5] verwendet, um die verbesserten spärlichen Merkmale in Diffusion zurück in dichte umzuwandeln Merkmale.

Experimentelle Ergebnisse
Für die beiden Untermodelle von SAM-6D basiert das Instanzsegmentierungsmodell (ISM) auf SAM, ohne dass eine Neuschulung und Feinabstimmung des Netzwerks erforderlich ist, während das Posenschätzungsmodell (PEM) MegaPose verwendet [4] stellt umfangreiche synthetische Datensätze von ShapeNet-Objects und Google-Scanned-Objects für das Training bereit.
Um seine Zero-Sample-Fähigkeit zu überprüfen, wurde SAM-6D an sieben Kerndatensätzen von BOP [2] getestet, darunter LM-O, T-LESS, TUD-L, IC-BIN, ITODD, HB und YCB-V . Die Tabellen 1 und 2 zeigen den Vergleich der Instanzsegmentierungs- und Posenschätzungsergebnisse verschiedener Methoden für diese sieben Datensätze. Im Vergleich zu anderen Methoden schneidet SAM-6D bei beiden Methoden sehr gut ab und stellt seine starke Generalisierungsfähigkeit voll unter Beweis. B Tabelle 1. Das Sterilisationsergebnis verschiedener Methoden zu den sieben Kerndatensätzen zu BOP

Tabellen 2. Verschiedene Methoden zur Einstellung verschiedener Methoden zu den sieben Kerndatensätzen zu BOP Vergleich der Ergebnisse

Abbildung 4 zeigt die visuellen Ergebnisse der Erkennungssegmentierung und der 6D-Lageschätzung von SAM-6D anhand von sieben BOP-Datensätzen, wobei (a) und (b) die getesteten RGB-Bilder bzw. Tiefenkarten sind und (c) ein gegebenes Ziel ist Objekt, während (d) und (e) die Visualisierungsergebnisse der Erkennungssegmentierung bzw. der 6D-Pose sind. -Abbildung 4. Die visuellen Ergebnisse der sieben Kerndatensätze von SAM-6D auf dem BOP.

^{Weitere Implementierungsdetails von SAM-6D finden Sie im Originalpapier.}

Referenzen:

[1] Alexander Kirillov et. al., „Segment everything.“

[2] Martin Sundermeyer et. al., „Bop Challenge 2022 zur Erkennung, Segmentierung und Posenschätzung spezifischer starrer Objekte.“
[3] Maxime Oquab et. al., „Dinov2: Learning Robuste visuelle Funktionen ohne Aufsicht . al., „Transformer sind rnns: Schnelle autoregressive
Transformer mit linearer Aufmerksamkeit.“

Das obige ist der detaillierte Inhalt vonCVPR 2024 |. Zero-Sample-6D-Objekthaltungsschätzungs-Framework SAM-6D, ein Schritt näher an der verkörperten Intelligenz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7455

CakePHP-Tutorial

1375

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Axiomatisches Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4 Jul 17, 2024 am 10:14 AM

Zeigen Sie LLM die Kausalkette und es lernt die Axiome. KI hilft Mathematikern und Wissenschaftlern bereits bei der Forschung. Beispielsweise hat der berühmte Mathematiker Terence Tao wiederholt seine Forschungs- und Forschungserfahrungen mit Hilfe von KI-Tools wie GPT geteilt. Damit KI in diesen Bereichen konkurrenzfähig sein kann, sind starke und zuverlässige Fähigkeiten zum kausalen Denken unerlässlich. Die in diesem Artikel vorgestellte Forschung ergab, dass ein Transformer-Modell, das auf die Demonstration des kausalen Transitivitätsaxioms für kleine Graphen trainiert wurde, auf das Transitivitätsaxiom für große Graphen verallgemeinern kann. Mit anderen Worten: Wenn der Transformer lernt, einfache kausale Überlegungen anzustellen, kann er für komplexere kausale Überlegungen verwendet werden. Der vom Team vorgeschlagene axiomatische Trainingsrahmen ist ein neues Paradigma zum Erlernen des kausalen Denkens auf der Grundlage passiver Daten, nur mit Demonstrationen

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, erzwungene Verbreitung der nächsten Token-Vorhersage und vollständige Sequenzverbreitung Jul 23, 2024 pm 02:05 PM

Derzeit sind autoregressive groß angelegte Sprachmodelle, die das nächste Token-Vorhersageparadigma verwenden, auf der ganzen Welt populär geworden. Gleichzeitig haben uns zahlreiche synthetische Bilder und Videos im Internet bereits die Leistungsfähigkeit von Diffusionsmodellen gezeigt. Kürzlich hat ein Forschungsteam am MITCSAIL (darunter Chen Boyuan, ein Doktorand am MIT) erfolgreich die leistungsstarken Fähigkeiten des Vollsequenz-Diffusionsmodells und des nächsten Token-Modells integriert und ein Trainings- und Sampling-Paradigma vorgeschlagen: Diffusion Forcing (DF). ). Papiertitel: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Papieradresse: https:/

See all articles