Heim Technologie-Peripheriegeräte KI Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

Apr 29, 2023 pm 08:10 PM
模型 研究

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

  • Project Homepage: https://scene-dreamer.github.io/
  • code: https://github.com/frozenburning/scenedreamer
  • paper: https ://arxiv.org/abs/2302.01330
  • Online-Demo: https://huggingface.co/spaces/FrozenBurning/SceneDreamer

Um die wachsende Nachfrage nach 3D-Kreativwerkzeugen im Metaversum zu befriedigen Nachfrage, 3D-Szenengenerierung hat in letzter Zeit große Aufmerksamkeit erhalten. Im Mittelpunkt der Erstellung von 3D-Inhalten stehen inverse Grafiken, die darauf abzielen, 3D-Darstellungen aus 2D-Beobachtungen wiederherzustellen. Angesichts der Kosten und des Arbeitsaufwands, die für die Erstellung von 3D-Assets erforderlich sind, wird das ultimative Ziel der 3D-Inhaltserstellung darin bestehen, generative 3D-Modelle aus der riesigen Menge an 2D-Bildern im Internet zu lernen. Neuere Arbeiten zu generativen Modellen der 3D-Wahrnehmung haben sich in gewissem Maße mit diesem Problem befasst, wobei die meisten Arbeiten 2D-Bilddaten nutzen, um objektzentrierte Inhalte (z. B. Gesichter, menschliche Körper oder Objekte) zu generieren. Der Beobachtungsraum dieser Art von Generierungsaufgabe liegt jedoch in einem endlichen Bereich und die generierten Ziele nehmen einen begrenzten Bereich des dreidimensionalen Raums ein. Dies wirft die Frage auf: Können wir aus riesigen 2D-Bildern im Internet generative 3D-Modelle unbegrenzter Szenen lernen? Zum Beispiel eine lebendige Naturlandschaft, die jede große Fläche bedecken und sich ins Unendliche ausdehnen kann (wie unten gezeigt).

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

In diesem Artikel schlugen Forscher des Nanyang Technological University S-Lab ein neues Framework SceneDreamer vor, das sich auf das Erlernen unbegrenzter dreidimensionaler Szenengenerierungsmodelle aus massiven unbeschrifteten natürlichen Bildern konzentriert. Durch das Abtasten von Szenenrauschen und Stilrauschen kann SceneDreamer verschiedene Stile natürlicher Szenen rendern und dabei eine extrem hohe dreidimensionale Konsistenz beibehalten, sodass sich die Kamera frei in der Szene bewegen kann.

Um ein solches Ziel zu erreichen, stehen wir vor den folgenden drei Herausforderungen:

1) Unbegrenzten Szenen fehlt eine effiziente dreidimensionale Darstellung: Unbegrenzte Szenen nehmen oft einen beliebig großen euklidischen Raum ein, was die hohe Effizienz und Bedeutung unterstreicht ausdrucksstarker zugrunde liegender dreidimensionaler Darstellungen.

2) Mangelnde Inhaltsausrichtung: Bestehende 3D-Generierungsarbeiten verwenden Datensätze mit ausgerichteten Eigenschaften (wie Gesichter, menschliche Körper, gemeinsame Objekte usw.). Die Zielobjekte in diesen begrenzten Szenen haben normalerweise eine ähnliche Semantik und eine ähnliche Skalierungsposition und Orientierung. In riesigen, unbeschrifteten 2D-Bildern haben verschiedene Objekte oder Szenen jedoch häufig eine sehr unterschiedliche Semantik und unterschiedliche Maßstäbe, Positionen und Ausrichtungen. Diese mangelnde Ausrichtung kann zu Instabilität beim generativen Modelltraining führen.

3) Fehlende Kamera-Posen-Prioris: Generative 3D-Modelle basieren auf Priors präziser Kamera-Posen oder Kamera-Posen-Verteilungen, um den inversen Rendering-Prozess von Bildern zu 3D-Darstellungen zu implementieren. Allerdings stammen natürliche Bilder im Internet aus unterschiedlichen Szenen und Bildquellen, sodass wir keine genauen Informationen oder Vorabinformationen über die Kameraposition erhalten können.

Zu diesem Zweck schlagen wir ein prinzipielles kontradiktorisches Lernframework SceneDreamer vor, das lernt, unbegrenzte dreidimensionale Szenen aus massiven unbeschrifteten natürlichen Bildern zu generieren. Das Framework besteht aus drei Hauptmodulen: 1) einer effizienten und ausdrucksstarken 3D-Szenendarstellung aus der Vogelperspektive; 2) einem generativen neuronalen Hash-Gitter, das eine universelle Darstellung der Szene erlernt; und Das Training wird direkt aus zweidimensionalen Bildern durch kontradiktorisches Lernen durchgeführt.

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

Das obige Bild zeigt die Hauptstruktur von SceneDreamer. Während des Inferenzprozesses können wir als Eingabe zufällig ein Simplex-Rauschen Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren abtasten, das die Szenenstruktur darstellt, und ein Gaußsches Rauschen Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren, das den Szenenstil darstellt Unser Modell ist in der Lage, großformatige 3D-Szenen zu rendern und gleichzeitig freie Kamerabewegungen zu unterstützen. Zuerst erhalten wir die BEV-Szenendarstellung bestehend aus einer Höhenkarte und einer semantischen Karte aus dem Szenenrauschen Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren. Anschließend wird die BEV-Darstellung verwendet, um explizit ein lokales 3D-Szenenfenster zu erstellen, um eine Kameraabtastung durchzuführen, während die BEV-Darstellung in Szenenmerkmale codiert wird Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren. Wir verwenden die Koordinaten von Abtastpunkten Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren und Szenenmerkmalen Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren, um den hochdimensionalen Raum abzufragen, der durch ein generatives neuronales Hashing-Gitter codiert wird, To Erhalten Sie die latenten Variablen räumlicher Unterschiede und SzenenunterschiedeGenerieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren. Schließlich integrieren wir die latenten Variablen im Kameralicht durch einen durch stilistisches Rauschen modulierten Volumenrenderer und erhalten schließlich das gerenderte 2D-Bild.

Um die grenzenlose 3D-Szenengenerierung zu erlernen, hoffen wir, dass die Szene effizient und mit hoher Qualität ausgedrückt werden sollte. Wir schlagen vor, eine großräumige dreidimensionale Szene mithilfe einer BEV-Darstellung auszudrücken, die aus semantischen Karten und Höhenkarten besteht. Insbesondere erhalten wir die Höhenkarte und die semantische Karte aus der Vogelperspektive aus dem Szenenrauschen durch eine nichtparametrische Kartenkonstruktionsmethode. Die Höhenkarte zeichnet die Höheninformationen der Szenenoberflächenpunkte auf, während die semantische Karte die semantischen Beschriftungen der entsprechenden Punkte aufzeichnet. Die von uns verwendete BEV-Darstellung, die aus einer semantischen Karte und einer Höhenkarte besteht, kann: 1) eine dreidimensionale Szene mit einer Komplexität von n ^ 2 darstellen, 2) die dem dreidimensionalen Punkt entsprechende Semantik erhalten und dadurch lösen das Problem der inhaltlichen Ausrichtung. 3) Unterstützt die Verwendung von Schiebefenstern zur Synthese unendlicher Szenen und vermeidet so das Generalisierungsproblem, das durch die feste Szenenauflösung während des Trainings verursacht wird.

Um eine dreidimensionale Darstellung zu kodieren, die zwischen Szenen verallgemeinert werden kann, müssen wir die räumliche dreidimensionale Szenendarstellung in den latenten Raum kodieren, um das Training zu erleichtern des kontradiktorischen Lernens. Es ist erwähnenswert, dass bei einer großen, unbegrenzten Szene normalerweise nur die sichtbaren Oberflächenpunkte für das Rendern von Bedeutung sind, was bedeutet, dass ihre parametrische Form kompakt und spärlich sein sollte. Bestehende Methoden wie die Dreiebenen- oder dreidimensionale Faltung modellieren den Raum als Ganzes, aber eine große Menge an Modellkapazität wird für die Modellierung unsichtbarer Oberflächenpunkte verschwendet. Inspiriert durch den Erfolg neuronaler Hash-Gitter bei 3D-Rekonstruktionsaufgaben verallgemeinern wir ihre räumlich kompakten und effizienten Eigenschaften auf generative Aufgaben und schlagen die Verwendung generativer neuronaler Hash-Gitter zur Modellierung räumlicher 3D-Merkmale über Szenen hinweg vor. Insbesondere wird die Hash-Funktion F_theta verwendet, um Szenenmerkmale f_s und räumliche Punktkoordinaten x auf lernbare Parameter der Mehrskalenmischung abzubilden:

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren #🎜🎜 #

Um die dreidimensionale Konsistenz des Renderings sicherzustellen, verwenden wir ein auf Volumenrendering basierendes Rendering-Netzwerk, um die Abbildung dreidimensionaler Raummerkmale auf zweidimensionale Bilder abzuschließen. Für einen Punkt auf dem Kameralicht fragen wir das generative Hash-Gitter ab, um das entsprechende Merkmal f_x zu erhalten, verwenden durch Stilrauschen moduliertes mehrschichtiges MLP, um die Farbe und Volumendichte des entsprechenden Punkts zu erhalten, und verwenden schließlich Volumenrendering, um a zu konvertieren Punkt Alle Punkte auf dem Kamerastrahl werden in die Farbe des entsprechenden Pixels integriert.

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

Das gesamte Framework wird direkt durchgängig auf 2D-Bildern durch kontradiktorisches Lernen trainiert. Der Generator ist der oben erwähnte Volumenrenderer, und für den Diskriminator verwenden wir ein semantikbewusstes diskriminierendes Netzwerk, um basierend auf der semantischen Karte, die aus der BEV-Darstellung auf die Kamera projiziert wird, zwischen realen und gerenderten Bildern zu unterscheiden. Weitere Einzelheiten finden Sie in unserem Dokument.

Nach Abschluss des Trainings können wir durch zufälliges Abtasten von Szenenrauschen und Stilrauschen verschiedene 3D-Szenen mit guten Tiefeninformationen und 3D-Konsistenz generieren und das kostenlose Rendern unterstützen Kamerabahnen:

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

Durch den Schiebefenster-Inferenzmodus können wir sehr viel generieren große, grenzenlose 3D-Szenen, die die räumliche Auflösung des Trainings bei weitem übertreffen. Die folgende Abbildung zeigt eine Szene mit der zehnfachen räumlichen Auflösung des Trainings und führt eine reibungslose Interpolation sowohl für die Szenen- als auch für die Stildimensionen durch. Unser Framework unterstützt einen entkoppelten Modus, d. h. die separate Fixierung von Szenen oder Stilen für die Interpolation, was den semantischen Reichtum von widerspiegelt der latente Raum: 🎜#

Um die dreidimensionale Konsistenz unserer Methode zu überprüfen, verwenden wir auch eine kreisförmige Kameratrajektorie Um jede Szene zu rendern, wurde re COLMAP für die 3D-Rekonstruktion verwendet und es wurden bessere Szenenpunktwolken und passende Kamerapositionen erhalten, was zeigt, dass diese Methode eine Vielzahl von 3D-Szenen erzeugen und gleichzeitig die 3D-Konsistenz gewährleisten kann:

#🎜🎜 #

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren


Diese Arbeit schlägt SceneDreamer vor, ein Modell zum Erzeugen unbegrenzter dreidimensionaler Szenen aus massiven zweidimensionalen Bildern. Wir sind in der Lage, aus Rauschen vielfältige großformatige 3D-Szenen zu synthetisieren und dabei die 3D-Konsistenz beizubehalten und freie Kamerabahnen zu unterstützen. Wir hoffen, dass diese Arbeit eine neue Erkundungsrichtung und Möglichkeit für die Spieleindustrie, die virtuelle Realität und die Metaverse-Ökologie bieten kann. Weitere Einzelheiten finden Sie auf unserer Projekthomepage.

Das obige ist der detaillierte Inhalt vonGenerieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es könnte die schnellste Wahl für das GPU-Inferenztraining werden Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es könnte die schnellste Wahl für das GPU-Inferenztraining werden Apr 01, 2024 pm 07:46 PM

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch! DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch! Mar 21, 2024 pm 05:21 PM

In diesem Artikel wird das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren untersucht, insbesondere wie die Transformation von Merkmalen aus der Perspektive (PV) in den Raum aus der Vogelperspektive (BEV) effektiv ist implementiert über das Modul Visual Transformation (VT). Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und die Aufmerksamkeitsgewichte der Korrespondenz zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht sich die Rechen- und Bereitstellungszeit.

FisheyeDetNet: der erste Zielerkennungsalgorithmus basierend auf einer Fischaugenkamera FisheyeDetNet: der erste Zielerkennungsalgorithmus basierend auf einer Fischaugenkamera Apr 26, 2024 am 11:37 AM

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

See all articles