ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage-KI-php.cn

Heim

Technologie-Peripheriegeräte

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 08:51 PM

3d 智能

arXiv-Artikel „ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries“, hochgeladen am 2. August 22, gemeinsam erstellt von der Tsinghua University, Shanghai (Yao) Qizhi Research Institute, CMU, Fudan, Li Auto und MIT, usw. Arbeit.

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

Die bestehende Pipeline für autonomes Fahren trennt das Wahrnehmungsmodul vom Vorhersagemodul. Die beiden Module kommunizieren über manuell ausgewählte Funktionen wie Agentenboxen und Trajektorien als Schnittstellen. Aufgrund dieser Trennung erhält das Vorhersagemodul nur Teilinformationen vom Wahrnehmungsmodul. Schlimmer noch: Fehler des Wahrnehmungsmoduls können sich ausbreiten und anhäufen, was sich negativ auf die Vorhersageergebnisse auswirkt.

Diese Arbeit schlägt ViP3D vor, eine visuelle Pipeline zur Flugbahnvorhersage, die die umfangreichen Informationen des Originalvideos nutzt, um die zukünftige Flugbahn des Agenten in der Szene vorherzusagen. ViP3D verwendet in der gesamten Pipeline eine spärliche Agentenabfrage, wodurch sie vollständig differenzierbar und interpretierbar ist. Darüber hinaus wird ein neuer Bewertungsindex für die Aufgabe der durchgängigen visuellen Flugbahnvorhersage vorgeschlagen, End-to-end Prediction Accuracy (EPA, End-to-end Prediction Accuracy), der die Wahrnehmung und Vorhersagegenauigkeit umfassend berücksichtigt Gleichzeitig werden die Vorhersagegenauigkeiten anhand der Ground-Truth-Trajektorien bewertet.

Das Bild zeigt den Vergleich zwischen der herkömmlichen mehrstufigen Kaskadenpipeline und ViP3D: Die herkömmliche Pipeline umfasst mehrere nicht differenzierbare Module wie Erkennung, Verfolgung und Vorhersage. ViP3D verwendet Multi-View-Videos als Eingabe und generiert vorhergesagte Trajektorien Durchgängige Nutzung visueller Informationen, beispielsweise von Fahrzeugblinkern.

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

ViP3D zielt darauf ab, das Problem der Flugbahnvorhersage von Originalvideos durchgängig zu lösen. Konkret sagt ViP3D anhand eines Multi-View-Videos und einer hochauflösenden Karte die zukünftigen Flugbahnen aller Agenten in der Szene voraus.

Der Gesamtprozess von ViP3D ist in der Abbildung dargestellt: Zunächst verarbeitet der abfragebasierte Tracker Multiview-Videos von umgebenden Kameras, um die Abfrage des verfolgten Agenten mit visuellen Funktionen zu erhalten. Die visuellen Merkmale in der Agentenabfrage erfassen die Bewegungsdynamik und visuellen Eigenschaften der Agenten sowie die Beziehungen zwischen Agenten. Danach nimmt der Trajektorienvorhersager die Abfrage des Tracking-Agenten als Eingabe, ordnet sie den HD-Kartenfunktionen zu und gibt schließlich die vorhergesagte Trajektorie aus.

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

Der abfragebasierte Tracker extrahiert visuelle Merkmale aus dem Rohvideo der Surround-Kamera. Insbesondere werden für jeden Frame Bildmerkmale gemäß DETR3D extrahiert. Für die Aggregation von Zeitdomänenmerkmalen wird ein abfragebasierter Tracker gemäß MOTR („Motr: End-to-end multiple-object tracking with transformator“. arXiv 2105.03247, 2021) entwickelt, der zwei wichtige Schritte umfasst: Aktualisierung der Abfragefunktionen und Abfrageüberwachung. Die Agentenabfrage wird im Laufe der Zeit aktualisiert, um die Bewegungsdynamik des Agenten zu modellieren.

Die meisten vorhandenen Methoden zur Flugbahnvorhersage können in drei Teile unterteilt werden: Agentenkodierung, Kartenkodierung und Flugbahndekodierung. Nach der abfragebasierten Verfolgung wird die Abfrage des verfolgten Agenten abgerufen, die als die durch Agentenkodierung erhaltenen Agenteneigenschaften betrachtet werden kann. Daher sind die verbleibenden Aufgaben die Kartenkodierung und die Trajektoriendekodierung.

Stellen Sie die Vorhersage- und Wahrheitsagenten als ungeordnete Mengen Sˆ bzw. S dar, wobei jeder Agent durch die Agentenkoordinaten des aktuellen Zeitschritts und K mögliche zukünftige Trajektorien dargestellt wird. Berechnen Sie für jeden Agententyp c die Vorhersagegenauigkeit zwischen Scˆ und Sc. Die Kosten zwischen dem vorhergesagten Agenten und dem wahren Agenten sind definiert als:

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

Der EPA zwischen Scˆ und Sc ist definiert als:

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

Die experimentellen Ergebnisse sind wie folgt:

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

Hinweis: Dieses Zielrendering ist gut gelungen.

Das obige ist der detaillierte Inhalt vonViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7451

CakePHP-Tutorial

1374

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Warum ist Gaussian Splatting beim autonomen Fahren so beliebt, dass NeRF allmählich aufgegeben wird? Jan 17, 2024 pm 02:57 PM

Oben geschrieben und persönliches Verständnis des Autors. Dreidimensionales Gaussplatting (3DGS) ist eine transformative Technologie, die in den letzten Jahren in den Bereichen explizite Strahlungsfelder und Computergrafik entstanden ist. Diese innovative Methode zeichnet sich durch die Verwendung von Millionen von 3D-Gaußkurven aus, was sich stark von der Neural Radiation Field (NeRF)-Methode unterscheidet, die hauptsächlich ein implizites koordinatenbasiertes Modell verwendet, um räumliche Koordinaten auf Pixelwerte abzubilden. Mit seiner expliziten Szenendarstellung und differenzierbaren Rendering-Algorithmen garantiert 3DGS nicht nur Echtzeit-Rendering-Fähigkeiten, sondern führt auch ein beispielloses Maß an Kontrolle und Szenenbearbeitung ein. Dies positioniert 3DGS als potenziellen Game-Changer für die 3D-Rekonstruktion und -Darstellung der nächsten Generation. Zu diesem Zweck geben wir erstmals einen systematischen Überblick über die neuesten Entwicklungen und Anliegen im Bereich 3DGS.

CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern Mar 26, 2024 pm 12:41 PM

Oben geschrieben und das persönliche Verständnis des Autors: Derzeit spielt das Wahrnehmungsmodul im gesamten autonomen Fahrsystem eine entscheidende Rolle Das Steuermodul im autonomen Fahrsystem trifft zeitnahe und korrekte Urteile und Verhaltensentscheidungen. Derzeit sind Autos mit autonomen Fahrfunktionen in der Regel mit einer Vielzahl von Dateninformationssensoren ausgestattet, darunter Rundumsichtkamerasensoren, Lidar-Sensoren und Millimeterwellenradarsensoren, um Informationen in verschiedenen Modalitäten zu sammeln und so genaue Wahrnehmungsaufgaben zu erfüllen. Der auf reinem Sehen basierende BEV-Wahrnehmungsalgorithmus wird von der Industrie aufgrund seiner geringen Hardwarekosten und einfachen Bereitstellung bevorzugt, und seine Ausgabeergebnisse können problemlos auf verschiedene nachgelagerte Aufgaben angewendet werden.

Die herumfliegenden Gesichtszüge, das Öffnen des Mundes, das Starren und das Hochziehen der Augenbrauen können von der KI perfekt nachgeahmt werden, sodass Videobetrug nicht verhindert werden kann Dec 14, 2023 pm 11:30 PM

Mit solch einer mächtigen KI-Imitationsfähigkeit ist es wirklich unmöglich, dies zu verhindern. Hat die Entwicklung der KI mittlerweile dieses Niveau erreicht? Ihr vorderer Fuß lässt Ihre Gesichtszüge fliegen, und auf Ihrem hinteren Fuß wird genau der gleiche Ausdruck reproduziert. Starren, Augenbrauen hochziehen, schmollen, egal wie übertrieben der Ausdruck ist, alles wird perfekt nachgeahmt. Erhöhen Sie den Schwierigkeitsgrad, heben Sie die Augenbrauen höher, öffnen Sie die Augen weiter, und sogar die Mundform ist schief und der Ausdruck des Avatars kann perfekt reproduziert werden. Wenn Sie die Parameter auf der linken Seite anpassen, ändert der virtuelle Avatar auf der rechten Seite auch seine Bewegungen entsprechend, um eine Nahaufnahme von Mund und Augen zu erhalten. Man kann nicht sagen, dass die Nachahmung genau gleich ist, aber der Ausdruck ist genau derselbe gleich (ganz rechts). Die Forschung stammt von Institutionen wie der Technischen Universität München, die GaussianAvatars vorschlägt

Kamera oder Lidar wählen? Eine aktuelle Übersicht über die Erzielung einer robusten 3D-Objekterkennung Jan 26, 2024 am 11:18 AM

0. Vorab geschrieben&& Persönliches Verständnis, dass autonome Fahrsysteme auf fortschrittlichen Wahrnehmungs-, Entscheidungs- und Steuerungstechnologien beruhen, indem sie verschiedene Sensoren (wie Kameras, Lidar, Radar usw.) verwenden, um die Umgebung wahrzunehmen, und Algorithmen und Modelle verwenden für Echtzeitanalysen und Entscheidungsfindung. Dies ermöglicht es Fahrzeugen, Verkehrszeichen zu erkennen, andere Fahrzeuge zu erkennen und zu verfolgen, das Verhalten von Fußgängern vorherzusagen usw. und sich so sicher an komplexe Verkehrsumgebungen anzupassen. Diese Technologie erregt derzeit große Aufmerksamkeit und gilt als wichtiger Entwicklungsbereich für die Zukunft des Transportwesens . eins. Aber was autonomes Fahren schwierig macht, ist herauszufinden, wie man dem Auto klarmachen kann, was um es herum passiert. Dies erfordert, dass der dreidimensionale Objekterkennungsalgorithmus im autonomen Fahrsystem Objekte in der Umgebung, einschließlich ihrer Standorte, genau wahrnehmen und beschreiben kann.

$Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24)$ Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen

MotionLM: Sprachmodellierungstechnologie für die Bewegungsvorhersage mit mehreren Agenten Oct 13, 2023 pm 12:09 PM

Dieser Artikel wird mit Genehmigung des öffentlichen Kontos von Autonomous Driving Heart nachgedruckt. Bitte wenden Sie sich für den Nachdruck an die Quelle. Originaltitel: MotionLM: Multi-Agent Motion Forecasting as Language Modeling Papierlink: https://arxiv.org/pdf/2309.16534.pdf Autorenzugehörigkeit: Waymo Konferenz: ICCV2023 Papieridee: Für die Sicherheitsplanung autonomer Fahrzeuge das zukünftige Verhalten zuverlässig vorhersagen der Straßenverkehrsbeamten ist von entscheidender Bedeutung. Diese Studie stellt kontinuierliche Trajektorien als Sequenzen diskreter Bewegungstokens dar und behandelt die Bewegungsvorhersage mit mehreren Agenten als eine Sprachmodellierungsaufgabe. Das von uns vorgeschlagene Modell MotionLM hat die folgenden Vorteile: Erstens

LLM ist fertig! OmniDrive: Integration von 3D-Wahrnehmung und Argumentationsplanung (NVIDIAs neueste Version) May 09, 2024 pm 04:55 PM

Oben geschrieben und persönliches Verständnis des Autors: Dieses Papier widmet sich der Lösung der wichtigsten Herausforderungen aktueller multimodaler großer Sprachmodelle (MLLMs) in autonomen Fahranwendungen, nämlich dem Problem der Erweiterung von MLLMs vom 2D-Verständnis auf den 3D-Raum. Diese Erweiterung ist besonders wichtig, da autonome Fahrzeuge (AVs) genaue Entscheidungen über 3D-Umgebungen treffen müssen. Das räumliche 3D-Verständnis ist für AVs von entscheidender Bedeutung, da es sich direkt auf die Fähigkeit des Fahrzeugs auswirkt, fundierte Entscheidungen zu treffen, zukünftige Zustände vorherzusagen und sicher mit der Umgebung zu interagieren. Aktuelle multimodale große Sprachmodelle (wie LLaVA-1.5) können häufig nur Bildeingaben mit niedrigerer Auflösung verarbeiten (z. B. aufgrund von Auflösungsbeschränkungen des visuellen Encoders und Einschränkungen der LLM-Sequenzlänge). Allerdings erfordern autonome Fahranwendungen

Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie Jan 25, 2024 am 11:36 AM

Originaltitel: Radocc: LearningCross-ModalityOccupancyKnowledgethroughRenderingAssistedDistillation Paper-Link: https://arxiv.org/pdf/2312.11829.pdf Autor: FNii, CUHK-ShenzhenSSE, CUHK-Shenzhen Huawei Noah's Ark Laboratory Conference: AAAI2024 Paper Idea: 3D Occupancy Prediction is eine neue Aufgabe, die darauf abzielt, den Belegungszustand und die Semantik von 3D-Szenen anhand von Bildern mit mehreren Ansichten abzuschätzen. Aufgrund des Mangels an geometrischen Prioritäten sind jedoch bildbasierte Szenarien erforderlich

See all articles