Heim Technologie-Peripheriegeräte KI ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

Apr 08, 2023 pm 08:51 PM
3d 智能

arXiv-Artikel „ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries“, hochgeladen am 2. August 22, gemeinsam erstellt von der Tsinghua University, Shanghai (Yao) Qizhi Research Institute, CMU, Fudan, Li Auto und MIT, usw. Arbeit.

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

Die bestehende Pipeline für autonomes Fahren trennt das Wahrnehmungsmodul vom Vorhersagemodul. Die beiden Module kommunizieren über manuell ausgewählte Funktionen wie Agentenboxen und Trajektorien als Schnittstellen. Aufgrund dieser Trennung erhält das Vorhersagemodul nur Teilinformationen vom Wahrnehmungsmodul. Schlimmer noch: Fehler des Wahrnehmungsmoduls können sich ausbreiten und anhäufen, was sich negativ auf die Vorhersageergebnisse auswirkt.

Diese Arbeit schlägt ViP3D vor, eine visuelle Pipeline zur Flugbahnvorhersage, die die umfangreichen Informationen des Originalvideos nutzt, um die zukünftige Flugbahn des Agenten in der Szene vorherzusagen. ViP3D verwendet in der gesamten Pipeline eine spärliche Agentenabfrage, wodurch sie vollständig differenzierbar und interpretierbar ist. Darüber hinaus wird ein neuer Bewertungsindex für die Aufgabe der durchgängigen visuellen Flugbahnvorhersage vorgeschlagen, End-to-end Prediction Accuracy (EPA, End-to-end Prediction Accuracy), der die Wahrnehmung und Vorhersagegenauigkeit umfassend berücksichtigt Gleichzeitig werden die Vorhersagegenauigkeiten anhand der Ground-Truth-Trajektorien bewertet.

Das Bild zeigt den Vergleich zwischen der herkömmlichen mehrstufigen Kaskadenpipeline und ViP3D: Die herkömmliche Pipeline umfasst mehrere nicht differenzierbare Module wie Erkennung, Verfolgung und Vorhersage. ViP3D verwendet Multi-View-Videos als Eingabe und generiert vorhergesagte Trajektorien Durchgängige Nutzung visueller Informationen, beispielsweise von Fahrzeugblinkern.

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

ViP3D zielt darauf ab, das Problem der Flugbahnvorhersage von Originalvideos durchgängig zu lösen. Konkret sagt ViP3D anhand eines Multi-View-Videos und einer hochauflösenden Karte die zukünftigen Flugbahnen aller Agenten in der Szene voraus.

Der Gesamtprozess von ViP3D ist in der Abbildung dargestellt: Zunächst verarbeitet der abfragebasierte Tracker Multiview-Videos von umgebenden Kameras, um die Abfrage des verfolgten Agenten mit visuellen Funktionen zu erhalten. Die visuellen Merkmale in der Agentenabfrage erfassen die Bewegungsdynamik und visuellen Eigenschaften der Agenten sowie die Beziehungen zwischen Agenten. Danach nimmt der Trajektorienvorhersager die Abfrage des Tracking-Agenten als Eingabe, ordnet sie den HD-Kartenfunktionen zu und gibt schließlich die vorhergesagte Trajektorie aus.

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

Der abfragebasierte Tracker extrahiert visuelle Merkmale aus dem Rohvideo der Surround-Kamera. Insbesondere werden für jeden Frame Bildmerkmale gemäß DETR3D extrahiert. Für die Aggregation von Zeitdomänenmerkmalen wird ein abfragebasierter Tracker gemäß MOTR („Motr: End-to-end multiple-object tracking with transformator“. arXiv 2105.03247, 2021) entwickelt, der zwei wichtige Schritte umfasst: Aktualisierung der Abfragefunktionen und Abfrageüberwachung. Die Agentenabfrage wird im Laufe der Zeit aktualisiert, um die Bewegungsdynamik des Agenten zu modellieren.

Die meisten vorhandenen Methoden zur Flugbahnvorhersage können in drei Teile unterteilt werden: Agentenkodierung, Kartenkodierung und Flugbahndekodierung. Nach der abfragebasierten Verfolgung wird die Abfrage des verfolgten Agenten abgerufen, die als die durch Agentenkodierung erhaltenen Agenteneigenschaften betrachtet werden kann. Daher sind die verbleibenden Aufgaben die Kartenkodierung und die Trajektoriendekodierung.

Stellen Sie die Vorhersage- und Wahrheitsagenten als ungeordnete Mengen Sˆ bzw. S dar, wobei jeder Agent durch die Agentenkoordinaten des aktuellen Zeitschritts und K mögliche zukünftige Trajektorien dargestellt wird. Berechnen Sie für jeden Agententyp c die Vorhersagegenauigkeit zwischen Scˆ und Sc. Die Kosten zwischen dem vorhergesagten Agenten und dem wahren Agenten sind definiert als:

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

Der EPA zwischen Scˆ und Sc ist definiert als:

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

Die experimentellen Ergebnisse sind wie folgt:

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

ViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage

Hinweis: Dieses Zielrendering ist gut gelungen.

Das obige ist der detaillierte Inhalt vonViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Warum ist Gaussian Splatting beim autonomen Fahren so beliebt, dass NeRF allmählich aufgegeben wird? Warum ist Gaussian Splatting beim autonomen Fahren so beliebt, dass NeRF allmählich aufgegeben wird? Jan 17, 2024 pm 02:57 PM

Oben geschrieben und persönliches Verständnis des Autors. Dreidimensionales Gaussplatting (3DGS) ist eine transformative Technologie, die in den letzten Jahren in den Bereichen explizite Strahlungsfelder und Computergrafik entstanden ist. Diese innovative Methode zeichnet sich durch die Verwendung von Millionen von 3D-Gaußkurven aus, was sich stark von der Neural Radiation Field (NeRF)-Methode unterscheidet, die hauptsächlich ein implizites koordinatenbasiertes Modell verwendet, um räumliche Koordinaten auf Pixelwerte abzubilden. Mit seiner expliziten Szenendarstellung und differenzierbaren Rendering-Algorithmen garantiert 3DGS nicht nur Echtzeit-Rendering-Fähigkeiten, sondern führt auch ein beispielloses Maß an Kontrolle und Szenenbearbeitung ein. Dies positioniert 3DGS als potenziellen Game-Changer für die 3D-Rekonstruktion und -Darstellung der nächsten Generation. Zu diesem Zweck geben wir erstmals einen systematischen Überblick über die neuesten Entwicklungen und Anliegen im Bereich 3DGS.

CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern Mar 26, 2024 pm 12:41 PM

Oben geschrieben und das persönliche Verständnis des Autors: Derzeit spielt das Wahrnehmungsmodul im gesamten autonomen Fahrsystem eine entscheidende Rolle Das Steuermodul im autonomen Fahrsystem trifft zeitnahe und korrekte Urteile und Verhaltensentscheidungen. Derzeit sind Autos mit autonomen Fahrfunktionen in der Regel mit einer Vielzahl von Dateninformationssensoren ausgestattet, darunter Rundumsichtkamerasensoren, Lidar-Sensoren und Millimeterwellenradarsensoren, um Informationen in verschiedenen Modalitäten zu sammeln und so genaue Wahrnehmungsaufgaben zu erfüllen. Der auf reinem Sehen basierende BEV-Wahrnehmungsalgorithmus wird von der Industrie aufgrund seiner geringen Hardwarekosten und einfachen Bereitstellung bevorzugt, und seine Ausgabeergebnisse können problemlos auf verschiedene nachgelagerte Aufgaben angewendet werden.

Kamera oder Lidar wählen? Eine aktuelle Übersicht über die Erzielung einer robusten 3D-Objekterkennung Kamera oder Lidar wählen? Eine aktuelle Übersicht über die Erzielung einer robusten 3D-Objekterkennung Jan 26, 2024 am 11:18 AM

0. Vorab geschrieben&& Persönliches Verständnis, dass autonome Fahrsysteme auf fortschrittlichen Wahrnehmungs-, Entscheidungs- und Steuerungstechnologien beruhen, indem sie verschiedene Sensoren (wie Kameras, Lidar, Radar usw.) verwenden, um die Umgebung wahrzunehmen, und Algorithmen und Modelle verwenden für Echtzeitanalysen und Entscheidungsfindung. Dies ermöglicht es Fahrzeugen, Verkehrszeichen zu erkennen, andere Fahrzeuge zu erkennen und zu verfolgen, das Verhalten von Fußgängern vorherzusagen usw. und sich so sicher an komplexe Verkehrsumgebungen anzupassen. Diese Technologie erregt derzeit große Aufmerksamkeit und gilt als wichtiger Entwicklungsbereich für die Zukunft des Transportwesens . eins. Aber was autonomes Fahren schwierig macht, ist herauszufinden, wie man dem Auto klarmachen kann, was um es herum passiert. Dies erfordert, dass der dreidimensionale Objekterkennungsalgorithmus im autonomen Fahrsystem Objekte in der Umgebung, einschließlich ihrer Standorte, genau wahrnehmen und beschreiben kann.

Die herumfliegenden Gesichtszüge, das Öffnen des Mundes, das Starren und das Hochziehen der Augenbrauen können von der KI perfekt nachgeahmt werden, sodass Videobetrug nicht verhindert werden kann Die herumfliegenden Gesichtszüge, das Öffnen des Mundes, das Starren und das Hochziehen der Augenbrauen können von der KI perfekt nachgeahmt werden, sodass Videobetrug nicht verhindert werden kann Dec 14, 2023 pm 11:30 PM

Mit solch einer mächtigen KI-Imitationsfähigkeit ist es wirklich unmöglich, dies zu verhindern. Hat die Entwicklung der KI mittlerweile dieses Niveau erreicht? Ihr vorderer Fuß lässt Ihre Gesichtszüge fliegen, und auf Ihrem hinteren Fuß wird genau der gleiche Ausdruck reproduziert. Starren, Augenbrauen hochziehen, schmollen, egal wie übertrieben der Ausdruck ist, alles wird perfekt nachgeahmt. Erhöhen Sie den Schwierigkeitsgrad, heben Sie die Augenbrauen höher, öffnen Sie die Augen weiter, und sogar die Mundform ist schief und der Ausdruck des Avatars kann perfekt reproduziert werden. Wenn Sie die Parameter auf der linken Seite anpassen, ändert der virtuelle Avatar auf der rechten Seite auch seine Bewegungen entsprechend, um eine Nahaufnahme von Mund und Augen zu erhalten. Man kann nicht sagen, dass die Nachahmung genau gleich ist, aber der Ausdruck ist genau derselbe gleich (ganz rechts). Die Forschung stammt von Institutionen wie der Technischen Universität München, die GaussianAvatars vorschlägt

Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen

Wussten Sie, dass es bei Programmierern in ein paar Jahren einen Niedergang geben wird? Wussten Sie, dass es bei Programmierern in ein paar Jahren einen Niedergang geben wird? Nov 08, 2023 am 11:17 AM

Die Zeitschrift „ComputerWorld“ schrieb einmal in einem Artikel, dass „die Programmierung bis 1960 verschwinden wird“, weil IBM eine neue Sprache FORTRAN entwickelt hat, die es Ingenieuren ermöglicht, die benötigten mathematischen Formeln zu schreiben und sie dann dem Computer zu übermitteln, damit das Programmieren endet. Ein paar Jahre später hörten wir ein neues Sprichwort: Jeder Unternehmer kann Geschäftsbegriffe verwenden, um seine Probleme zu beschreiben und dem Computer zu sagen, was er tun soll. Mit dieser Programmiersprache namens COBOL brauchen Unternehmen keine Programmierer mehr. Später soll IBM eine neue Programmiersprache namens RPG entwickelt haben, mit der Mitarbeiter Formulare ausfüllen und Berichte erstellen können, sodass die meisten Programmieranforderungen des Unternehmens damit erfüllt werden können.

„&': Bekannter 3D-Fan-Autor verhaftet „&': Bekannter 3D-Fan-Autor verhaftet Feb 15, 2024 am 09:51 AM

Einige der „seltsamen“ Schlüsselwörter von Genshin Impact haben in den letzten zwei Tagen viel Aufmerksamkeit erregt. Obwohl sich am Suchindex nicht viel geändert hat, tauchen weiterhin heiße Themen auf. Beispielsweise gab es einen Anstieg an „Transformations“-Porträts wie „Dragon King“ und „Zhongli“. Obwohl sie schon seit einiger Zeit im Internet weit verbreitet sind, stellte sich heraus, dass es sich dabei um vernünftige und konventionelle Fanfiction der zweiten Generation handelt . Wenn es nur diese wären, könnte es nicht viel Wärme erzeugen. Laut einigen Internetnutzern haben sie neben der Popularität von Genshin Impact selbst etwas besonders Auffälliges entdeckt: Der Genshin Impact 3D-Fanautor Shirakami wurde verhaftet. Dies löste eine ziemlich hitzige Diskussion aus. Warum wurde er verhaftet? Schlüsselwörter, Genshin Impact 3D-Animation. Es überschreitet immer noch die Grenze (das denken Sie), egal wie viel mehr es ist, Sie können es nicht klar sagen. Nach mehreren Überprüfungen und Nachrichtenberichten ist es tatsächlich wahr. Seit letztem Jahr

MotionLM: Sprachmodellierungstechnologie für die Bewegungsvorhersage mit mehreren Agenten MotionLM: Sprachmodellierungstechnologie für die Bewegungsvorhersage mit mehreren Agenten Oct 13, 2023 pm 12:09 PM

Dieser Artikel wird mit Genehmigung des öffentlichen Kontos von Autonomous Driving Heart nachgedruckt. Bitte wenden Sie sich für den Nachdruck an die Quelle. Originaltitel: MotionLM: Multi-Agent Motion Forecasting as Language Modeling Papierlink: https://arxiv.org/pdf/2309.16534.pdf Autorenzugehörigkeit: Waymo Konferenz: ICCV2023 Papieridee: Für die Sicherheitsplanung autonomer Fahrzeuge das zukünftige Verhalten zuverlässig vorhersagen der Straßenverkehrsbeamten ist von entscheidender Bedeutung. Diese Studie stellt kontinuierliche Trajektorien als Sequenzen diskreter Bewegungstokens dar und behandelt die Bewegungsvorhersage mit mehreren Agenten als eine Sprachmodellierungsaufgabe. Das von uns vorgeschlagene Modell MotionLM hat die folgenden Vorteile: Erstens

See all articles