Inhaltsverzeichnis
Leichtes 3D-„Real-Life-Spiel“ mit bloßem Auge
▐ Technische Highlights: Die Herausforderung der Cloud-Kosten
3D-Menschen und 3D-Produkte treffen sich zum ersten Mal in der virtuellen 3D-Welt
▐ Technische Highlights: Aufbau und Interaktion von Menschen und Güterbahnhof
1080P-Auflösung und coole High-Definition-Qualität
▐ Technische Highlights: Inhaltsproduktion und Echtzeitübertragung von Cloud-Rendering
Interaktiver virtueller Bildschirm ohne Verzögerung
▐ Technische Highlights: Vollständige Verbindung mit extrem niedriger Latenz
Fazit
Heim Technologie-Peripheriegeräte KI Highlights der 3D Live Virtual Camp-Technologie des Taobao Creation Festival 2022 enthüllt

Highlights der 3D Live Virtual Camp-Technologie des Taobao Creation Festival 2022 enthüllt

Apr 16, 2023 pm 07:19 PM
技术 3d

Am 24. August 2022 findet das Taobao Maker Festival statt! Um die nächste Generation des immersiven Internet-Einkaufserlebnisses zu erkunden, wurde bei diesem Creation Festival neben dem Bau eines 20.000 Quadratmeter großen Panorama-„Future Camp“ in der Offline-Ausstellungshalle der Canton Fair auch erstmals ein virtueller interaktiver Raum online eröffnet „3D Crazy“, das Zehntausende Menschen gleichzeitig online aufnehmen kann.

Im virtuellen 3D-Camp können Benutzer hochauflösende Spieltexturen auf einfache Weise erleben und als virtuelle Charaktere in die Welt von „3D People and Goods Yard“ eintauchen, mit Spielern und 3D-Produkten interagieren, um die neue Generation von Verbrauchern zufrieden zu stellen . Die Anforderungen der Gruppe, die gerne spielt und kreativ ist, bringen mit innovativer Technologie ein neues Verbrauchererlebnis.

Highlights der 3D Live Virtual Camp-Technologie des Taobao Creation Festival 2022 enthüllt

Werfen wir einen Blick auf die Erfahrung und die technischen Highlights des virtuellen 3D-Live-Camps:

Leichtes 3D-„Real-Life-Spiel“ mit bloßem Auge

Sobald Ihnen ein 3D-Spiel gefallen hat und der Client mehrere Gigabyte heruntergeladen hat und wollte es spielen. Ich muss das neue Spiel deinstallieren, weil es zu viel Speicher beansprucht! Im virtuellen Camp des Creation Festivals können Sie schnell ein 3D-, interaktives, hochauflösendes Live-Streaming-„Spiel“ mit bloßem Auge laden, das Sie sogar kaufen können, und Ihre Taobao-App „ist überhaupt nicht größer geworden.“ .“ Wird auf Ihr Telefon geladen. Die Geschwindigkeit ist „rauschend“~

Highlights der 3D Live Virtual Camp-Technologie des Taobao Creation Festival 2022 enthüllt

▐ Technische Highlights: Die Herausforderung der Cloud-Kosten

Die traditionelle Entwicklung von 3D-Spielanwendungen auf der mobilen Seite erfordert oft die Integration von Dutzenden oder Hunderten von M-Spielen Motoren am Ende, und außerdem müssen mehrere Gigabyte an Materialressourcen heruntergeladen werden, was in der Taobao-App derzeit unrealistisch ist. Die Verwendung von Cloud-Rendering kann dieses Problem sehr gut lösen. Mit Hilfe einer leistungsstarken GPU in der Cloud können Benutzer keine großen Ressourcendateien herunterladen oder Inhalte installieren um gerenderten Medienfluss in Echtzeit abzuspielen.

Das größte Problem hierbei sind jedoch die Kosten für Cloud-Rendering-Maschinen. Um die Kosten für Cloud-Rendering-Maschinen zu senken, führen wir zusätzlich zum Cloud-Rendering auch Strategien zur Leistungsoptimierung durch, z. B. Modelloberflächenreduzierung, DP-Zusammenführung, Texturoptimierung und Reduzierung der Videomaterialauflösung. Im Hinblick auf die Maschinenplanung wurde eine zeitbasierte dynamische Expansions- und Kontraktionsstrategie basierend auf Geschäftsszenarien entwickelt, um die Maschinenauslastung zu maximieren.

3D-Menschen und 3D-Produkte treffen sich zum ersten Mal in der virtuellen 3D-Welt

3D-Benutzer, die einst in „Taobao Life“ verkleidet waren, „gingen“ zum ersten Mal aus ihren Häusern und kamen zum virtuellen Live-3D-Camp von das Schöpfungsfest. Hier können Sie frei springen, Lagerfeuer anzünden, 3D-Produkte ansehen, Live-Übertragungen von Verkäufern ansehen und mit Spielern interagieren. 3D-Menschen, 3D-Produkte und 3D-Umgebungen werden kombiniert, um Ihnen ein beeindruckendes und wunderbares Camp-Abenteuererlebnis zu bieten.

▐ Technische Highlights: Aufbau und Interaktion von Menschen und Güterbahnhof

Interaktion zwischen Menschen. Um die 3D-Charaktere in Taobao Life zunächst in der virtuellen 3D-Welt zu platzieren, sind bestimmte Asset-Konvertierungs- und Rendering-Kosten erforderlich. Das Herumlaufen des Benutzers im Lager erfordert eine Echtzeitsynchronisierung des Standorts des Benutzers. Für das Echtzeit-Roaming der Benutzer verwenden wir die Frame-Synchronisierungstechnologie, um die Standortinformationen der Benutzer mit einer festen Frequenz zu aktualisieren. Im Idealfall werden Benutzer nicht das Gefühl haben, festzustecken, aber eine Netzwerküberlastung führt zwangsläufig zu Jitter zwischen Frames. es wird einen Sprung verursachen. Um diesen Mangel auszugleichen, verwenden wir beim Rendern von Zeichen einen Bewegungskompensationsalgorithmus. Einfach ausgedrückt: Er verwendet eine Algorithmussimulation, um den Übergang der Benutzerpositionsbewegung reibungsloser zu gestalten. Gleichzeitig wird im Hinblick auf die Synchronisierung interaktiver Daten der AOI-Rasteralgorithmus verwendet, um das Problem der Datensynchronisierung mehrerer Personen auf demselben Bildschirm zu lösen. Auf diese Weise laufen 3D-Charaktere in der virtuellen Welt reibungsloser.

Highlights der 3D Live Virtual Camp-Technologie des Taobao Creation Festival 2022 enthüllt

Interaktion zwischen Menschen und Produkten. Für Benutzer ist es nicht einfach, die Details von 3D-Produkten in einer virtuellen Szene frei anzuzeigen. Wir haben zwei Optionen zur Auswahl: eine ist mobiles Rendering und die andere ist Cloud-Rendering. Mobile Rendering verfügt auch über relativ ausgereifte Lösungen in Taobao. Leider sind die mobile Rendering-Engine und die Cloud-Rendering-Engine nicht identisch, sodass nicht dasselbe Produktmodell verwendet werden kann. Gleichzeitig ist das dynamische Herunterladen des Modells und die Oberflächenreduzierung möglich Optimierung usw. müssen ebenfalls berücksichtigt werden. Um diese Nachteile zu vermeiden, haben wir uns dennoch für die Cloud-Rendering-Lösung entschieden, indem wir die Kameraperspektive dynamisch wechseln und in Echtzeit auf die interaktiven Anweisungen des Benutzers reagieren und Zoomen, um 3D-Produkte anzusehen.

Highlights der 3D Live Virtual Camp-Technologie des Taobao Creation Festival 2022 enthüllt

1080P-Auflösung und coole High-Definition-Qualität

Sobald Sie das Seiten-Minispiel in der mobilen App ausprobiert haben, war es so verschwommen wie ein Mosaik. Sie rannten und sprangen und ließen Frames fallen. Das neue virtuelle 3D-Camp des Creation Festival bietet hochauflösende Bilder, sanfte Effekte und die Bühnenbeleuchtung kann Sie dynamisch als „Star“ verfolgen~

Highlights der 3D Live Virtual Camp-Technologie des Taobao Creation Festival 2022 enthüllt

▐ Technische Highlights: Inhaltsproduktion und Echtzeitübertragung von Cloud-Rendering

In der Cloud verwenden wir die Unreal Engine zum Rendern von Echtzeitbildern und kombinieren dynamische Spiegelbewegung, dynamische Bühnenbeleuchtung, Multi-View-Charaktere, Partikeleffekte usw andere Technologien, um das Bild für Benutzer cooler und interaktiver aussehen zu lassen. Um hochauflösende Bilder auf die Mobiltelefone der Benutzer zu übertragen, müssen wir das Gleichgewicht zwischen Bildqualität, Verzögerung und Verzögerung mithilfe des von Taobao und Alibaba Cloud gemeinsam aufgebauten GRTN-Übertragungsnetzwerks umfassend berücksichtigen Durch die Entwicklung von Kodierungs- und Dekodierungsalgorithmen können wir die Klarheit der Bildqualität maximieren.

Interaktiver virtueller Bildschirm ohne Verzögerung

Sobald Sie im Live-Übertragungsraum von Taobao waren, zählten Sie „3, 2, 1, fangen Sie an zu schnappen!“ und spürten den Nervenkitzel der Flash-Verkäufe mit extrem geringer Latenz. Sie können jedoch außerhalb des Bildschirms nicht durch Interaktion direkt in das Geschehen des Moderators im Live-Übertragungsraum eingreifen. Im virtuellen 3D-Camp können Sie tanzen und Hallo sagen, auf die 3D-Produkte der Händler klicken und sich die Erklärungen Ihrer Lieblingsanker ansehen. Sie können wirklich „im selben Rahmen mit den Händlern und Ankern kommunizieren“.

Highlights der 3D Live Virtual Camp-Technologie des Taobao Creation Festival 2022 enthüllt

▐ Technische Highlights: Vollständige Verbindung mit extrem niedriger Latenz

Im Gegensatz zur störungsfreien Bildübertragung müssen wir den Upstream und Downstream der Benutzeranweisungen vervollständigen, um ein reibungsloses Erlebnis mit extrem niedriger Latenz unter interaktiven Bedingungen zu erreichen Innerhalb von 100 Millisekunden wird das Bild in Echtzeit gerendert und an das Mobiltelefon des Benutzers zurückgegeben. Zunächst müssen die Maschinen-, Netzwerk- und Zugriffspunktbedingungen des Benutzers umfassend berücksichtigt werden, um dynamisch den Push-Knoten auszuwählen, der dem Benutzer am nächsten liegt, und dadurch die Cloud-Push-Strategie anzupassen (einschließlich Definition und Auswahl der Kodierungsmethode). Zweitens müssen während des Übertragungsprozesses schwache Netzwerksteuerungsstrategien wie Echtzeit-Bandbreitenrückmeldung, FEC und dynamische Puffer verwendet werden, um Netzwerk-Jitter zu bekämpfen, damit die gesamte Verbindungsverzögerung eine vernünftige Position erreicht und letztendlich eine Interaktion im Netzwerk erreicht wird virtuelle Welt. Sorgen Sie für ein reibungsloses interaktives Erlebnis.

Fazit

Dieses virtuelle 3D-Camp des Creation Festival ist der erste Online-Versuch der „3D Crazy City“-Reihe des virtuellen interaktiven Raums von Taobao. Im nächsten Schritt werden wir Cloud-Echtzeit-Rendering und XR/CG-Technologie kombinieren, um die Anpassung virtueller Szenen zu realisieren, eine umfassendere Benutzerinteraktion in Echtzeit zu unterstützen und den Verbrauchern ein immersiveres interaktives Erlebnis zu bieten.

Das obige ist der detaillierte Inhalt vonHighlights der 3D Live Virtual Camp-Technologie des Taobao Creation Festival 2022 enthüllt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Warum ist Gaussian Splatting beim autonomen Fahren so beliebt, dass NeRF allmählich aufgegeben wird? Warum ist Gaussian Splatting beim autonomen Fahren so beliebt, dass NeRF allmählich aufgegeben wird? Jan 17, 2024 pm 02:57 PM

Oben geschrieben und persönliches Verständnis des Autors. Dreidimensionales Gaussplatting (3DGS) ist eine transformative Technologie, die in den letzten Jahren in den Bereichen explizite Strahlungsfelder und Computergrafik entstanden ist. Diese innovative Methode zeichnet sich durch die Verwendung von Millionen von 3D-Gaußkurven aus, was sich stark von der Neural Radiation Field (NeRF)-Methode unterscheidet, die hauptsächlich ein implizites koordinatenbasiertes Modell verwendet, um räumliche Koordinaten auf Pixelwerte abzubilden. Mit seiner expliziten Szenendarstellung und differenzierbaren Rendering-Algorithmen garantiert 3DGS nicht nur Echtzeit-Rendering-Fähigkeiten, sondern führt auch ein beispielloses Maß an Kontrolle und Szenenbearbeitung ein. Dies positioniert 3DGS als potenziellen Game-Changer für die 3D-Rekonstruktion und -Darstellung der nächsten Generation. Zu diesem Zweck geben wir erstmals einen systematischen Überblick über die neuesten Entwicklungen und Anliegen im Bereich 3DGS.

Kamera oder Lidar wählen? Eine aktuelle Übersicht über die Erzielung einer robusten 3D-Objekterkennung Kamera oder Lidar wählen? Eine aktuelle Übersicht über die Erzielung einer robusten 3D-Objekterkennung Jan 26, 2024 am 11:18 AM

0. Vorab geschrieben&& Persönliches Verständnis, dass autonome Fahrsysteme auf fortschrittlichen Wahrnehmungs-, Entscheidungs- und Steuerungstechnologien beruhen, indem sie verschiedene Sensoren (wie Kameras, Lidar, Radar usw.) verwenden, um die Umgebung wahrzunehmen, und Algorithmen und Modelle verwenden für Echtzeitanalysen und Entscheidungsfindung. Dies ermöglicht es Fahrzeugen, Verkehrszeichen zu erkennen, andere Fahrzeuge zu erkennen und zu verfolgen, das Verhalten von Fußgängern vorherzusagen usw. und sich so sicher an komplexe Verkehrsumgebungen anzupassen. Diese Technologie erregt derzeit große Aufmerksamkeit und gilt als wichtiger Entwicklungsbereich für die Zukunft des Transportwesens . eins. Aber was autonomes Fahren schwierig macht, ist herauszufinden, wie man dem Auto klarmachen kann, was um es herum passiert. Dies erfordert, dass der dreidimensionale Objekterkennungsalgorithmus im autonomen Fahrsystem Objekte in der Umgebung, einschließlich ihrer Standorte, genau wahrnehmen und beschreiben kann.

CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern Mar 26, 2024 pm 12:41 PM

Oben geschrieben und das persönliche Verständnis des Autors: Derzeit spielt das Wahrnehmungsmodul im gesamten autonomen Fahrsystem eine entscheidende Rolle Das Steuermodul im autonomen Fahrsystem trifft zeitnahe und korrekte Urteile und Verhaltensentscheidungen. Derzeit sind Autos mit autonomen Fahrfunktionen in der Regel mit einer Vielzahl von Dateninformationssensoren ausgestattet, darunter Rundumsichtkamerasensoren, Lidar-Sensoren und Millimeterwellenradarsensoren, um Informationen in verschiedenen Modalitäten zu sammeln und so genaue Wahrnehmungsaufgaben zu erfüllen. Der auf reinem Sehen basierende BEV-Wahrnehmungsalgorithmus wird von der Industrie aufgrund seiner geringen Hardwarekosten und einfachen Bereitstellung bevorzugt, und seine Ausgabeergebnisse können problemlos auf verschiedene nachgelagerte Aufgaben angewendet werden.

Das Stable Diffusion 3-Papier wird endlich veröffentlicht und die architektonischen Details werden enthüllt. Wird es helfen, Sora zu reproduzieren? Das Stable Diffusion 3-Papier wird endlich veröffentlicht und die architektonischen Details werden enthüllt. Wird es helfen, Sora zu reproduzieren? Mar 06, 2024 pm 05:34 PM

Der Artikel von StableDiffusion3 ist endlich da! Dieses Modell wurde vor zwei Wochen veröffentlicht und verwendet die gleiche DiT-Architektur (DiffusionTransformer) wie Sora. Nach seiner Veröffentlichung sorgte es für großes Aufsehen. Im Vergleich zur Vorgängerversion wurde die Qualität der von StableDiffusion3 generierten Bilder erheblich verbessert. Es unterstützt jetzt Eingabeaufforderungen mit mehreren Themen, und der Textschreibeffekt wurde ebenfalls verbessert, und es werden keine verstümmelten Zeichen mehr angezeigt. StabilityAI wies darauf hin, dass es sich bei StableDiffusion3 um eine Reihe von Modellen mit Parametergrößen von 800 M bis 8 B handelt. Durch diesen Parameterbereich kann das Modell direkt auf vielen tragbaren Geräten ausgeführt werden, wodurch der Einsatz von KI deutlich reduziert wird

Dieser Artikel reicht aus, um etwas über autonomes Fahren und Flugbahnvorhersage zu lesen! Dieser Artikel reicht aus, um etwas über autonomes Fahren und Flugbahnvorhersage zu lesen! Feb 28, 2024 pm 07:20 PM

Die Trajektorienvorhersage spielt eine wichtige Rolle beim autonomen Fahren. Unter autonomer Fahrtrajektorienvorhersage versteht man die Vorhersage der zukünftigen Fahrtrajektorie des Fahrzeugs durch die Analyse verschiedener Daten während des Fahrvorgangs. Als Kernmodul des autonomen Fahrens ist die Qualität der Trajektorienvorhersage von entscheidender Bedeutung für die nachgelagerte Planungssteuerung. Die Trajektorienvorhersageaufgabe verfügt über einen umfangreichen Technologie-Stack und erfordert Vertrautheit mit der dynamischen/statischen Wahrnehmung des autonomen Fahrens, hochpräzisen Karten, Fahrspurlinien, Fähigkeiten in der neuronalen Netzwerkarchitektur (CNN&GNN&Transformer) usw. Der Einstieg ist sehr schwierig! Viele Fans hoffen, so schnell wie möglich mit der Flugbahnvorhersage beginnen zu können und Fallstricke zu vermeiden. Heute werde ich eine Bestandsaufnahme einiger häufiger Probleme und einführender Lernmethoden für die Flugbahnvorhersage machen! Einführungsbezogenes Wissen 1. Sind die Vorschaupapiere in Ordnung? A: Schauen Sie sich zuerst die Umfrage an, S

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch! DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch! Mar 21, 2024 pm 05:21 PM

In diesem Artikel wird das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren untersucht, insbesondere wie die Transformation von Merkmalen aus der Perspektive (PV) in den Raum aus der Vogelperspektive (BEV) effektiv ist implementiert über das Modul Visual Transformation (VT). Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und die Aufmerksamkeitsgewichte der Korrespondenz zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht sich die Rechen- und Bereitstellungszeit.

Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen

LLM ist fertig! OmniDrive: Integration von 3D-Wahrnehmung und Argumentationsplanung (NVIDIAs neueste Version) LLM ist fertig! OmniDrive: Integration von 3D-Wahrnehmung und Argumentationsplanung (NVIDIAs neueste Version) May 09, 2024 pm 04:55 PM

Oben geschrieben und persönliches Verständnis des Autors: Dieses Papier widmet sich der Lösung der wichtigsten Herausforderungen aktueller multimodaler großer Sprachmodelle (MLLMs) in autonomen Fahranwendungen, nämlich dem Problem der Erweiterung von MLLMs vom 2D-Verständnis auf den 3D-Raum. Diese Erweiterung ist besonders wichtig, da autonome Fahrzeuge (AVs) genaue Entscheidungen über 3D-Umgebungen treffen müssen. Das räumliche 3D-Verständnis ist für AVs von entscheidender Bedeutung, da es sich direkt auf die Fähigkeit des Fahrzeugs auswirkt, fundierte Entscheidungen zu treffen, zukünftige Zustände vorherzusagen und sicher mit der Umgebung zu interagieren. Aktuelle multimodale große Sprachmodelle (wie LLaVA-1.5) können häufig nur Bildeingaben mit niedrigerer Auflösung verarbeiten (z. B. aufgrund von Auflösungsbeschränkungen des visuellen Encoders und Einschränkungen der LLM-Sequenzlänge). Allerdings erfordern autonome Fahranwendungen

See all articles