Fügen Sie SOTA in Echtzeit hinzu und explodieren Sie! FastOcc: Schnellere Inferenz und ein einsatzfreundlicher Occ-Algorithmus sind da!-KI-php.cn

Im autonomen Fahrsystem ist die Wahrnehmungsaufgabe ein entscheidender Bestandteil des gesamten autonomen Fahrsystems. Das Hauptziel der Wahrnehmungsaufgabe besteht darin, autonome Fahrzeuge in die Lage zu versetzen, Umgebungselemente wie auf der Straße fahrende Fahrzeuge, Fußgänger am Straßenrand, während der Fahrt angetroffene Hindernisse, Verkehrszeichen auf der Straße usw. zu verstehen und wahrzunehmen und so flussabwärts zu helfen Module Treffen Sie richtige und vernünftige Entscheidungen und Handlungen. Ein Fahrzeug mit autonomen Fahrfähigkeiten ist in der Regel mit verschiedenen Arten von Informationserfassungssensoren ausgestattet, wie z. B. Rundumsichtkamerasensoren, Lidar-Sensoren, Millimeterwellenradarsensoren usw., um sicherzustellen, dass das autonome Fahrzeug die Umgebung genau wahrnehmen und verstehen kann Elemente, die es autonomen Fahrzeugen ermöglichen, beim autonomen Fahren die richtigen Entscheidungen zu treffen.

Derzeit haben rein bildbasierte visuelle Wahrnehmungsmethoden geringere Hardwarekosten und Bereitstellungskosten als Lidar-basierte Wahrnehmungsalgorithmen und haben daher große Aufmerksamkeit in Industrie und Wissenschaft erhalten. Es sind viele hervorragende visuelle Wahrnehmungsalgorithmen entstanden, um 3D-Objektwahrnehmungsaufgaben und semantische Segmentierungsaufgaben in BEV-Szenen zu erfüllen. Obwohl bestehende 3D-Zielwahrnehmungsalgorithmen erhebliche Fortschritte bei der Erkennungsleistung gemacht haben, gibt es in praktischen Anwendungen immer noch einige Probleme, die nach und nach aufgedeckt werden:

Der ursprüngliche 3D-Zielwahrnehmungsalgorithmus kann die im Datensatz vorhandenen Long-Tail-Probleme nicht gut lösen , sowie Objekte, die in der realen Welt existieren, aber möglicherweise nicht im aktuellen Trainingsdatensatz gekennzeichnet sind (z. B. große Steine auf der Straße, umgestürzte Fahrzeuge usw.)
Ursprüngliche 3D-Objekterkennungsalgorithmen geben normalerweise direkt ein grobes 3D aus Der stereoskopische Begrenzungsrahmen kann ein beliebig geformtes Zielobjekt nicht genau beschreiben, und der Ausdruck der Form und geometrischen Struktur des Objekts ist nicht feinkörnig genug. Obwohl dieses Ausgabeergebnisfeld die meisten Objektszenen erfüllen kann, beispielsweise verbundene Busse oder Baufahrzeuge mit langen Haken, kann der aktuelle 3D-Wahrnehmungsalgorithmus keine genaue und klare Beschreibung liefern Es wurde ein Erfassungsalgorithmus für das Belegungsnetzwerk (Occupancy Network) vorgeschlagen. Im Wesentlichen handelt es sich bei dem Wahrnehmungsalgorithmus des Occupancy Network um eine semantische Segmentierungsaufgabe, die auf räumlichen 3D-Szenen basiert. Der auf reinem Sehen basierende Occupancy-Network-Wahrnehmungsalgorithmus unterteilt den aktuellen 3D-Raum in 3D-Voxelgitter und sendet die gesammelten Umgebungsbilder über den im autonomen Fahrzeug ausgestatteten Umgebungskamerasensor nach der Verarbeitung und Vorhersage des Algorithmusmodells an das Netzwerkmodell den Belegungsstatus jedes 3D-Voxelgitters im aktuellen Raum und die möglichen Zielsemantikkategorien, wodurch eine umfassende Wahrnehmung der aktuellen 3D-Raumszene erreicht wird.

In den letzten Jahren hat der auf Occupancy Network basierende Wahrnehmungsalgorithmus aufgrund seiner besseren Wahrnehmungsvorteile große Aufmerksamkeit auf sich gezogen. Derzeit sind viele hervorragende Arbeiten zur Verbesserung der Erkennungsleistung dieses Algorithmustyps entstanden Die Richtung der Idee besteht darin, eine robustere Methode zur Merkmalsextraktion, eine Koordinatentransformationsmethode von 2D-Features zu 3D-Features, ein komplexeres Netzwerkstrukturdesign und die genauere Generierung von Occupancy-Ground-Truth-Annotationen zur Unterstützung des Modelllernens usw. vorzuschlagen. Allerdings weisen viele bestehende Occupancy-Network-Wahrnehmungsmethoden einen erheblichen Rechenaufwand im Prozess der Modellvorhersage und -inferenz auf, was es für diese Algorithmen schwierig macht, die Anforderungen der Echtzeitwahrnehmung für autonomes Fahren zu erfüllen, und es schwierig macht, sie in Fahrzeugen einzusetzen.

Wir schlagen eine innovative Methode zur Vorhersage des Belegungsnetzwerks vor. Im Vergleich zu derzeit führenden Wahrnehmungsalgorithmen verfügt unser FastOcc-Algorithmus über eine Echtzeit-Inferenzgeschwindigkeit und eine hervorragende Erkennungsleistung. Die folgende Abbildung kann den Unterschied in der Leistung und Inferenzgeschwindigkeit zwischen unserem vorgeschlagenen Algorithmus und anderen Algorithmen visuell vergleichen.

Vergleich der Genauigkeit und Inferenzgeschwindigkeit zwischen dem FastOcc-Algorithmus und anderen SOTA-Algorithmen

Link zum Papier: https://arxiv.org/pdf/2403.02710.pdf Fügen Sie SOTA in Echtzeit hinzu und explodieren Sie! FastOcc: Schnellere Inferenz und ein einsatzfreundlicher Occ-Algorithmus sind da!

Gesamtarchitektur und Details des Netzwerkmodells

In Ordnung Um die Belegung zu verbessern, haben wir Experimente aus vier Teilen für die Inferenzgeschwindigkeit des Netzwerkwahrnehmungsalgorithmus durchgeführt: der Auflösung des Eingabebildes, dem Merkmalsextraktions-Backbone-Netzwerk, der Methode der perspektivischen Konvertierung und der Struktur des Gittervorhersagekopfes Experimentelle Ergebnisse haben ergeben, dass die dreidimensionale Struktur des Gittervorhersagekopfes durch Faltung oder Entfaltung viel zeitaufwändigen Optimierungsraum aufweist. Auf dieser Grundlage haben wir die Netzwerkstruktur des FastOcc-Algorithmus entworfen, wie in der folgenden Abbildung dargestellt.

Netzwerkstrukturdiagramm des FastOcc-Algorithmus

Insgesamt umfasst der vorgeschlagene FastOcc-Algorithmus drei Untermodule, nämlich Fügen Sie SOTA in Echtzeit hinzu und explodieren Sie! FastOcc: Schnellere Inferenz und ein einsatzfreundlicher Occ-Algorithmus sind da! Image Feature Extraction

für die Multiskalen-Feature-Extraktion,

View Transformation für die perspektivische Konvertierung, Occupancy Prediction Head Gewohnt Um eine Wahrnehmungsleistung zu erzielen, werden wir die Details dieser drei Teile separat vorstellen.

Bildmerkmalsextraktion

Für den vorgeschlagenen FastOcc-Algorithmus ist die Netzwerkeingabe immer noch das gesammelte Surround-Bild. Hier verwenden wir die ResNet-Netzwerkstruktur, um den Feature-Extraktionsprozess des Surround-Bildes abzuschließen. Gleichzeitig verwenden wir auch die FPN-Merkmalspyramidenstruktur, um die vom Backbone-Netzwerk ausgegebenen mehrskaligen Bildmerkmale zu aggregieren. Zur Vereinfachung des nachfolgenden Ausdrucks stellen wir hier das Eingabebild als und die Merkmale nach der Merkmalsextraktion als dar.

Ansichtstransformation

Die Hauptfunktion des Ansichtstransformationsmoduls besteht darin, den Konvertierungsprozess von 2D-Bildmerkmalen in 3D-Raummerkmale abzuschließen und gleichzeitig die Kosten des Algorithmusmodells, normalerweise der Merkmale, zu senken In den 3D-Raum konvertiert wird ein grober Ausdruck. Zur Vereinfachung des Ausdrucks markieren wir hier die in den 3D-Raum konvertierten Merkmale als, wobei die Dimension des eingebetteten Merkmalsvektors und die Länge, Breite und Höhe des Wahrnehmungsraums dargestellt werden. Unter den aktuellen Wahrnehmungsalgorithmen umfasst der gängige Perspektivkonvertierungsprozess zwei Kategorien:

Eine davon ist die von BEVFormer dargestellte Rückwärtskoordinatentransformationsmethode. Diese Art von Methode generiert normalerweise zuerst eine Voxelabfrage im 3D-Raum und interagiert dann mithilfe von Cross-View Attention mit der Voxelabfrage im 3D-Raum und 2D-Bildmerkmalen, um die Konstruktion des endgültigen 3D-Voxelmerkmals abzuschließen.
Ein Typ ist die durch LSS dargestellte Vorwärtskoordinatentransformationsmethode. Diese Art von Methode verwendet das Tiefenschätzungsnetzwerk im Netzwerk, um gleichzeitig die semantischen Merkmalsinformationen und die diskrete Tiefenwahrscheinlichkeit jeder Merkmalspixelposition abzuschätzen, das semantische Kegelstumpfmerkmal durch die äußere Produktoperation zu konstruieren und schließlich die VoxelPooling-Schicht zu verwenden, um dies zu erreichen letztes 3D-Voxel-Feature der Konstruktion.

Angesichts der Tatsache, dass der LSS-Algorithmus eine bessere Argumentationsgeschwindigkeit und Effizienz aufweist, übernehmen wir in diesem Artikel den LSS-Algorithmus als unser Perspektivenkonvertierungsmodul. Wenn man bedenkt, dass die diskrete Tiefe jeder Pixelposition geschätzt wird, schränkt ihre Unsicherheit gleichzeitig die endgültige Wahrnehmungsleistung des Modells in gewissem Maße ein. Daher nutzen wir in unserer spezifischen Implementierung Punktwolkeninformationen zur Überwachung in Tiefenrichtung, um bessere Wahrnehmungsergebnisse zu erzielen.

Raster Prediction Head (Occupancy Prediction Head)

Im oben gezeigten Netzwerkstrukturdiagramm enthält der Raster Prediction Head auch drei Unterteile, nämlich BEV-Feature-Extraktion, Bild-Feature-Interpolationsabtastung, Feature-Integration . Als nächstes werden wir nacheinander die Details der dreiteiligen Methode vorstellen.

BEV-Merkmalsextraktion

Derzeit verarbeiten die meisten Occupancy-Network-Algorithmen die vom Perspektivenkonvertierungsmodul erhaltenen 3D-Voxelmerkmale. Die Verarbeitungsform ist im Allgemeinen ein dreidimensionales, vollständig gefaltetes Netzwerk. Insbesondere ist für jede Schicht des dreidimensionalen, vollständig Faltungsnetzwerks der erforderliche Rechenaufwand zum Falten der eingegebenen dreidimensionalen Voxelmerkmale wie folgt:

wobei und die Anzahl der Kanäle des Eingabemerkmals bzw. des Ausgabemerkmals darstellen und stellen die Größe des Feature-Map-Bereichs dar. Im Vergleich zur direkten Verarbeitung von Voxel-Features im 3D-Raum verwenden wir ein leichtes 2D-BEV-Feature-Faltungsmodul. Insbesondere für die Ausgabe-Voxel-Merkmale des Perspektivenkonvertierungsmoduls verschmelzen wir zunächst Höheninformationen und semantische Merkmale, um 2D-BEV-Merkmale zu erhalten, und verwenden dann ein 2D-Vollfaltungsnetzwerk, um eine Merkmalsextraktion durchzuführen, um die Merkmalsextraktion dieser 2D-Merkmale zu erhalten Prozess Der Berechnungsbetrag des Prozesses kann in der folgenden Form ausgedrückt werden

Beim Vergleich des Berechnungsbetrags der 3D- und 2D-Verarbeitungsprozesse ist ersichtlich, dass durch die Verwendung des leichten 2D-BEV-Merkmalsfaltungsmoduls die ursprüngliche 3D-Voxel-Merkmalsextraktion ersetzt wird , es kann stark reduziert werden Der Berechnungsaufwand des Modells. Gleichzeitig ist in der folgenden Abbildung das visuelle Flussdiagramm der beiden Verarbeitungsarten dargestellt:

Fügen Sie SOTA in Echtzeit hinzu und explodieren Sie! FastOcc: Schnellere Inferenz und ein einsatzfreundlicher Occ-Algorithmus sind da!

Visualisierung von 2D-FCN- und 3D-FCN-Netzwerkstrukturen

Bildmerkmals-Interpolationsabtastung

Um zu reduzieren Der Berechnungsbetrag des Rastervorhersagekopfmoduls komprimieren wir die Höhe der vom Perspektivenkonvertierungsmodul ausgegebenen 3D-Voxelmerkmale und verwenden das 2D-BEV-Faltungsmodul zur Merkmalsextraktion. Um jedoch die fehlenden Informationen zu Z-Achsen-Höhenmerkmalen zu erhöhen und an der Idee festzuhalten, die Menge an Modellberechnungen zu reduzieren, haben wir eine Bildmerkmals-Interpolations-Abtastmethode vorgeschlagen.

Konkret legen wir zunächst den entsprechenden dreidimensionalen Voxelraum entsprechend dem zu erfassenden Bereich fest und weisen ihn dem Ego-Koordinatensystem zu, das als bezeichnet wird. Zweitens werden die extrinsischen und intrinsischen Koordinatentransformationsmatrizen der Kamera verwendet, um die Koordinatenpunkte im Ego-Koordinatensystem auf das Bildkoordinatensystem zu projizieren, das zum Extrahieren von Bildmerkmalen an den entsprechenden Positionen verwendet wird.

Darunter stellen sie die intrinsische und extrinsische Koordinatentransformationsmatrize der Kamera dar und repräsentieren die Position des Raumpunkts im Ego-Koordinatensystem, projiziert auf das Bildkoordinatensystem. Nachdem wir die entsprechenden Bildkoordinaten erhalten haben, filtern wir Koordinatenpunkte heraus, die den Bildbereich überschreiten oder eine negative Tiefe haben. Anschließend verwenden wir eine bilineare Interpolationsoperation, um die entsprechenden semantischen Bildmerkmale basierend auf der projizierten Koordinatenposition zu erhalten, und mitteln die aus allen Kamerabildern gesammelten Merkmale, um das endgültige Interpolationsabtastergebnis zu erhalten.

Feature-Integration

Um die erhaltenen planaren BEV-Features mit den durch Interpolationsabtastung erhaltenen 3D-Voxel-Features zu integrieren, verwenden wir zunächst eine Upsampling-Operation, um die räumlichen Dimensionen der BEV-Features und die räumlichen Dimensionen der 3D-Voxel-Features auszurichten , und Der Wiederholungsvorgang wird entlang der Z-Achsenrichtung ausgeführt und die nach dem Vorgang erhaltenen Merkmale werden als aufgezeichnet. Anschließend verknüpfen wir die durch Interpolationsabtastung von Bildmerkmalen erhaltenen Merkmale und integrieren sie über eine Faltungsschicht, um das endgültige Voxelmerkmal zu erhalten.

Der oben erwähnte Gesamtprozess der Bildmerkmalsinterpolationsabtastung und Merkmalsintegration kann durch die folgende Abbildung dargestellt werden:

Fügen Sie SOTA in Echtzeit hinzu und explodieren Sie! FastOcc: Schnellere Inferenz und ein einsatzfreundlicher Occ-Algorithmus sind da!

Bildmerkmalsinterpolationsabtastung und Merkmalsintegrationsprozess

Zusätzlich, um die BEV-Funktion weiter sicherzustellen Extraktionsmodul Die ausgegebenen BEV-Merkmale enthalten genügend Merkmalsinformationen, um den nachfolgenden Wahrnehmungsprozess abzuschließen. Wir wenden eine zusätzliche Überwachungsmethode an, d Die semantische Segmentierung vervollständigt den gesamten Überwachungsprozess.

Experimentelle Ergebnisse und Bewertungsindikatoren

Quantitativer Analyseteil

Zunächst zeigen wir den Vergleich zwischen unserem vorgeschlagenen FastOcc-Algorithmus und anderen SOTA-Algorithmen im Occ3D-nuScenes-Datensatz In der Tabelle unten wird angezeigt

Fügen Sie SOTA in Echtzeit hinzu und explodieren Sie! FastOcc: Schnellere Inferenz und ein einsatzfreundlicher Occ-Algorithmus sind da!

Der Vergleich der einzelnen Algorithmusindizes im Occ3D-nuScenes-Datensatz

Aus den Ergebnissen in der Tabelle ist ersichtlich, dass der von uns vorgeschlagene FastOcc-Algorithmus im Vergleich zu anderen Algorithmen eine bessere Leistung aufweist Die meisten Kategorien haben mehr Vorteile als andere Algorithmen, und der gesamte mIoU-Indikator erzielt auch den SOTA-Effekt.

Darüber hinaus haben wir auch die Auswirkungen verschiedener Perspektivenkonvertierungsmethoden und des im Rastervorhersagekopf verwendeten Decodierungsfunktionsmoduls auf die Wahrnehmungsleistung und die Argumentationszeit verglichen (die experimentellen Daten basieren auf der Eingabebildauflösung von 640 × 1600, dem Rückgrat). Das Netzwerk verwendet das ResNet-101-Netzwerk.) Die relevanten experimentellen Ergebnisse werden wie in der folgenden Tabelle gezeigt verglichen -view Die Perspektivkonvertierungsmethode „Attention“ und die 3D-Faltung werden zum Extrahieren von 3D-Voxelmerkmalen verwendet, was die höchste Argumentationszeit hat. Nachdem wir die ursprüngliche Cross-View-Attention-Perspektivkonvertierungsmethode durch die LSS-Konvertierungsmethode ersetzt haben, wurde die mIoU-Genauigkeit verbessert und der Zeitverbrauch reduziert. Auf dieser Basis kann durch Ersetzen der ursprünglichen 3D-Faltung durch eine 3D-FCN-Struktur die Genauigkeit weiter erhöht werden, aber auch die Argumentationszeit wird deutlich erhöht. Schließlich haben wir uns für die Koordinatenkonvertierungsmethode der Abtastung von LSS und die 2D-FCN-Struktur entschieden, um ein Gleichgewicht zwischen Erkennungsleistung und Inferenzzeitverbrauch zu erreichen.

Darüber hinaus haben wir auch die Wirksamkeit unserer vorgeschlagenen semantischen Segmentierungsüberwachungsaufgabe basierend auf BEV-Merkmalen und Bildmerkmalsinterpolationsstichproben überprüft. Die spezifischen Ergebnisse der Ablationsexperimente sind in der folgenden Tabelle aufgeführt: Fügen Sie SOTA in Echtzeit hinzu und explodieren Sie! FastOcc: Schnellere Inferenz und ein einsatzfreundlicher Occ-Algorithmus sind da!

Vergleich von Ablationsexperimenten verschiedener Module Situation

Darüber hinaus führten wir auch Skalenexperimente mit dem Modell durch und erstellten eine Reihe von Wahrnehmungsalgorithmusmodellen für das Belegungsnetzwerk (FastOcc, FastOcc-Small, FastOcc-Tiny), indem wir die Größe des Backbone-Netzwerks und die Auflösung steuerten Eingabebild. Die spezifische Konfiguration ist in der folgenden Tabelle dargestellt:

Fügen Sie SOTA in Echtzeit hinzu und explodieren Sie! FastOcc: Schnellere Inferenz und ein einsatzfreundlicher Occ-Algorithmus sind da!

Vergleich der Modellfunktionen unter verschiedenen Backbone-Netzwerk- und Auflösungskonfigurationen

Qualitativer Analyseteil

Fügen Sie SOTA in Echtzeit hinzu und explodieren Sie! FastOcc: Schnellere Inferenz und ein einsatzfreundlicher Occ-Algorithmus sind da!

Die folgende Abbildung zeigt den Vergleich der visuellen Ergebnisse unseres vorgeschlagenes FastOcc-Algorithmusmodell und das SurroundOcc-Algorithmusmodell Aus der Situation ist deutlich ersichtlich, dass das vorgeschlagene FastOcc-Algorithmusmodell die umgebenden Umgebungselemente auf vernünftigere Weise ausfüllt und eine genauere Wahrnehmung fahrender Fahrzeuge und Bäume erreicht.

Vergleich der visuellen Ergebnisse zwischen dem FastOcc-Algorithmus und dem SurroundOcc-Algorithmus

Fazit

In diesem Artikel haben wir das FastOcc-Algorithmusmodell vorgeschlagen, um das Problem zu lösen, dass die Erkennung des vorhandenen Occupancy Network-Algorithmusmodells lange dauert und sich nur schwer im Fahrzeug implementieren lässt. Durch Ersetzen des ursprünglichen 3D-Faltungsmoduls, das 3D-Voxel verarbeitet, durch 2D-Faltung wird die Argumentationszeit erheblich verkürzt und im Vergleich zu anderen Algorithmen werden SOTA-Wahrnehmungsergebnisse erzielt.

Das obige ist der detaillierte Inhalt vonFügen Sie SOTA in Echtzeit hinzu und explodieren Sie! FastOcc: Schnellere Inferenz und ein einsatzfreundlicher Occ-Algorithmus sind da!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7473

CakePHP-Tutorial

1377

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Lösung für i7-7700, kein Upgrade auf Windows 11 möglich Dec 26, 2023 pm 06:52 PM

Die Leistung des i77700 reicht völlig aus, um Win11 auszuführen, aber Benutzer stellen fest, dass ihr i77700 nicht auf Win11 aktualisiert werden kann. Dies ist hauptsächlich auf die von Microsoft auferlegten Einschränkungen zurückzuführen, sodass sie es installieren können, solange sie diese Einschränkung überspringen. i77700 kann nicht auf win11 aktualisiert werden: 1. Weil Microsoft die CPU-Version begrenzt. 2. Nur die Intel-Versionen der achten Generation und höher können direkt auf Win11 aktualisiert werden. 3. Als 7. Generation kann der i77700 die Upgrade-Anforderungen von Win11 nicht erfüllen. 4. Der i77700 ist jedoch hinsichtlich der Leistung durchaus in der Lage, Win11 reibungslos zu nutzen. 5. Sie können also das Win11-Direktinstallationssystem dieser Site verwenden. 6. Nachdem der Download abgeschlossen ist, klicken Sie mit der rechten Maustaste auf die Datei und „laden“ sie. 7. Doppelklicken Sie, um den „One-Click“-Vorgang auszuführen

CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern Mar 26, 2024 pm 12:41 PM

Oben geschrieben und das persönliche Verständnis des Autors: Derzeit spielt das Wahrnehmungsmodul im gesamten autonomen Fahrsystem eine entscheidende Rolle Das Steuermodul im autonomen Fahrsystem trifft zeitnahe und korrekte Urteile und Verhaltensentscheidungen. Derzeit sind Autos mit autonomen Fahrfunktionen in der Regel mit einer Vielzahl von Dateninformationssensoren ausgestattet, darunter Rundumsichtkamerasensoren, Lidar-Sensoren und Millimeterwellenradarsensoren, um Informationen in verschiedenen Modalitäten zu sammeln und so genaue Wahrnehmungsaufgaben zu erfüllen. Der auf reinem Sehen basierende BEV-Wahrnehmungsalgorithmus wird von der Industrie aufgrund seiner geringen Hardwarekosten und einfachen Bereitstellung bevorzugt, und seine Ausgabeergebnisse können problemlos auf verschiedene nachgelagerte Aufgaben angewendet werden.

Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Jun 03, 2024 pm 01:25 PM

Zu den häufigsten Herausforderungen, mit denen Algorithmen für maschinelles Lernen in C++ konfrontiert sind, gehören Speicherverwaltung, Multithreading, Leistungsoptimierung und Wartbarkeit. Zu den Lösungen gehören die Verwendung intelligenter Zeiger, moderner Threading-Bibliotheken, SIMD-Anweisungen und Bibliotheken von Drittanbietern sowie die Einhaltung von Codierungsstilrichtlinien und die Verwendung von Automatisierungstools. Praktische Fälle zeigen, wie man die Eigen-Bibliothek nutzt, um lineare Regressionsalgorithmen zu implementieren, den Speicher effektiv zu verwalten und leistungsstarke Matrixoperationen zu nutzen.

Das neueste Meisterwerk des MIT: Verwendung von GPT-3.5 zur Lösung des Problems der Erkennung von Zeitreihenanomalien Jun 08, 2024 pm 06:09 PM

Heute möchte ich Ihnen einen letzte Woche vom MIT veröffentlichten Artikel vorstellen, in dem GPT-3.5-turbo verwendet wird, um das Problem der Erkennung von Zeitreihenanomalien zu lösen, und zunächst die Wirksamkeit von LLM bei der Erkennung von Zeitreihenanomalien überprüft wird. Im gesamten Prozess gibt es keine Feinabstimmung, und GPT-3.5-Turbo wird direkt zur Anomalieerkennung verwendet. Der Kern dieses Artikels besteht darin, wie man Zeitreihen in Eingaben umwandelt, die von GPT-3.5-Turbo erkannt werden können, und wie man sie entwirft Eingabeaufforderungen oder Pipelines, damit LLM die Anomalieerkennungsaufgabe lösen kann. Lassen Sie mich Ihnen diese Arbeit im Detail vorstellen. Titel des Bildpapiers: Largelingualmodelscanbezero-shotanomalydete

Entdecken Sie die zugrunde liegenden Prinzipien und die Algorithmusauswahl der C++-Sortierfunktion Apr 02, 2024 pm 05:36 PM

Die unterste Ebene der C++-Sortierfunktion verwendet die Zusammenführungssortierung, ihre Komplexität beträgt O(nlogn) und bietet verschiedene Auswahlmöglichkeiten für Sortieralgorithmen, einschließlich schneller Sortierung, Heap-Sortierung und stabiler Sortierung.

Kann künstliche Intelligenz Kriminalität vorhersagen? Entdecken Sie die Möglichkeiten von CrimeGPT Mar 22, 2024 pm 10:10 PM

Die Konvergenz von künstlicher Intelligenz (KI) und Strafverfolgung eröffnet neue Möglichkeiten zur Kriminalprävention und -aufdeckung. Die Vorhersagefähigkeiten künstlicher Intelligenz werden häufig in Systemen wie CrimeGPT (Crime Prediction Technology) genutzt, um kriminelle Aktivitäten vorherzusagen. Dieser Artikel untersucht das Potenzial künstlicher Intelligenz bei der Kriminalitätsvorhersage, ihre aktuellen Anwendungen, die Herausforderungen, denen sie gegenübersteht, und die möglichen ethischen Auswirkungen der Technologie. Künstliche Intelligenz und Kriminalitätsvorhersage: Die Grundlagen CrimeGPT verwendet Algorithmen des maschinellen Lernens, um große Datensätze zu analysieren und Muster zu identifizieren, die vorhersagen können, wo und wann Straftaten wahrscheinlich passieren. Zu diesen Datensätzen gehören historische Kriminalstatistiken, demografische Informationen, Wirtschaftsindikatoren, Wettermuster und mehr. Durch die Identifizierung von Trends, die menschliche Analysten möglicherweise übersehen, kann künstliche Intelligenz Strafverfolgungsbehörden stärken

Verbesserter Erkennungsalgorithmus: zur Zielerkennung in hochauflösenden optischen Fernerkundungsbildern Jun 06, 2024 pm 12:33 PM

01Ausblicksübersicht Derzeit ist es schwierig, ein angemessenes Gleichgewicht zwischen Detektionseffizienz und Detektionsergebnissen zu erreichen. Wir haben einen verbesserten YOLOv5-Algorithmus zur Zielerkennung in hochauflösenden optischen Fernerkundungsbildern entwickelt, der mehrschichtige Merkmalspyramiden, Multierkennungskopfstrategien und hybride Aufmerksamkeitsmodule verwendet, um die Wirkung des Zielerkennungsnetzwerks in optischen Fernerkundungsbildern zu verbessern. Laut SIMD-Datensatz ist der mAP des neuen Algorithmus 2,2 % besser als YOLOv5 und 8,48 % besser als YOLOX, wodurch ein besseres Gleichgewicht zwischen Erkennungsergebnissen und Geschwindigkeit erreicht wird. 02 Hintergrund und Motivation Mit der rasanten Entwicklung der Fernerkundungstechnologie wurden hochauflösende optische Fernerkundungsbilder verwendet, um viele Objekte auf der Erdoberfläche zu beschreiben, darunter Flugzeuge, Autos, Gebäude usw. Objekterkennung bei der Interpretation von Fernerkundungsbildern

Anwendung von Algorithmen beim Aufbau einer 58-Porträt-Plattform May 09, 2024 am 09:01 AM

1. Hintergrund des Baus der 58-Portrait-Plattform Zunächst möchte ich Ihnen den Hintergrund des Baus der 58-Portrait-Plattform mitteilen. 1. Das traditionelle Denken der traditionellen Profiling-Plattform reicht nicht mehr aus. Der Aufbau einer Benutzer-Profiling-Plattform basiert auf Data-Warehouse-Modellierungsfunktionen, um Daten aus mehreren Geschäftsbereichen zu integrieren, um genaue Benutzerporträts zu erstellen Und schließlich muss es über Datenplattformfunktionen verfügen, um Benutzerprofildaten effizient zu speichern, abzufragen und zu teilen sowie Profildienste bereitzustellen. Der Hauptunterschied zwischen einer selbst erstellten Business-Profiling-Plattform und einer Middle-Office-Profiling-Plattform besteht darin, dass die selbst erstellte Profiling-Plattform einen einzelnen Geschäftsbereich bedient und bei Bedarf angepasst werden kann. Die Mid-Office-Plattform bedient mehrere Geschäftsbereiche und ist komplex Modellierung und bietet allgemeinere Funktionen. 2.58 Benutzerporträts vom Hintergrund der Porträtkonstruktion im Mittelbahnsteig 58

See all articles