Inhaltsverzeichnis
Föderiertes Lernframework für die Modellkomprimierung" >Föderiertes Lernframework für die Modellkomprimierung
Experimentelle Ergebnisse
Heim Technologie-Peripheriegeräte KI Zum ersten Mal wird „Teaching Director' in die Modelldestillation eingeführt, und die groß angelegte Komprimierung ist besser als 24 SOTA-Methoden.

Zum ersten Mal wird „Teaching Director' in die Modelldestillation eingeführt, und die groß angelegte Komprimierung ist besser als 24 SOTA-Methoden.

Apr 14, 2023 pm 03:46 PM
模型 研究

Angesichts immer tieferer Lernmodelle und massiver Video-Big Data sind Algorithmen der künstlichen Intelligenz zunehmend auf Rechenressourcen angewiesen. Um die Leistung und Effizienz tiefer Modelle effektiv zu verbessern, indem die Destillierbarkeit und Sparsamkeit des Modells untersucht wird, schlägt dieser Artikel eine einheitliche Modellkomprimierung vor, die auf der Modelltechnologie „Lehrer-Lehrer-Schüler“ basiert .

Diese Leistung wurde von einem gemeinsamen Forschungsteam des People's Institute of Science and Technology und des Institute of Automation der Chinese Academy of erreicht Der entsprechende Artikel wurde in der führenden internationalen Fachzeitschrift für künstliche Intelligenz, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), veröffentlicht. Diese Errungenschaft ist das erste Mal, dass die Rolle des „Lehrleiters“ in die Modelldestillationstechnologie eingeführt wurde, wodurch die Destillation und Anpassung tiefer Modelle vereinheitlicht wird.

Zum ersten Mal wird „Teaching Director in die Modelldestillation eingeführt, und die groß angelegte Komprimierung ist besser als 24 SOTA-Methoden.

Papieradresse: https://ieeexplore.ieee.org/abstract/document/9804342

Derzeit wurde dieses Ergebnis auf die von People's Zhongke unabhängig entwickelte modalübergreifende intelligente Suchmaschine „Baize“ angewendet. „Baize“ durchbricht die Barrieren des Informationsausdrucks zwischen verschiedenen Modalitäten wie Grafiken, Text, Audio und Video und ordnet verschiedene modale Informationen wie Text, Bilder, Sprache und Video in einem einheitlichen Feature-Repräsentationsraum zu, wobei Video den Kern des Lernens darstellt Mehrere Modalitäten Eine einheitliche Distanzmessung kann verwendet werden, um die semantische Lücke multimodaler Inhalte wie Text, Sprache und Video zu schließen und einheitliche Suchfunktionen zu erreichen.

Angesichts der massiven Internetdaten, insbesondere Video-Big Data, nimmt jedoch der Verbrauch von Rechenressourcen durch modalübergreifende Tiefenmodelle allmählich zu. Basierend auf diesem Forschungsergebnis kann „Baize“ die Modellgröße in großem Maßstab komprimieren und gleichzeitig die Algorithmusleistung sicherstellen, wodurch modalübergreifende intelligente Verständnis- und Suchfunktionen mit hohem Durchsatz und geringem Stromverbrauch erreicht werden. Vorläufigen praktischen Anwendungen zufolge kann diese Technologie die Parameterskala großer Modelle im Durchschnitt um mehr als das Vierfache komprimieren. Einerseits kann dadurch der Verbrauch von Hochleistungs-Rechenressourcen wie GPU-Servern durch das Modell erheblich reduziert werden. Andererseits können große Modelle, die nicht am Rand bereitgestellt werden können, destilliert und komprimiert werden, um eine Bereitstellung mit geringem Stromverbrauch zu erreichen Rand.

Föderiertes Lernframework für die Modellkomprimierung

Komprimierung und Beschleunigung tiefer algorithmischer Modelle können durch Destillation erreicht werden Lernen oder strukturiertes Sparse-Clipping sind implementiert, es gibt jedoch in beiden Bereichen einige Einschränkungen. Ziel der Destillationslernmethode ist es, ein leichtes Modell (d. h. ein Schülernetzwerk) zu trainieren, um ein komplexes und großes Modell (d. h. ein Lehrernetzwerk) zu simulieren. Unter der Anleitung des Lehrernetzwerks kann das Schülernetzwerk bessere Leistungen erzielen als alleiniges Training.

Destillationslernalgorithmen konzentrieren sich jedoch nur auf die Verbesserung der Leistung von Studentennetzwerken und ignorieren häufig die Bedeutung der Netzwerkstruktur. Die Struktur des Studierendennetzwerks wird in der Regel im Ausbildungsprozess vordefiniert und festgelegt.

Für strukturiertes Sparse-Clipping oder Filter-Clipping zielen diese Methoden darauf ab, ein redundantes und komplexes Netzwerk in ein spärliches und kompaktes Netzwerk zu schneiden. Allerdings wird das Zuschneiden des Modells nur verwendet, um eine kompakte Struktur zu erhalten. Keine der vorhandenen Methoden nutzt das im ursprünglichen komplexen Modell enthaltene „Wissen“ vollständig aus. Neuere Forschungen kombinieren Destillationslernen mit strukturiertem Sparse-Pruning, um Modellleistung und -größe in Einklang zu bringen. Diese Methoden beschränken sich jedoch auf einfache Kombinationen von Verlustfunktionen.

Um die oben genannten Probleme eingehend zu analysieren, wurde in dieser Studie zunächst das Modell basierend auf Compressed Sensing trainiert. Durch die Analyse der Modellleistung und -struktur wurde festgestellt, dass dies der Fall ist sind zwei wichtige Aspekte für tiefe Algorithmusmodelle: Destillierbarkeit und Sparfähigkeit.

Insbesondere bezieht sich Destillierbarkeit auf die Dichte, die effektives Wissen aus dem Lehrernetzwerk destillieren kann. Sie kann anhand der Leistungssteigerungen gemessen werden, die ein Schülernetzwerk unter der Anleitung eines Lehrernetzwerks erzielt. Beispielsweise können Studentennetzwerke mit höherer Destillierbarkeit eine höhere Leistung erzielen. Die Destillierbarkeit kann auch auf der Ebene der Netzwerkschicht quantitativ analysiert werden.

Wie in Abbildung 1-(a) dargestellt, stellt das Balkendiagramm die Kosinusähnlichkeit (Kosinusähnlichkeit) zwischen dem Lernverlustgradienten der Destillation und dem Verlustgradienten der wahren Wertklassifizierung dar. Eine größere Kosinusähnlichkeit weist darauf hin, dass die Kenntnis der aktuellen Destillation für die Modellleistung hilfreicher ist. Auf diese Weise kann die Kosinusähnlichkeit auch ein Maß für die Destillierbarkeit sein. Aus Abbildung 1-(a) ist ersichtlich, dass die Destillierbarkeit mit zunehmender Anzahl der Modellschichten allmählich zunimmt. Dies erklärt auch, warum die beim Destillationslernen üblicherweise verwendete Supervision in den letzten Schichten des Modells angewendet wird. Darüber hinaus weist das Studentenmodell in verschiedenen Trainingsrunden auch eine unterschiedliche Destillierbarkeit auf, da sich auch die Kosinusähnlichkeit ändert, wenn sich die Trainingszeit ändert. Daher ist es notwendig, die Destillierbarkeit verschiedener Schichten während des Trainingsprozesses dynamisch zu analysieren.

Andererseits bezieht sich Sparsity auf die Zuschneiderate (oder Komprimierungsrate), die das Modell unter begrenztem Präzisionsverlust erreichen kann. Eine höhere Sparfähigkeit entspricht dem Potenzial für höhere Erntemengen. Wie in Abbildung 1-(b) dargestellt, weisen verschiedene Schichten oder Module des Netzwerks unterschiedliche Sparsibilität auf. Ähnlich wie die Destillierbarkeit kann auch die Sparsibilität auf der Ebene der Netzwerkschicht und in der Zeitdimension analysiert werden. Allerdings gibt es derzeit keine Methoden zur Untersuchung und Analyse der Destillierbarkeit und Verdünnung. Bestehende Methoden verwenden oft einen festen Trainingsmechanismus, was es schwierig macht, ein optimales Ergebnis zu erzielen.

Zum ersten Mal wird „Teaching Director in die Modelldestillation eingeführt, und die groß angelegte Komprimierung ist besser als 24 SOTA-Methoden.

Zum ersten Mal wird „Teaching Director in die Modelldestillation eingeführt, und die groß angelegte Komprimierung ist besser als 24 SOTA-Methoden.

Abbildung 1 Schematische Darstellung der Destillierbarkeit und Sparsamkeit tiefer neuronaler Netze

Um die oben genannten Probleme zu lösen, analysierte diese Studie den Trainingsprozess der Modellkomprimierung, um Informationen über die Destillierbarkeit zu erhalten und Sparsability-bezogene Entdeckungen. Inspiriert von diesen Erkenntnissen schlägt diese Studie eine Modellkomprimierungsmethode vor, die auf dem gemeinsamen Lernen von dynamischer Destillierbarkeit und Sparsity basiert. Es kann Destillationslernen und strukturiertes Sparse-Clipping dynamisch kombinieren und den gemeinsamen Trainingsmechanismus durch Lernen von Destillierbarkeit und Sparsity adaptiv anpassen. Im Gegensatz zum herkömmlichen „Lehrer-Schüler“-Rahmen kann die in diesem Artikel vorgeschlagene Methode als „Lernen-in-Schule“-Rahmen beschrieben werden, da sie drei Hauptmodule enthält: Lehrernetzwerk, Schülernetzwerk und Dekanatsnetzwerk.

Konkret unterrichtet das Lehrernetzwerk das Schülernetzwerk wie zuvor. Das Lehrleiternetzwerk ist für die Steuerung der Intensität des Online-Lernens der Studierenden und der Art und Weise, wie sie lernen, verantwortlich. Durch den Erhalt des Status des aktuellen Lehrernetzwerks und des Studentennetzwerks kann das Dekannetzwerk die Destillierbarkeit und Sparbarkeit des aktuellen Studentennetzwerks bewerten und dann die Stärke der Destillations-Lernüberwachung und der strukturierten, spärlichen Clipping-Überwachung dynamisch ausgleichen und steuern.

Um die Methode in diesem Artikel zu optimieren, schlägt diese Forschung auch einen gemeinsamen Optimierungsalgorithmus für Destillationslernen und Clipping vor, der auf der Methode des Wechselrichtungsmultiplikators basiert, um das Studentennetzwerk zu aktualisieren. Um das Lehrleiternetzwerk zu optimieren und zu aktualisieren, wird in diesem Artikel ein auf Meta-Lernen basierender Optimierungsalgorithmus für Lehrleiter vorgeschlagen. Die Destillierbarkeit kann wiederum durch dynamische Anpassung des Überwachungssignals beeinflusst werden. Wie in Abbildung 1-(a) gezeigt, erweist sich die Methode in diesem Artikel als in der Lage, den Abwärtstrend der Destillierbarkeit zu verzögern und die Destillierbarkeit insgesamt zu verbessern, indem das Wissen über die Destillation rational genutzt wird.

Das allgemeine Algorithmus-Framework und das Flussdiagramm der Methode dieses Artikels sind in der folgenden Abbildung dargestellt. Das Framework umfasst drei Hauptmodule: Lehrernetzwerk, Studentennetzwerk und Lehrleiternetzwerk. Unter diesen wird das anfängliche komplexe redundante Netzwerk, das komprimiert und gekürzt werden soll, als Lehrernetzwerk betrachtet, und im nachfolgenden Trainingsprozess wird das ursprüngliche Netzwerk, das nach und nach dünner wird, als Schülernetzwerk betrachtet. Das Dekannetzwerk ist ein Metanetzwerk, das die Informationen des Lehrernetzwerks und des Schülernetzwerks eingibt, um die aktuelle Destillierbarkeit und Sparsamkeit zu messen und so die Überwachungsintensität des Destillationslernens und der Sparsamkeit zu steuern.

Auf diese Weise kann das Studentennetzwerk jederzeit durch dynamisch destilliertes Wissen geleitet und bereichert werden. Wenn das Studentennetzwerk beispielsweise eine höhere Destillierbarkeit aufweist, lässt der Dekan das Studentennetzwerk von einem stärkeren Destillationsüberwachungssignal leiten (siehe das rosa Pfeilsignal in Abbildung 2). Der Dekan wird ein stärkeres, spärliches Aufsichtssignal auf das Studentennetzwerk ausüben (siehe das orangefarbene Pfeilsignal in Abbildung 2).

Zum ersten Mal wird „Teaching Director in die Modelldestillation eingeführt, und die groß angelegte Komprimierung ist besser als 24 SOTA-Methoden.

Abbildung 2 Schematische Darstellung des Modellkomprimierungsalgorithmus basierend auf dem gemeinsamen Lernen von Destillierbarkeit und Sparsity

Experimentelle Ergebnisse

Experimente vergleichen die in diesem Artikel vorgeschlagene Methode mit 24 gängigen Modellkomprimierungsmethoden (einschließlich Sparse-Clipping-Methoden). ) und Destillationslernmethoden) werden auf dem kleinen Datensatz CIFAR und dem großen Datensatz ImageNet verglichen. Die experimentellen Ergebnisse sind in der folgenden Abbildung dargestellt und belegen die Überlegenheit der in diesem Artikel vorgeschlagenen Methode.

Tabelle 1 Leistungsvergleich der Modellzuschneideergebnisse auf CIFAR10:

Zum ersten Mal wird „Teaching Director in die Modelldestillation eingeführt, und die groß angelegte Komprimierung ist besser als 24 SOTA-Methoden.

Tabelle 2 Leistungsvergleich der Modellzuschneideergebnisse auf ImageNet:

Zum ersten Mal wird „Teaching Director in die Modelldestillation eingeführt, und die groß angelegte Komprimierung ist besser als 24 SOTA-Methoden.

Weitere Forschungsdetails finden Sie im Original Papier.

Das obige ist der detaillierte Inhalt vonZum ersten Mal wird „Teaching Director' in die Modelldestillation eingeführt, und die groß angelegte Komprimierung ist besser als 24 SOTA-Methoden.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es könnte die schnellste Wahl für das GPU-Inferenztraining werden Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es könnte die schnellste Wahl für das GPU-Inferenztraining werden Apr 01, 2024 pm 07:46 PM

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

FisheyeDetNet: der erste Zielerkennungsalgorithmus basierend auf einer Fischaugenkamera FisheyeDetNet: der erste Zielerkennungsalgorithmus basierend auf einer Fischaugenkamera Apr 26, 2024 am 11:37 AM

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch! DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch! Mar 21, 2024 pm 05:21 PM

In diesem Artikel wird das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren untersucht, insbesondere wie die Transformation von Merkmalen aus der Perspektive (PV) in den Raum aus der Vogelperspektive (BEV) effektiv ist implementiert über das Modul Visual Transformation (VT). Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und die Aufmerksamkeitsgewichte der Korrespondenz zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht sich die Rechen- und Bereitstellungszeit.

See all articles