Neues SOTA zur Zielerkennung, Echtzeiterkennung auf dem Gerät und an der Seite, Shen Xiangyang leitet selten weiter und mag es

WBOY
Freigeben: 2024-06-02 16:41:05
Original
1175 Leute haben es durchsucht

Der Bereich der Zielerkennung hat neue Fortschritte gebracht –

Grounding DINO 1.5, erstellt vom Team des IDEA Research Institute, kann eine Echtzeiterkennung auf der Geräteseite erreichen.

Neues SOTA zur Zielerkennung, Echtzeiterkennung auf dem Gerät und an der Seite, Shen Xiangyang leitet selten weiter und mag es

Dieser Fortschritt wurde vom KI-Tycoon Shun Xiangyang vorangetrieben, der im Allgemeinen einem einjährigen Rhythmus folgt.

Diese Version besteht hauptsächlich aus zwei Versionen: Pro und Edge. Die Pro-Version ist stärker und die Edge-Version schneller.

Es behält weiterhin die Struktur der Vorgängerversion Grounding DINODual Encoder-Single Decoder bei. Auf dieser Grundlage wird die Modellgröße durch die Kombination eines größeren visuellen Rückgrats erweitert und ein umfangreicher Korpus mit mehr als 20 Millionen Grounding-Daten erhalten. Dies verbessert die Erkennungsgenauigkeit und -geschwindigkeit erheblich und ist durch die Pro- und Edge-Versionen für verschiedene Anwendungsszenarien optimiert.

Neues SOTA zur Zielerkennung, Echtzeiterkennung auf dem Gerät und an der Seite, Shen Xiangyang leitet selten weiter und mag es

Bei der Erstellung großer Datensätze und hochpräzisen Nachfrageszenarien schneidet die Pro-Version hervorragend ab, während die Edge-Version ihre einzigartigen Vorteile bei der endseitigen Bereitstellung unter Beweis stellt.

Schauen wir sie uns einzeln an.

Pro-Version neues SOTA für die Zielerkennung

Grounding+DINO+1.5 Pro-Version erreicht das aktuelle SOTA-Level der Open-Set-Zielerkennung, schneidet gut beim semantischen Verständnis von Bildern und Text ab und kann Bilder basierend darauf schnell und genau erkennen und identifizieren Sprache fordert Zielobjekt in auf.

Neues SOTA zur Zielerkennung, Echtzeiterkennung auf dem Gerät und an der Seite, Shen Xiangyang leitet selten weiter und mag es

△Zero-Shot-Migrationsleistungsvergleich in COCO-, LVIS-, ODinW35- und ODinW13-Benchmarks

Das Verständnis auf Objektebene ist die Wahrnehmungsbasis für die Interaktion zwischen Maschinen und der physischen Welt und auch die Lösung für das Multi -Modal Large Model (VLM)-Illusionsproblem Grundlegende Probleme, die nicht umgangen werden können.

Als derzeit leistungsstärkstes Open-Set-Erkennungsmodell kann Grounding DINO 1.5 Pro dabei helfen, umfangreiche multimodale Daten mit semantischen Informationen auf Objektebene zu erstellen und so das Training multimodaler großer Modelle effektiv zu unterstützen.

Es kann Phrasen in langen Textbeschreibungen genau mit bestimmten Objekten oder Szenen in Bildern abgleichen, um das Verständnis der KI für die Beziehung zwischen visuellem Inhalt und Text zu verbessern.

Neues SOTA zur Zielerkennung, Echtzeiterkennung auf dem Gerät und an der Seite, Shen Xiangyang leitet selten weiter und mag es

Darüber hinaus in anderen Anwendungen, die große Mengen komplexer Daten verarbeiten müssen Auch in Bereichen wie E-Commerce, Social Media und autonomes Fahren hat Grounding DINO 1.5 Pro einen hohen Einsatzwert.

Im Bereich E-Commerce kann dieses Modell beispielsweise dabei helfen, Produktbilder schnell mit Anmerkungen zu versehen und Such- und Empfehlungssysteme zu optimieren. In sozialen Medien kann dieses Modell von Benutzern hochgeladene Bilder automatisch kennzeichnen und so die Effizienz der Inhaltsüberprüfung und -klassifizierung verbessern.

Unterstützt die Feinabstimmung von Branchendaten

Darüber hinaus unterstützt die Pro-Version auch die Feinabstimmung anhand von Branchendaten, um den spezifischen Anforderungen verschiedener Branchen gerecht zu werden und so genauere Erkennungsergebnisse zu erzielen.

Um die durch die Feinabstimmung erzielten Verbesserungen zu überprüfen, führte das CVR-Team Vergleichsexperimente mit öffentlichen Datensätzen wie LVIS durch, die im visuellen Bereich üblich sind.

Neues SOTA zur Zielerkennung, Echtzeiterkennung auf dem Gerät und an der Seite, Shen Xiangyang leitet selten weiter und mag es

Wie aus den letzten beiden Zeilen hervorgeht, wurde Grounding DINO 1.5 Pro verfeinert und hat bei mehreren Datensätzen erhebliche Leistungsverbesserungen gezeigt.

Und es eignet sich auch sehr gut für viele praktische Szenen.

Neues SOTA zur Zielerkennung, Echtzeiterkennung auf dem Gerät und an der Seite, Shen Xiangyang leitet selten weiter und mag es

Wie im medizinischen Bereich kann das fein abgestimmte Grounding DINO 1.5 Pro Läsionen in medizinischen Bildern genauer identifizieren, Ärzte bei der Diagnose unterstützen und die Diagnose- und Behandlungseffizienz verbessern.

Im Einzelhandel können fein abgestimmte Modelle Waren genauer identifizieren und klassifizieren und so bei der Bestandsverwaltung und Verkaufsanalyse helfen.

Edge-Version kann auf der Clientseite bereitgestellt werden

In Bezug auf die clientseitige Bereitstellung wurde die Edge-Version von Grounding DINO 1.5 durch Modellstrukturoptimierung erfolgreich auf der NVIDIA Orin NX-Karte bereitgestellt und erreichte eine Inferenzgeschwindigkeit von 10 FPS.

Neues SOTA zur Zielerkennung, Echtzeiterkennung auf dem Gerät und an der Seite, Shen Xiangyang leitet selten weiter und mag es

Darüber hinaus ermöglicht es dem Roboter, mit der offenen Umgebung zu interagieren.

Neues SOTA zur Zielerkennung, Echtzeiterkennung auf dem Gerät und an der Seite, Shen Xiangyang leitet selten weiter und mag es

Im Bereich des autonomen Fahrens kann Grounding DINO 1.5 Edge künftig in Echtzeit auf Fahrzeugen laufen, um eine effiziente Zielerkennung und Umgebungswahrnehmung zu erreichen und so die Fahrsicherheit zu verbessern. Im Bereich der intelligenten Sicherheit kann dieses Modell Videoüberwachungsdaten schnell verarbeiten, abnormales Verhalten in Echtzeit erkennen und die Reaktionsgeschwindigkeit der Sicherheitsüberwachung verbessern.

In Zukunft soll die Laufgeschwindigkeit von Grounding DINO 1.5 Edge auf 20 bis 30 FPS steigen, was den Anwendungsbereich im Bereich Edge Computing weiter erweitert.

Papierlink:
https://arxiv.org/abs/2405.10300
Projekttest-Link:
https://deepdataspace.com/playground/grounding_dino

Das obige ist der detaillierte Inhalt vonNeues SOTA zur Zielerkennung, Echtzeiterkennung auf dem Gerät und an der Seite, Shen Xiangyang leitet selten weiter und mag es. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage