Das IDEA Research Institute hat eine neue Technologie eingeführt und das T-Rex-Modell veröffentlicht, mit dem Benutzer direkt auf dem Bild „Prompt'-Eingabeaufforderungen auswählen können

WBOY
Freigeben: 2023-11-24 08:10:38
nach vorne
1175 Leute haben es durchsucht

Nach dem beliebten Grounded SAM ist das Team des IDEA Research Institutemit einer neuen Arbeit zurück: einem neuen visuellen Prompt (Visual Prompt) Modell T-Re x, verwenden Sie Bilder, um Bilder zu erkennen, verwenden Sie es sofort nach dem Auspacken, Das IDEA Research Institute hat eine neue Technologie eingeführt und das T-Rex-Modell veröffentlicht, mit dem Benutzer direkt auf dem Bild „Prompt-Eingabeaufforderungen auswählen könneneröffnen Sie eine neue Welt der Erkennung offener Mengen!

Rahmen ziehen, prüfen und fertigstellen! Auf der gerade zu Ende gegangenen IDEA-Konferenz 2023 demonstrierte Shen Xiangyang, Gründungsvorsitzender des IDEA Research Institute und ausländischer Akademiker der National Academy of Engineering, ein neues Zielerkennungserlebnis basierend auf visuellen Hinweisen und stellte das Modelllabor (Spielplatz) des neuen vor visuelle Hinweise Modell T-Rex), Interactive Visual Prompt (iVP), löste vor Ort eine Welle von Testhöhepunkten aus.

Das IDEA Research Institute hat eine neue Technologie eingeführt und das T-Rex-Modell veröffentlicht, mit dem Benutzer direkt auf dem Bild „Prompt-Eingabeaufforderungen auswählen können

Auf iVP können Benutzer persönlich das Erlebnis „Ein Bild sagt mehr als tausend Worte“ freischalten: Markieren Sie das gewünschte Objekt auf dem Bild, geben Sie dem Modell ein visuelles Beispiel, und das Modell erkennt dann alles ähnliche Objekte im Zielbild Beispiel. Der gesamte Prozess ist interaktiv und kann problemlos in wenigen Schritten abgeschlossen werden.

Das IDEA Research Institute hat eine neue Technologie eingeführt und das T-Rex-Modell veröffentlicht, mit dem Benutzer direkt auf dem Bild „Prompt-Eingabeaufforderungen auswählen können

Grounded SAM (Grounding DINO + SAM), veröffentlicht vom IDEA Research Institute im April, erfreute sich auf Github großer Beliebtheit und hat bisher 11.000 Sterne gesammelt. Im Gegensatz zu Grounded SAM, das nur Textaufforderungen unterstützt, bietet das dieses Mal veröffentlichte T-Rex-Modell eine visuelle Aufforderungsfunktion, die sich auf die Schaffung einer starken Interaktion konzentriert.

T-Rex verfügt über starke sofort einsatzbereite Funktionen und kann Objekte erkennen, die das Modell während der Trainingsphase noch nie gesehen hat, ohne dass eine Neuschulung oder Feinabstimmung erforderlich ist. Dieses Modell kann nicht nur auf alle Detektionsaufgaben einschließlich der Zählung angewendet werden, sondern bietet auch neue Lösungen für intelligente interaktive Annotationsszenarien.

Das IDEA Research Institute hat eine neue Technologie eingeführt und das T-Rex-Modell veröffentlicht, mit dem Benutzer direkt auf dem Bild „Prompt-Eingabeaufforderungen auswählen können

Das Team stellte fest, dass die Entwicklung der visuellen Eingabeaufforderungstechnologie auf der Beobachtung von Schmerzpunkten in realen Szenen beruhte. Einige Partner hoffen, visuelle Modelle zu verwenden, um die Anzahl der Waren auf Lastwagen zu zählen. Das Modell kann jedoch nicht jede Ware einzeln anhand von Textaufforderungen identifizieren. Der Grund dafür ist, dass Objekte in Industrieszenen im täglichen Leben selten und schwer mit Worten zu beschreiben sind. In diesem Fall sind visuelle Hinweise eindeutig ein effizienterer Ansatz. Gleichzeitig tragen intuitives visuelles Feedback und starke Interaktivität dazu bei, die Effizienz und Genauigkeit der Erkennung zu verbessern.

Basierend auf Erkenntnissen über die tatsächlichen Nutzungsanforderungen hat das Team T-Rex als ein Modell entworfen, das mehrere visuelle Hinweise akzeptieren kann und über die Fähigkeit verfügt, über Bilder hinweg Eingabeaufforderungen zu erteilen. Zusätzlich zum einfachsten Einzelrunden-Promptmodus unterstützt das aktuelle Modell auch die folgenden drei erweiterten Modi

Das IDEA Research Institute hat eine neue Technologie eingeführt und das T-Rex-Modell veröffentlicht, mit dem Benutzer direkt auf dem Bild „Prompt-Eingabeaufforderungen auswählen können

  • Mehrrunden-Positivmodus: geeignet für Szenarien, in denen visuelle Eingabeaufforderungen nicht genau genug sind und zu Fehlerkennungen führen
  • Positiv + Negativ-Modus: Geeignet für Szenarien, in denen visuelle Hinweise mehrdeutig sind und zu Fehlerkennungen führen.
  • Cross-Image-Modus: Geeignet für Szenarien, in denen ein einzelnes Referenzbild die Erkennung anderer Bilder auslöst Zeitlich fasste das Team die vier Hauptmerkmale des Rex-Modells zusammen:

Das IDEA Research Institute hat eine neue Technologie eingeführt und das T-Rex-Modell veröffentlicht, mit dem Benutzer direkt auf dem Bild „Prompt-Eingabeaufforderungen auswählen könnenOffener Satz: nicht durch vordefinierte Kategorien eingeschränkt, mit der Fähigkeit, alle Objekte zu erkennen.

    Visuelle Eingabeaufforderungen: Verwenden Sie visuelle Beispiele, um Erkennungsziele anzugeben Überwinden Sie die Schwierigkeit, seltene und komplexe Objekte zu verwenden. Vollständig in Text ausgedrückte Fragen verbessern die Effizienz der Eingabeaufforderung.
  • Intuitives visuelles Feedback: Bieten Sie intuitives visuelles Feedback wie Begrenzungsrahmen, um Benutzern eine effiziente Bewertung der Erkennungsergebnisse zu erleichtern und korrekte Modellergebnisse
  • Das Forschungsteam wies darauf hin, dass in Zielerkennungsszenarien das Hinzufügen visueller Hinweise einige der Mängel von Texthinweisen ausgleichen kann. In Zukunft wird die Kombination beider das Potenzial der CV-Technologie in noch vertikaleren Bereichen freisetzen.
  • Technische Details zum T-Rex-Modell entnehmen Sie bitte dem zeitgleich veröffentlichten technischen Bericht.

iVPDas IDEA Research Institute hat eine neue Technologie eingeführt und das T-Rex-Modell veröffentlicht, mit dem Benutzer direkt auf dem Bild „Prompt-Eingabeaufforderungen auswählen können

Modelllabor:

https://deepdataspace.com/playground/ivp

Github-Link: trex-counting.github.io

Diese Arbeit stammt vom Computer Vision and Robotics Research Center des IDEA Institute. Das bisherige Open-Source-Zielerkennungsmodell DINO war das erste DETR-Modell, das den ersten Platz in der COCO-Zielerkennungsrankings erreichte; der sehr beliebte Zero-Shot-Detektor Grounding DINO auf Github kann auch jedes Objekt erkennen und segmentieren die Arbeit dieses Teams

Das obige ist der detaillierte Inhalt vonDas IDEA Research Institute hat eine neue Technologie eingeführt und das T-Rex-Modell veröffentlicht, mit dem Benutzer direkt auf dem Bild „Prompt'-Eingabeaufforderungen auswählen können. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage