DynRefer übertrifft die CVPR 2024-Methode und erreicht mehrere SOTAs bei multimodalen Erkennungsaufgaben auf regionaler Ebene

WBOY
Freigeben: 2024-06-20 20:31:51
Original
605 Leute haben es durchsucht

Um ein hochpräzises multimodales Verständnis auf regionaler Ebene zu erreichen, schlägt dieser Artikel ein dynamisches Auflösungsschema zur Simulation des menschlichen visuellen kognitiven Systems vor.

Der Autor dieses Artikels stammt vom LAMP-Labor der Universität der Chinesischen Akademie der Wissenschaften. Der Erstautor Zhao Yuzhong ist Doktorand der Universität der Chinesischen Akademie der Wissenschaften im Jahr 2023 und der Co-Autor Liu Feng ist im Jahr 2020 direkter Doktorand der Universität der Chinesischen Akademie der Wissenschaften. Ihre Hauptforschungsrichtungen sind visuelle Sprachmodelle und visuelle Objektwahrnehmung.

Einführung

DynRefer verbessert die multimodalen Erkennungsfähigkeiten auf regionaler Ebene erheblich, indem es den visuellen kognitiven Prozess des Menschen simuliert. Durch die Einführung des dynamischen Auflösungsmechanismus des menschlichen Auges kann DynRefer gleichzeitig die Aufgaben der Regionserkennung, der Erkennung von Regionsattributen und der Beschriftung auf Regionsebene mit einem einzigen Modell erledigen und bei allen oben genannten Aufgaben SOTA-Leistung erzielen. Unter ihnen wurden 115,7 CIDEr bei der Untertitelungsaufgabe auf Regionsebene des RefCOCOg-Datensatzes erreicht, was deutlich höher ist als bei den CVPR 2024-Methoden wie RegionGPT, GlaMM, Osprey, Alpha-CLIP usw.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • Papiertitel: DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
  • Papierlink: https://arxiv.org/abs/2405.16071
  • Papiercode: https ://github.com/callsys/DynRefer

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Motivation

Die multimodale Aufgabe auf Regionsebene dient der Konvertierung bestimmter Bildregionen in Sprachbeschreibungen, die den menschlichen Vorlieben entsprechen. Der Mensch verfügt über eine auflösungsadaptive Fähigkeit, wenn er multimodale Aufgaben auf regionaler Ebene erledigt, d. h. der Interessenbereich hat eine hohe Auflösung und der Nichtaufmerksamkeitsbereich eine niedrige Auflösung. Aktuelle multimodale große Sprachmodelle auf regionaler Ebene verwenden jedoch häufig ein Codierungsschema mit fester Auflösung, dh das gesamte Bild wird codiert und anschließend werden regionale Merkmale mithilfe von RoI Align extrahiert. Diesem Ansatz fehlt die Fähigkeit zur Auflösungsanpassung im visuellen kognitiven System des Menschen und er weist eine geringe Kodierungseffizienz und Fähigkeit für Bereiche von Interesse auf. Um ein hochpräzises multimodales Verständnis auf regionaler Ebene zu erreichen, schlagen wir ein dynamisches Auflösungsschema zur Simulation des menschlichen visuellen kognitiven Systems vor, wie in der folgenden Abbildung dargestellt.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

区 Abbildung 1: Vergleich traditioneller regionaler multimodaler Methoden (links) und der Dynrefer-Methode (rechts).

Methode

1. Bild mit dynamischer Auflösung simulieren (Aufbau mit mehreren Ansichten).
Da das gängige vorab trainierte visuelle Sprachmodell (CLIP) nur Eingaben mit einheitlicher Auflösung empfangen kann, simulieren wir ein Bild mit dynamischer Auflösung, indem wir mehrere Ansichten mit einheitlicher Auflösung erstellen. Das Bild hat im Referenzbereich eine hohe Auflösung und im Nicht-Referenzbereich eine niedrige Auflösung. Der spezifische Prozess ist in Abbildung 2 dargestellt. Das Originalbild x wird zugeschnitten und in mehreren Kandidatenansichten skaliert. Der Zuschneidebereich wird als
berechnet, wobei . Hier repräsentiert den Begrenzungsrahmen des Referenzbereichs, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA repräsentiert die Größe des gesamten Bildes und t repräsentiert den Interpolationskoeffizienten. Während des Trainings wählen wir zufällig n Ansichten aus Kandidatenansichten aus, um Bilder zu simulieren, die durch Blicke und schnelle Augenbewegungen erzeugt werden. Diese n Ansichten entsprechen dem Interpolationskoeffizienten t, der 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA ist. Wir behalten die Ansicht fest bei, die nur den Referenzbereich enthält (d. h. 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA). Es wurde experimentell nachgewiesen, dass diese Ansicht dazu beiträgt, regionale Details zu bewahren, was für alle regionalen multimodalen Aufgaben von entscheidender Bedeutung ist. 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
                                                                                                                                                                                    oben) und Inferenz (unten).

2. Stochastische Multi-View-Einbettung. Der spezifische Prozess ist in Abbildung 3 dargestellt. Die abgetasteten n Ansichten werden über eingefrorenes CLIP in räumliche Merkmale codiert und dann vom RoI-Align-Modul verarbeitet, um Regionseinbettungen zu erhalten, d. h. 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA. Dies ist auf der linken Seite von Abbildung 3 dargestellt. Diese Regionseinbettungen sind aufgrund von räumlichen Fehlern, die durch Zuschneiden, Größenänderung und RoI-Ausrichtung entstehen, nicht räumlich ausgerichtet. Inspiriert durch die verformbare Faltungsoperation schlagen wir ein Ausrichtungsmodul vor, um die Verzerrung zu reduzieren, indem 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA an 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA ausgerichtet wird, wobei DynRefer übertrifft die CVPR 2024-Methode und erreicht mehrere SOTAs bei multimodalen Erkennungsaufgaben auf regionaler Ebene die Regionseinbettung der Ansichtskodierung ist, die nur die Referenzregion enthält. Für jede Region, die 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA einbettet, wird sie zunächst mit 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA verkettet und dann wird eine 2D-Offset-Karte über eine Faltungsschicht berechnet. Die räumlichen Merkmale von 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA werden dann basierend auf dem 2D-Offset erneut abgetastet. Schließlich werden die ausgerichteten Regionseinbettungen entlang der Kanaldimension verkettet und durch lineare Schichten verschmolzen. Die Ausgabe wird durch ein visuelles Resampling-Modul, d. h. Q-Former, weiter komprimiert, wodurch eine regionale Darstellung des Referenzbereichs 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA des Originalbilds x (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA in Abbildung 3) extrahiert wird.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

                                                                                                                                                             Abbildung 3: DynRefer-Netzwerkstruktur

3. Vision-Sprache-Ausrichtung. Die vom stochastischen Multi-View-Einbettungsmodul berechnete Regionsdarstellung 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA wird von drei Decodern 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA dekodiert, wie in Abbildung 3 (rechts) dargestellt, und jeweils von drei multimodalen Aufgaben überwacht:

i ) Bildregionsbezeichnung Generation. Wir verwenden einen einfachen, abfragebasierten Erkennungsdecoder für die Generierung von Regionsbezeichnungen. Der Decoder 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA ist in Abbildung 3 (rechts) dargestellt. Der Tagging-Prozess wird abgeschlossen, indem die Konfidenz eines vordefinierten Tags berechnet wird, wobei das Tag als Abfrage, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA als Schlüssel und Wert verwendet wird. Wir analysieren Etiketten aus Ground-Truth-Untertiteln, um den Erkennungsdecoder zu überwachen. ii) Kontrastives Lernen von Region und Text. Ähnlich wie der Region-Tag-Decoder ist der Decoder 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA als abfragebasierter Erkennungsdecoder definiert. Der Decoder berechnet Ähnlichkeitswerte zwischen Untertiteln und Regionsmerkmalen und überwacht dabei den SigLIP-Verlust. iii) Sprachmodellierung. Wir verwenden ein vorab trainiertes großes Sprachmodell 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA, um die regionale Darstellung 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA in eine Sprachbeschreibung umzuwandeln.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Abbildung 4: Leistung des Dual-View-DynRefer-Modells (n=2) bei multimodalen Aufgaben auf Regionsebene. Unter verschiedenen Interpolationskoeffizienten t, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA. Ansicht eins ist festgelegt (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA), Ansicht zwei ist zufällig ausgewählt oder festgelegt.

4. Während des Inferenzprozesses führt das trainierte DynRefer-Modell multimodale Aufgaben an Bildern mit dynamischer Auflösung aus. Durch Anpassen der Interpolationskoeffizienten 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA der abgetasteten n Ansichten können wir eine regionale Darstellung mit dynamischen Auflösungseigenschaften erhalten. Um die Eigenschaften bei unterschiedlichen dynamischen Auflösungen zu bewerten, haben wir ein Dual-View-DynRefer-Modell (n=2) trainiert und es anhand von vier multimodalen Aufgaben ausgewertet. Wie aus der Kurve in Abbildung 4 ersichtlich ist, erzielt die Attributerkennung bessere Ergebnisse für Ansichten ohne Kontextinformationen (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA). Dies lässt sich dadurch erklären, dass für solche Aufgaben häufig detaillierte regionale Informationen erforderlich sind. Für Untertitelungsaufgaben auf Regionsebene und dichte Untertitel ist eine kontextreiche Ansicht (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) erforderlich, um die Referenzregion vollständig zu verstehen. Es ist wichtig zu beachten, dass Ansichten mit zu viel Kontext (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) die Leistung bei allen Aufgaben beeinträchtigen, weil sie zu viele Informationen einbringen, die für die Region nicht relevant sind. Wenn der Aufgabentyp bekannt ist, können wir anhand der Aufgabenmerkmale geeignete Ansichten testen. Wenn der Aufgabentyp unbekannt ist, erstellen wir zunächst eine Reihe von Kandidatenansichten unter verschiedenen Interpolationskoeffizienten t, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA. Aus der Kandidatenmenge werden n Ansichten über einen Greedy-Suchalgorithmus abgetastet. Die Zielfunktion der Suche ist definiert als:

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTAwobei 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA den Interpolationskoeffizienten der i-ten Ansicht darstellt, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA die i-te Ansicht darstellt, pHASH (・) die Wahrnehmungsbild-Hash-Funktion darstellt und 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA das XOR darstellt Betrieb. Um die Informationen von Ansichten aus einer globalen Perspektive zu vergleichen, verwenden wir die Funktion „pHASH (・)“, um die Ansichten aus dem räumlichen Bereich in den Frequenzbereich umzuwandeln und sie anschließend in Hash-Codes zu kodieren. Für diesen Artikel 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA reduzieren wir die Gewichtung kontextreicher Ansichten, um zu vermeiden, dass zu viele redundante Informationen eingefügt werden.

Experiment

Untertitel auf Regionsebene

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Bei der Aufgabe der regionalen Untertitelgenerierung verwendet DynRefer ein kleineres Modell (4.2B vs. 7B) sowohl für RefCOCOg- als auch für VG-Datensätze Mit den METEOR- und CIDEr-Indikatoren übertrifft es viele Methoden in CVPR 2024 deutlich, wie RegionGPT, GlaMM, Alpha-CLIP und Osprey usw., was den enormen Leistungsvorteil von DynRefer demonstriert.

Dichte Untertitel

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Bei der Aufgabe der dichten Untertitelgenerierung am VG1.2-Datensatz verbesserte DynRefer den mAP im Vergleich zur vorherigen SOTA-Methode GRiT um 7,1 %.

Offene Vokabelattributerkennung

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

In der regionalen Attributerkennungsaufgabe erreichte DynRefer auch SOTA-Leistung.

Regionserkennung im offenen Wortschatz

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

In der Regionserkennungsaufgabe verbessert DynRefer 15 % mAP und 8,8 % Genauigkeit im Vergleich zu RegionGPT von CVPR 24 und ist 15,7 % mAP höher als ASM von ICLR 24.

Ablationsexperiment

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • Zeile 1-6: Zufällige dynamische Mehrfachansicht ist besser als feste Ansicht.
  • Zeile 6-10: Die Auswahl von Ansichten durch Maximierung der Informationen ist besser als die zufällige Auswahl von Ansichten.
  • Zeile 10-13: Durch Multitasking-Training können bessere regionale Darstellungen erlernt werden.

Visualisierung

Die folgenden Bilder zeigen die Inferenzergebnisse von DynRefer. DynRefer kann ein Modell verwenden, um gleichzeitig regionale Untertitel, Tags, Attribute und Kategorien auszugeben.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Das obige ist der detaillierte Inhalt vonDynRefer übertrifft die CVPR 2024-Methode und erreicht mehrere SOTAs bei multimodalen Erkennungsaufgaben auf regionaler Ebene. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage