Das Team von Li Xi von der Zhejiang-Universität: ScanFormer ist eine neue Methode zur Bezugnahme auf das Ausdrucksverständnis und iteriert von grob nach fein, um visuelle Redundanz zu beseitigen-KI-php.cn

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Die Autoren dieser Arbeit stammen alle aus dem Team von Professor Li Xi von der Zhejiang-Universität. Der erste Autor der Arbeit ist die Doktorandin Su Wei, und der korrespondierende Autor ist Li Professor Xi (IET Fellow, National Distinguished Young Scholar). In den letzten Jahren hat das Team von Professor Li Xi mehr als 180 CV/AIGC-bezogene Forschungsarbeiten in renommierten internationalen Fachzeitschriften (wie TPAMI, IJCV usw.) und führenden internationalen akademischen Konferenzen (ICCV, CVPR, ECCV usw.) veröffentlicht. und hat mit namhaften Universitäten und wissenschaftlichen Forschungseinrichtungen im In- und Ausland kooperiert.

Als grundlegende visuelle Sprachaufgabe lokalisiert das Referring Expression Comprehension (REC) das verwiesene Ziel im Bild basierend auf der Beschreibung in natürlicher Sprache. Das REC-Modell besteht normalerweise aus drei Teilen: visuellem Encoder, Textencoder und modalübergreifender Interaktion, die zum Extrahieren visueller Merkmale, Textmerkmale und modalübergreifender Merkmalsinteraktion bzw. -verbesserung verwendet werden.

Die meisten aktuellen Forschungsarbeiten konzentrieren sich auf die Entwicklung effizienter modalübergreifender Interaktionsmodule zur Verbesserung der Aufgabengenauigkeit, und es mangelt an der Erforschung visueller Encoder. Ein gängiger Ansatz besteht darin, Feature-Extraktoren zu verwenden, die vorab auf Klassifizierungs- und Erkennungsaufgaben trainiert wurden, wie z. B. ResNet, DarkNet, Swin Transformer oder ViT usw. Diese Modelle durchqueren alle räumlichen Positionen des Bildes, um Merkmale in einem gleitenden Fenster oder einem geteilten Patch zu extrahieren. Ihre Rechenkomplexität nimmt mit der Bildauflösung schnell zu, was bei Modellen auf Transformer-Basis offensichtlicher ist.

Aufgrund der räumlichen Redundanzeigenschaften von Bildern gibt es eine große Anzahl von Hintergrundbereichen mit geringem Informationsgehalt und Bereichen, die nichts mit dem referenziellen Ausdruck im Bild zu tun haben. Durch das Extrahieren von Merkmalen in diesen Bereichen wird die Menge erhöht der Berechnung, ist aber für eine effektive Merkmalsextraktion nicht effektiv. Eine effizientere Möglichkeit besteht darin, die Textrelevanz und den Inhaltsreichtum des Bildbereichs im Voraus vorherzusagen, Merkmale vollständig aus dem textbezogenen Vordergrundbereich zu extrahieren und Merkmale grob aus dem Hintergrundbereich zu extrahieren. Für die regionale Vorhersage besteht eine intuitivere Möglichkeit darin, mithilfe der Bildpyramide den Hintergrundbereich im grobkörnigen Bild an der Spitze der Pyramide im Voraus zu identifizieren und dann nach und nach hochauflösende, feinkörnige Vordergrundbereiche hinzuzufügen.

Basierend auf der obigen Analyse haben wir ein von grob bis fein iteratives Wahrnehmungsframework ScanFormer vorgeschlagen, das Schicht für Schicht in der Bildpyramide scannt, ausgehend von Bildern mit niedriger Auflösung und grobem Maßstab, und diese schrittweise herausfiltert irrelevante referenzielle Ausdrücke/Hintergrundbereiche, um Rechenverschwendung zu reduzieren und es dem Modell zu ermöglichen, sich stärker auf den Vordergrund/aufgabenbezogenen Bereich zu konzentrieren.

Das Team von Li Xi von der Zhejiang-Universität: ScanFormer ist eine neue Methode zur Bezugnahme auf das Ausdrucksverständnis und iteriert von grob nach fein, um visuelle Redundanz zu beseitigen

Papiertitel: ScanFormer: Referring Expression Comprehension by Iteratively Scanning
Papierlink: https://arxiv.org/ pdf/2406.18048

Methodeneinführung#🎜. 🎜## 🎜🎜#

1. Wahrnehmungsrahmen für grobe bis feine Iterationen Um die Struktur zu vereinfachen, übernehmen wir das ViLT-Modell [1], das Text und visuelle Modalitäten vereint, und teilen es in zwei Teile Teile, Encoder1 und Encoder2, entlang der Tiefendimension für verschiedene Aufgaben.

Zuerst Textmerkmale extrahieren und im KV-Cache speichern; dann eine Bildpyramide erstellen und in jeder Iteration von der Spitze der Pyramide nach unten iterieren , Geben Sie den im aktuellen Maßstab ausgewählten Patch ein, und Encoder1 wird verwendet, um die Auswahl feinkörniger Patches im nächsten Maßstab vorherzusagen, die jedem Patch entsprechen. Insbesondere werden alle Patches des Bildes der obersten Ebene ausgewählt, um sicherzustellen, dass das Modell kann grobkörnige Vollbildinformationen erhalten. Encoder2 extrahiert weitere Features und sagt den Begrenzungsrahmen in diesem Maßstab basierend auf dem [cls]-Token des aktuellen Maßstabs voraus.

Gleichzeitig werden die Zwischenfunktionen von Encoder1 und Encoder2 im KV-Cache gespeichert, um die spätere Skalennutzung zu erleichtern. Mit zunehmender Skalierung werden feinkörnigere Merkmale eingeführt und die Positionsvorhersage wird genauer, während die meisten irrelevanten Patches verworfen werden, um viel Rechenaufwand zu sparen.

Darüber hinaus haben die Patches innerhalb jeder Skala bidirektionale Aufmerksamkeit und achten auch auf alle Patch- und Textfunktionen der vorherigen Skala. Diese skalenübergreifende kausale Aufmerksamkeit kann den Rechenaufwand weiter reduzieren.

2. Dynamische Patch-Auswahl

Auswahl jedes Patches Die Die Situation wird durch den durch die vorherige Skala generierten Auswahlfaktor bestimmt. Es gibt zwei Optionen für die Anwendungsposition. Eine wird in allen Köpfen jeder Schicht von MHSA im Encoder von N Schichten von H-Köpfen verwendet Es ist schwierig, effektive Gradienteninformationen zu erhalten, daher ist der erlernte Auswahlfaktor nicht ideal, da er nur an dieser Stelle als Eingabe des Encoders verwendet wird ist einfacher zu erlernen.

Das Team von Li Xi von der Zhejiang-Universität: ScanFormer ist eine neue Methode zur Bezugnahme auf das Ausdrucksverständnis und iteriert von grob nach fein, um visuelle Redundanz zu beseitigen

Darüber hinaus ist zu beachten, dass die Funktionen aufgrund der Existenz von MHSA und FFN auch dann nicht verfügbar sind, wenn die Einbettung des Eingabepatches auf 0 gesetzt ist des Patches in nachfolgenden Schichten werden immer noch ungleich Null und wirken sich auf die Eigenschaften der verbleibenden Patches aus. Wenn die Token-Sequenz viele identische Token enthält, kann die Berechnung von MHSA glücklicherweise vereinfacht und eine tatsächliche Inferenzbeschleunigung erreicht werden. Um die Flexibilität des Modells zu erhöhen, wird in diesem Artikel außerdem die Patch-Einbettung nicht direkt auf 0 gesetzt, sondern durch ein lernbares Konstanten-Token ersetzt.

Daher wird das Patch-Auswahlproblem in ein Patch-Ersetzungsproblem umgewandelt. Der Prozess der Patch-Auswahl kann in zwei Schritte unterteilt werden: ständiger Token-Ersatz und Token-Zusammenführung. Nicht ausgewählte Patches werden durch dasselbe konstante Token ersetzt. Da diese nicht ausgewählten Token gleich sind, können diese Token gemäß der Berechnungsmethode der skalierten Skalarproduktaufmerksamkeit zu einem Token kombiniert und mit der Gesamtzahl multipliziert werden, was einer Addition der Dimension entspricht, also der Skalarproduktaufmerksamkeitsmethode Keine Änderung, gängige Beschleunigungsmethoden stehen weiterhin zur Verfügung.

Experimentelle Ergebnisse

#🎜 🎜# Diese Methode erreicht bei vier Datensätzen eine ähnliche Leistung wie der Stand der Technik: RefCOCO, RefCOCO+, RefCOCOg und ReferItGame. Durch Vortraining an großen Datensätzen und Feinabstimmung an bestimmten Datensätzen kann die Leistung des Modells weiter erheblich verbessert werden und ähnliche Ergebnisse wie vorab trainierte Modelle wie MDETR [2] und OFA [3] erzielt werden. Das Team von Li Xi von der Zhejiang-Universität: ScanFormer ist eine neue Methode zur Bezugnahme auf das Ausdrucksverständnis und iteriert von grob nach fein, um visuelle Redundanz zu beseitigen

In Bezug auf die Inferenzgeschwindigkeit erreicht die vorgeschlagene Methode eine Echtzeit-Inferenzgeschwindigkeit und gewährleistet gleichzeitig eine höhere Aufgabengenauigkeit.

Darüber hinaus wurden im experimentellen Teil auch Statistiken zur Patchauswahl des Modells und zur Verteilung der Positionierungsgenauigkeit auf jeder Skala (Skala1 und Skala2) erstellt.

Wie in der linken Abbildung gezeigt, werden mit zunehmendem Maßstab feinkörnige Bildmerkmale hinzugefügt und die Modellgenauigkeit verbessert sich allmählich. Daher können Sie versuchen, einen Mechanismus zum vorzeitigen Beenden hinzuzufügen, um rechtzeitig zu beenden, wenn die Positionierungsgenauigkeit den Anforderungen entspricht, wodurch weitere Berechnungen für hochauflösende Bilder vermieden werden und der Effekt einer adaptiven Auswahl einer geeigneten Auflösung basierend auf Proben erzielt wird. In diesem Artikel wurden auch einige vorläufige Versuche unternommen, darunter das Hinzufügen von Vorhersagezweigen wie IoU, GIoU und Unsicherheit sowie die Rückgabe von Frühausstiegsindikatoren. Es wurde jedoch festgestellt, dass der Effekt nicht ideal war, wie es sein muss, geeignete und genaue Frühausstiegsindikatoren zu entwerfen weiter erforscht.

Das Bild rechts zeigt die Patch-Auswahlsituation in verschiedenen Maßstäben. In allen Maßstäben ist der Anteil der ausgewählten Patches relativ gering, und die meisten davon Die Patches können eliminiert werden, wodurch effektiv Rechenressourcen gespart werden. Für jedes Beispiel (Bild + Referenzausdruck) ist die Anzahl der tatsächlich ausgewählten Patches relativ gering, vielleicht 65 % der Gesamtzahl.

Das Team von Li Xi von der Zhejiang-Universität: ScanFormer ist eine neue Methode zur Bezugnahme auf das Ausdrucksverständnis und iteriert von grob nach fein, um visuelle Redundanz zu beseitigen

Schließlich zeigt der experimentelle Teil einige Visualisierungsergebnisse. Mit zunehmender Skala (Rot → Grün → Blau) verbessert sich die Positionierungsgenauigkeit des Modells allmählich . Darüber hinaus ist anhand des aus dem ausgewählten Patch rekonstruierten Bild ersichtlich, dass das Modell nur auf grobskalige Informationen für den Hintergrundbereich achtet, während das Modell für den relevanten Vordergrundbereich auf feinkörnige Details achten kann Information.

Das Team von Li Xi von der Zhejiang-Universität: ScanFormer ist eine neue Methode zur Bezugnahme auf das Ausdrucksverständnis und iteriert von grob nach fein, um visuelle Redundanz zu beseitigen

^{Verwandte Literatur:}

^{[1].Kim W, Sohn B, Kim I. Vilt: Vision-and-Language Transformer ohne Faltung oder Regionsüberwachung [C]//Internationale Konferenz über maschinelles Lernen, 2021: 5583-5594.}

^{[2].Kamath A, Singh M, LeCun Y, et al. Mdetr-modulierte Erkennung für ein durchgängiges multimodales Verständnis [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision . 2021: 1780-1790.}

^{[3].Wang P, Yang A, Men R, et al einfaches Sequence-to-Sequence-Lernframework [C]//Internationale Konferenz zum maschinellen Lernen, 2022: 23318-23340.}

Das obige ist der detaillierte Inhalt vonDas Team von Li Xi von der Zhejiang-Universität: ScanFormer ist eine neue Methode zur Bezugnahme auf das Ausdrucksverständnis und iteriert von grob nach fein, um visuelle Redundanz zu beseitigen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!