Das Google-Team bringt neuen Transformer auf den Markt, um die Panorama-Segmentierungslösung zu optimieren-KI-php.cn

Inhaltsverzeichnis

Mit einfachen Modifikationen rekonstruieren CMT-DeepLab und kMaX-DeepLab die gegenseitige Aufmerksamkeit, um sie eher einem Clustering-Algorithmus zu ähneln.

Heim

Technologie-Peripheriegeräte

Das Google-Team bringt neuen Transformer auf den Markt, um die Panorama-Segmentierungslösung zu optimieren

PHPz

Apr 08, 2023 pm 01:41 PM

谷歌模型

Kürzlich hat das Google AI-Team eine End-to-End-Lösung für die Panoramasegmentierung mit Mask Transformer vorgeschlagen, inspiriert von Transformer und DETR.

Der vollständige Name ist eine End-to-End-Lösung für die panoptische Segmentierung mit Maskentransformatoren, die hauptsächlich zur Generierung von Erweiterungen der Segmentierungs-MaskTransformer-Architektur verwendet wird.

Die Lösung verwendet einen Pixelpfad (bestehend aus einem Faltungs-Neuronalen Netzwerk oder einem visuellen Transformer) zum Extrahieren von Pixelmerkmalen, einen Speicherpfad (bestehend aus einem Transformer-Decodermodul) zum Extrahieren von Speichermerkmalen und einen Dual-Path-Transformer für die Verbindung zwischen Pixelfunktionen und interaktiven Speicherfunktionen.

Allerdings wurde der Dual-Path-Transformer mit Kreuzaufmerksamkeit ursprünglich für Sprachaufgaben entwickelt, deren Eingabesequenz aus Hunderten von Wörtern besteht.

Bei Sehaufgaben, insbesondere bei Segmentierungsproblemen, besteht die Eingabesequenz aus Zehntausenden von Pixeln, was nicht nur darauf hinweist, dass die Größe der Eingabeskala viel größer ist, sondern im Vergleich zu Sprachwörtern auch eine niedrigere Einbettungsebene darstellt.

Panoramasegmentierung ist ein Computer-Vision-Problem, das heute in vielen Anwendungen eine Kernaufgabe darstellt.

Es ist in zwei Teile unterteilt: semantische Segmentierung und Instanzsegmentierung.

Semantische Segmentierung ist so, als würde man jedem Pixel im Bild semantische Bezeichnungen zuweisen, z. B. „Person“ und „Himmel“.

Instanzsegmentierung identifiziert und segmentiert nur zählbare Objekte im Diagramm, wie zum Beispiel „Fußgänger“ und „Autos“, und unterteilt sie weiter in mehrere Unteraufgaben.

Jede Unteraufgabe wird einzeln bearbeitet, und es werden zusätzliche Module angewendet, um die Ergebnisse jeder Unteraufgabenphase zusammenzuführen.

Dieser Prozess ist nicht nur komplex, sondern führt auch viele künstlich gestaltete Prioritäten ein, wenn es um die Bearbeitung von Teilaufgaben und die Integration der Ergebnisse verschiedener Teilaufgaben geht.

Das Google-Team bringt neuen Transformer auf den Markt, um die Panorama-Segmentierungslösung zu optimieren

In „CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation“, veröffentlicht auf der CVPR 2022, schlägt der Artikel vor, Queraufmerksamkeit aus der Perspektive des Clusterings (d. h. der Umwandlung derselben semantischen Bezeichnungen in gruppierte Pixel) neu zu interpretieren und neu zu gestalten zusammen), um Sehaufgaben besser gerecht zu werden.

CMT-DeepLab baut auf der vorherigen hochmodernen Methode MaX-DeepLab auf und verwendet eine Pixel-Clustering-Methode, um Kreuzaufmerksamkeit durchzuführen, was zu dichteren und vernünftigeren Aufmerksamkeitskarten führt.

Das Google-Team bringt neuen Transformer auf den Markt, um die Panorama-Segmentierungslösung zu optimieren

kMaX-DeepLab gestaltet die Kreuzaufmerksamkeit weiter neu, um eher einem K-Means-Clustering-Algorithmus zu ähneln, mit einfachen Änderungen an der Aktivierungsfunktion.

Struktureller Überblick

Forscher werden aus der Perspektive des Clusterings neu interpretieren, anstatt die Kreuzaufmerksamkeit ohne Modifikation direkt auf visuelle Aufgaben anzuwenden.

Konkret stellen sie fest, dass Objektabfragen von Mask Transformer als Clusterzentren betrachtet werden können (mit dem Ziel, Pixel mit derselben semantischen Bezeichnung zu gruppieren).

Der Prozess der gegenseitigen Aufmerksamkeit ähnelt dem K-Means-Clustering-Algorithmus, (1) einem iterativen Prozess der Zuweisung von Pixeln zu Clusterzentren, wobei mehrere Pixel einem einzelnen Clusterzentrum zugewiesen werden können und einige Clusterzentren möglicherweise nicht vorhanden sind zugewiesene Pixel, und (2) die Clusterzentren werden durch Mittelung der Pixel aktualisiert, die demselben Clusterzentrum zugewiesen sind; wenn keine zugewiesenen Pixel vorhanden sind, werden die Clusterzentren nicht aktualisiert).

Das Google-Team bringt neuen Transformer auf den Markt, um die Panorama-Segmentierungslösung zu optimieren

In CMT-DeepLab und kMaX-DeepLab formulieren wir die gegenseitige Aufmerksamkeit aus einer Clustering-Perspektive neu, einschließlich iterativer Clusterzuweisungs- und Clusteraktualisierungsschritte.

Angesichts der Popularität des k-means-Clustering-Algorithmus in CMT-DeepLab Sie haben die Queraufmerksamkeit so umgestaltet, dass die räumliche Aspekt-Softmax-Operation (d. h. die Softmax-Operation, die entlang der räumlichen Auflösung des Bildes angewendet wird) tatsächlich die Clusterzentren dem Gegenteil zuordnet, Pixel entlang der Cluster-Zentralanwendung.

In kMaX-DeepLab vereinfachen wir räumliches Softmax weiter zu Cluster-Argmax (d. h. wenden Argmax-Operationen entlang der Clustermitte an).

Sie weisen darauf hin, dass die argmax-Operation dieselbe ist wie die harte Zuweisung (d. h. ein Pixel wird nur einem Cluster zugewiesen), die im k-means-Clustering-Algorithmus verwendet wird.

Die Rekonstruktion der Kreuzaufmerksamkeit von MaskTransformer aus einer Clustering-Perspektive verbessert die Segmentierungsleistung erheblich und vereinfacht die komplexe MaskTransformer-Pipeline, um sie besser interpretierbar zu machen.

Zuerst wird eine Encoder-Decoder-Struktur verwendet, um Pixelmerkmale aus dem Eingabebild zu extrahieren. Die Pixel werden dann mithilfe einer Reihe von Clusterzentren gruppiert, die basierend auf Clusterzuweisungen weiter aktualisiert werden. Schließlich werden die Clusterzuweisungs- und Aktualisierungsschritte iterativ durchgeführt, und die letzte Zuweisung kann direkt als Segmentierungsvorhersage verwendet werden.

Das Google-Team bringt neuen Transformer auf den Markt, um die Panorama-Segmentierungslösung zu optimieren

Um den typischen MaskTransformer-Decoder (bestehend aus Kreuzaufmerksamkeit, Mehrkopf-Selbstaufmerksamkeit und Feed-Forward-Netzwerk) in die oben vorgeschlagene k-Mittel-Kreuzaufmerksamkeit umzuwandeln, nur räumlich gesehen Softmax Ersetzt durch den maximalen Parameter des Clustermodus.

Die diesmal vorgeschlagene Metaarchitektur von kMaX-DeepLab besteht aus drei Komponenten: Pixel-Encoder, erweiterter Pixel-Decoder und kMaX-Decoder.

Pixel-Encoder ist das Rückgrat jedes Netzwerks und wird zum Extrahieren von Bildfunktionen verwendet.

Der erweiterte Pixeldecoder umfasst einen Transformer-Encoder zur Verbesserung der Pixelfunktionen und eine Upsampling-Ebene zur Generierung von Funktionen mit höherer Auflösung.

Eine Reihe von kMaX-Decodern wandelt Clusterzentren in (1) Maskeneinbettungsvektoren um, die mit Pixelmerkmalen multipliziert werden, um vorhergesagte Masken zu generieren, und (2) Klassenvorhersagen für jede Maske.

Das Google-Team bringt neuen Transformer auf den Markt, um die Panorama-Segmentierungslösung zu optimieren

Meta-Architektur von kMaX-DeepLab

Forschungsergebnisse

Schließlich verwendete das Forschungsteam die Metrik Panorama Quality (PQ), um CMT-DeepLab und kMaX-DeepLab zu bewerten und MaX-DeepLab mit anderen State-of-the-Art-Modellen zu vergleichen -moderne Methoden.

Unter anderem erzielte CMT-DeepLab eine deutliche Leistungsverbesserung, während kMaX-DeepLab die Modifikation nicht nur vereinfachte, sondern auch weiter verbesserte. Der PQ für den COCO-Val-Satz betrug 58,0 %, der PQ betrug 68,4 % und der Maskendurchschnitt Die Genauigkeit betrug 44,0 % (AP), 83,5 % durchschnittlicher Schnittpunkt über der Union (mIoU) im Cityscapes-Validierungssatz, ohne Testzeiterweiterung oder Verwendung externer Datensätze.

Das Google-Team bringt neuen Transformer auf den Markt, um die Panorama-Segmentierungslösung zu optimieren

KMaX-DeepLab wurde unter dem Gesichtspunkt des Clusterings entwickelt und bietet nicht nur eine höhere Leistung, sondern kann auch die Aufmerksamkeitskarte besser visualisieren, um ihren Arbeitsmechanismus zu verstehen.

Im folgenden Beispiel führt kMaX-DeepLab iterativ Clusterzuweisungen und -aktualisierungen durch und verbessert so schrittweise die Maskenqualität.

Das Google-Team bringt neuen Transformer auf den Markt, um die Panorama-Segmentierungslösung zu optimieren

Die Aufmerksamkeitskarte von kMaX-DeepLab kann direkt als Panoramasegmentierung visualisiert werden, wodurch der Modellarbeitsmechanismus vernünftiger wird.

Mit einfachen Modifikationen rekonstruieren CMT-DeepLab und kMaX-DeepLab die gegenseitige Aufmerksamkeit, um sie eher einem Clustering-Algorithmus zu ähneln.

Damit erreicht das vorgeschlagene Modell eine Leistung auf dem neuesten Stand der Technik bei COCO- und Cityscapes-Datensätzen.

Das Forschungsteam gab an, dass es hofft, dass die Open-Source-Version von kMaX-DeepLab in der DeepLab2-Bibliothek zur zukünftigen Forschung zum Design einer visuellen Transformer-Architektur beitragen wird.

Das obige ist der detaillierte Inhalt vonDas Google-Team bringt neuen Transformer auf den Markt, um die Panorama-Segmentierungslösung zu optimieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7510

CakePHP-Tutorial

1378

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie man Deepseek kommentiert Feb 19, 2025 pm 05:42 PM

Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

So suchen Sie Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

Sesame Open Door Exchange -Webseite Registrierung Link Gate Trading App Registrierung Website Neueste Feb 28, 2025 am 11:06 AM

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Feb 21, 2025 pm 10:57 PM

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Sesame Open Door Trading Platform Download Mobile Version Gateio Trading Platform Download -Adresse Feb 28, 2025 am 10:51 AM

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Sesam Open Door Exchange Webseite Login Neueste Version Gateio Offizieller Website Eingang Mar 04, 2025 pm 11:48 PM

Eine detaillierte Einführung in den Anmeldungsbetrieb der Sesame Open Exchange -Webversion, einschließlich Anmeldeschritte und Kennwortwiederherstellungsprozess.

Binance Binance Offizielle Website Neueste Version Anmeldeportal Feb 21, 2025 pm 05:42 PM

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.

Top 10 für Crypto Digital Asset Trading App (2025 Global Ranking) empfohlen Mar 18, 2025 pm 12:15 PM

Dieser Artikel empfiehlt die Top Ten Ten Cryptocurrency -Handelsplattformen, die es wert sind, auf Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI und Xbit -dezentrale Börsen geachtet zu werden. Diese Plattformen haben ihre eigenen Vorteile in Bezug auf Transaktionswährungsmenge, Transaktionstyp, Sicherheit, Konformität und Besonderheiten. Die Auswahl einer geeigneten Plattform erfordert eine umfassende Überlegung, die auf eigener Handelserfahrung, Risikotoleranz und Investitionspräferenzen basiert. Ich hoffe, dieser Artikel hilft Ihnen dabei, den besten Anzug für sich selbst zu finden

See all articles