Es kann auch neue Objekte segmentieren, die noch nie zuvor gesehen wurden.
Dies ist ein neues Lernrahmenwerk, das von DeepMind entwickelt wurde: Objekterkennungs- und Repräsentationsnetzwerke (kurz Odin)
#🎜 🎜#
Vorheriges Selbst -Überwachte Lernmethoden (SSL) können die gesamte große Szene gut beschreiben, es ist jedoch schwierig, einzelne Objekte zu unterscheiden. Jetzt erledigt es die Odin-Methode, und zwar ohne jegliche Aufsicht. Es ist nicht einfach, ein einzelnes Objekt in einem Bild zu unterscheiden. Methodenprinzip Es kann verschiedene Objekte im Bild gut unterscheiden, hauptsächlich aufgrund der „Selbstzirkulation“ des Odin-Lernrahmens. Odin lernte zwei Gruppen von Netzwerken kennen, die zusammenarbeiten, nämlich das Zielerkennungsnetzwerk und das Zielrepräsentationsnetzwerk.Object Discovery Network verwendet einen zugeschnittenen Teil des Bildes als Eingabe. Der zugeschnittene Teil sollte den größten Teil des Bildbereichs enthalten, und dieser Teil des Bildes wurde nicht verbessert auf andere Weise umgehen.
Führen Sie dann eine Clusteranalyse für die aus dem Eingabebild generierte Feature-Map durch und segmentieren Sie jedes Objekt im Bild nach verschiedenen Features. Die Eingabeansicht für das Zieldarstellungsnetzwerkist das segmentierte Bild, das im Zielerkennungsnetzwerk generiert wird.
Nachdem die Ansichten eingegeben wurden, werden sie nach dem Zufallsprinzip separat vorverarbeitet, einschließlich Spiegeln, Unschärfe und Farbkonvertierung auf Punktebene.
Auf diese Weise können zwei Maskensätze erhalten werden, bis auf die Unterschiede beim Zuschneiden sind andere Informationen dieselben wie der zugrunde liegende Bildinhalt.Dann lernen die beiden Masken Funktionen, die durch Kontrastverlust die Objekte im Bild besser darstellen können.
Konkret wird durch Kontrasterkennung ein Netzwerk darauf trainiert, die Eigenschaften verschiedener Zielobjekte sowie viele „negative“ Eigenschaften anderer irrelevanter Objekte zu identifizieren. Maximieren Sie dann die Ähnlichkeit desselben Zielobjekts in verschiedenen Masken, minimieren Sie die Ähnlichkeit zwischen verschiedenen Zielobjekten und führen Sie dann eine bessere Segmentierung durch, um verschiedene Zielobjekte zu unterscheiden.Gleichzeitig wird das Zielerkennungsnetzwerk regelmäßig entsprechend den Parametern des Zieldarstellungsnetzwerks aktualisiert.
Das ultimative Ziel besteht darin, sicherzustellen, dass diese Eigenschaften auf Objektebene in verschiedenen Ansichten ungefähr unverändert bleiben, mit anderen Worten, die Objekte im Bild zu trennen.
Was bewirkt also das Odin-Lernframework?
Kann unbekannte Objekte sehr gut unterscheidenDie Leistung des Transferlernens der Odin-Methode ist auch ohne Vorkenntnisse bei der Szenensegmentierung sehr leistungsstark. Verwenden Sie zunächst die Odin-Methode, um den ImageNet-Datensatz vorab zu trainieren, und bewerten Sie dann seine Auswirkung auf den COCO-Datensatz sowie die semantische Segmentierung von PASCAL und Cityscapes. Das Zielobjekt bereits kennen, dh die Methode, die Vorkenntnisse erhält, ist bei der Szenensegmentierung deutlich besser als andere Methoden, die keine Vorkenntnisse erhalten. Auch wenn die Odin-Methode kein Vorwissen erlangt, ist ihre Wirkung besser als bei DetCon und ReLICv2, die Vorwissen erlangen. Darüber hinaus kann die Odin-Methode nicht nur auf das ResNet-Modell angewendet werden; komplexe Modelle wie Swim Transformer.In Bezug auf die Daten sind die Vorteile des Odin-Framework-Lernens offensichtlich. Wo spiegeln sich die Vorteile von Odin in den visuellen Bildern wider?
Vergleichen Sie mit Odin generierte Segmentierungsbilder mit denen, die aus einem zufällig initialisierten Netzwerk (3. Spalte) und einem von ImageNet überwachten Netzwerk (4. Spalte) erhalten wurden.
Beide Spalten 3 und 4 stellen die Grenzen von Objekten nicht klar dar oder es fehlt ihnen die Konsistenz und Lokalität realer Objekte, während die von Odin erzeugten Bildeffekte offensichtlich besser sind.
Referenzlink:
[1] https://twitter.com/DeepMind/status/1554467389290561541
[2] https://arxiv.org/abs/2203.08777
Das obige ist der detaillierte Inhalt vonAuch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!