Heim Technologie-Peripheriegeräte KI Auch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen

Auch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen

Apr 12, 2023 am 11:31 AM
识别 分割 可迁移

Es kann auch neue Objekte segmentieren, die noch nie zuvor gesehen wurden.

Dies ist ein neues Lernrahmenwerk, das von DeepMind entwickelt wurde: Objekterkennungs- und Repräsentationsnetzwerke (kurz Odin)

Auch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen#🎜 🎜#

Vorheriges Selbst -Überwachte Lernmethoden (SSL) können die gesamte große Szene gut beschreiben, es ist jedoch schwierig, einzelne Objekte zu unterscheiden.

Jetzt erledigt es die Odin-Methode, und zwar ohne jegliche Aufsicht.

Es ist nicht einfach, ein einzelnes Objekt in einem Bild zu unterscheiden.

Methodenprinzip

Es kann verschiedene Objekte im Bild gut unterscheiden, hauptsächlich aufgrund der „Selbstzirkulation“ des Odin-Lernrahmens.

Odin lernte zwei Gruppen von Netzwerken kennen, die zusammenarbeiten, nämlich das Zielerkennungsnetzwerk und das Zielrepräsentationsnetzwerk.

Object Discovery Network verwendet einen zugeschnittenen Teil des Bildes als Eingabe. Der zugeschnittene Teil sollte den größten Teil des Bildbereichs enthalten, und dieser Teil des Bildes wurde nicht verbessert auf andere Weise umgehen.

Führen Sie dann eine Clusteranalyse für die aus dem Eingabebild generierte Feature-Map durch und segmentieren Sie jedes Objekt im Bild nach verschiedenen Features. Die Eingabeansicht für das Zieldarstellungsnetzwerk

ist das segmentierte Bild, das im Zielerkennungsnetzwerk generiert wird.

Nachdem die Ansichten eingegeben wurden, werden sie nach dem Zufallsprinzip separat vorverarbeitet, einschließlich Spiegeln, Unschärfe und Farbkonvertierung auf Punktebene. Auch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen

Auf diese Weise können zwei Maskensätze erhalten werden, bis auf die Unterschiede beim Zuschneiden sind andere Informationen dieselben wie der zugrunde liegende Bildinhalt.

Dann lernen die beiden Masken Funktionen, die durch Kontrastverlust die Objekte im Bild besser darstellen können.

Konkret wird durch Kontrasterkennung ein Netzwerk darauf trainiert, die Eigenschaften verschiedener Zielobjekte sowie viele „negative“ Eigenschaften anderer irrelevanter Objekte zu identifizieren.

Maximieren Sie dann die Ähnlichkeit desselben Zielobjekts in verschiedenen Masken, minimieren Sie die Ähnlichkeit zwischen verschiedenen Zielobjekten und führen Sie dann eine bessere Segmentierung durch, um verschiedene Zielobjekte zu unterscheiden.

Gleichzeitig wird das Zielerkennungsnetzwerk regelmäßig entsprechend den Parametern des Zieldarstellungsnetzwerks aktualisiert.

Das ultimative Ziel besteht darin, sicherzustellen, dass diese Eigenschaften auf Objektebene in verschiedenen Ansichten ungefähr unverändert bleiben, mit anderen Worten, die Objekte im Bild zu trennen.

Was bewirkt also das Odin-Lernframework? Auch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen

Kann unbekannte Objekte sehr gut unterscheiden

Die Leistung des Transferlernens der Odin-Methode ist auch ohne Vorkenntnisse bei der Szenensegmentierung sehr leistungsstark.

Verwenden Sie zunächst die Odin-Methode, um den ImageNet-Datensatz vorab zu trainieren, und bewerten Sie dann seine Auswirkung auf den COCO-Datensatz sowie die semantische Segmentierung von PASCAL und Cityscapes.

Das Zielobjekt bereits kennen, dh die Methode, die Vorkenntnisse erhält, ist bei der Szenensegmentierung deutlich besser als andere Methoden, die keine Vorkenntnisse erhalten.

Auch wenn die Odin-Methode kein Vorwissen erlangt, ist ihre Wirkung besser als bei DetCon und ReLICv2, die Vorwissen erlangen.

Darüber hinaus kann die Odin-Methode nicht nur auf das ResNet-Modell angewendet werden; komplexe Modelle wie Swim Transformer.

Auch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen

Auch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen In Bezug auf die Daten sind die Vorteile des Odin-Framework-Lernens offensichtlich. Wo spiegeln sich die Vorteile von Odin in den visuellen Bildern wider?

Vergleichen Sie mit Odin generierte Segmentierungsbilder mit denen, die aus einem zufällig initialisierten Netzwerk (3. Spalte) und einem von ImageNet überwachten Netzwerk (4. Spalte) erhalten wurden.

Beide Spalten 3 und 4 stellen die Grenzen von Objekten nicht klar dar oder es fehlt ihnen die Konsistenz und Lokalität realer Objekte, während die von Odin erzeugten Bildeffekte offensichtlich besser sind. Auch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen

Referenzlink:

[1] https://twitter.com/DeepMind/status/1554467389290561541

[2] ​https://arxiv.org/abs/2203.08777

Das obige ist der detaillierte Inhalt vonAuch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

MobileSAM: Ein leistungsstarkes, leichtes Bildsegmentierungsmodell für mobile Geräte MobileSAM: Ein leistungsstarkes, leichtes Bildsegmentierungsmodell für mobile Geräte Jan 05, 2024 pm 02:50 PM

1. Einleitung Mit der Popularisierung mobiler Geräte und der Verbesserung der Rechenleistung ist die Bildsegmentierungstechnologie zu einem Forschungsschwerpunkt geworden. MobileSAM (MobileSegmentAnythingModel) ist ein für mobile Geräte optimiertes Bildsegmentierungsmodell. Es zielt darauf ab, die Rechenkomplexität und den Speicherverbrauch zu reduzieren und gleichzeitig qualitativ hochwertige Segmentierungsergebnisse beizubehalten, um eine effiziente Ausführung auf mobilen Geräten mit begrenzten Ressourcen zu ermöglichen. In diesem Artikel werden die Prinzipien, Vorteile und Anwendungsszenarien von MobileSAM im Detail vorgestellt. 2. Designideen des MobileSAM-Modells umfassen hauptsächlich die folgenden Aspekte: Leichtgewichtiges Modell: Um sich an die Ressourcenbeschränkungen mobiler Geräte anzupassen, übernimmt das MobileSAM-Modell ein leichtes Modell.

Wie verwende ich die Bildsemantiksegmentierungstechnologie in Python? Wie verwende ich die Bildsemantiksegmentierungstechnologie in Python? Jun 06, 2023 am 08:03 AM

Mit der kontinuierlichen Weiterentwicklung der Technologie der künstlichen Intelligenz hat sich die Bildsemantiksegmentierungstechnologie zu einer beliebten Forschungsrichtung im Bereich der Bildanalyse entwickelt. Bei der semantischen Bildsegmentierung segmentieren wir verschiedene Bereiche in einem Bild und klassifizieren jeden Bereich, um ein umfassendes Verständnis des Bildes zu erreichen. Python ist eine bekannte Programmiersprache. Aufgrund seiner leistungsstarken Datenanalyse- und Datenvisualisierungsfähigkeiten ist es die erste Wahl auf dem Gebiet der Technologieforschung im Bereich der künstlichen Intelligenz. In diesem Artikel wird die Verwendung der Bildsemantiksegmentierungstechnologie in Python vorgestellt. 1. Vorkenntnisse werden vertieft

Python-Tutorial: Wie teile ich große Dateien mit Python auf und füge sie zusammen? Python-Tutorial: Wie teile ich große Dateien mit Python auf und füge sie zusammen? Apr 22, 2023 am 11:43 AM

Manchmal müssen wir eine große Datei an andere senden, aber aufgrund von Einschränkungen des Übertragungskanals, z. B. der Begrenzung der Größe von E-Mail-Anhängen oder der nicht sehr guten Netzwerkbedingungen, müssen wir die große Datei in kleine aufteilen Dateien und senden Sie sie mehrmals. Führen Sie diese kleinen Dateien dann zusammen. Heute werde ich zeigen, wie man große Dateien mit Python aufteilt und zusammenführt. Idee und Umsetzung Handelt es sich um eine Textdatei, kann diese durch die Anzahl der Zeilen geteilt werden. Unabhängig davon, ob es sich um eine Textdatei oder eine Binärdatei handelt, kann sie entsprechend der angegebenen Größe aufgeteilt werden. Mit der Dateilese- und -schreibfunktion von Python können Sie Dateien aufteilen und zusammenführen, die Größe jeder Datei festlegen und dann Bytes der angegebenen Größe lesen und in eine neue Datei schreiben. Das empfangende Ende liest die kleinen Dateien nacheinander und schreibt sie Die Bytes werden also der Reihe nach in eine Datei geschrieben

Wie implementiert man Spracherkennung und Sprachsynthese in C++? Wie implementiert man Spracherkennung und Sprachsynthese in C++? Aug 26, 2023 pm 02:49 PM

Wie implementiert man Spracherkennung und Sprachsynthese in C++? Spracherkennung und Sprachsynthese gehören heute zu den beliebten Forschungsrichtungen im Bereich der künstlichen Intelligenz und spielen in vielen Anwendungsszenarien eine wichtige Rolle. In diesem Artikel wird erläutert, wie Sie mithilfe von C++ Spracherkennungs- und Sprachsynthesefunktionen basierend auf der offenen Plattform Baidu AI implementieren und relevante Codebeispiele bereitstellen. 1. Spracherkennung Spracherkennung ist eine Technologie, die menschliche Sprache in Text umwandelt. Sie wird häufig in Sprachassistenten, Smart Homes, autonomem Fahren und anderen Bereichen eingesetzt. Das Folgende ist die Implementierung der Spracherkennung mit C++

Mithilfe von Java implementierte Gesichtserkennungs- und -erkennungstechnologie Mithilfe von Java implementierte Gesichtserkennungs- und -erkennungstechnologie Jun 18, 2023 am 09:08 AM

Mit der kontinuierlichen Weiterentwicklung der Technologie der künstlichen Intelligenz wird die Technologie zur Gesichtserkennung und -erkennung im täglichen Leben immer häufiger eingesetzt. Gesichtserkennungs- und -erkennungstechnologien werden häufig in verschiedenen Fällen eingesetzt, beispielsweise in Systemen zur Gesichtszugriffskontrolle, Gesichtszahlungssystemen, Gesichtssuchmaschinen usw. Als weit verbreitete Programmiersprache kann Java auch Technologien zur Gesichtserkennung und -erkennung implementieren. In diesem Artikel wird erläutert, wie Sie mithilfe von Java die Technologie zur Gesichtserkennung und -erkennung implementieren. 1. Gesichtserkennungstechnologie Unter Gesichtserkennungstechnologie versteht man die Technologie, die Gesichter in Bildern oder Videos erkennt. in J

Golang und FFmpeg: So implementieren Sie Audiosynthese und -segmentierung Golang und FFmpeg: So implementieren Sie Audiosynthese und -segmentierung Sep 27, 2023 pm 10:52 PM

Golang und FFmpeg: So implementieren Sie Audiosynthese und -segmentierung. Es sind spezifische Codebeispiele erforderlich. Zusammenfassung: In diesem Artikel wird erläutert, wie Sie Golang- und FFmpeg-Bibliotheken zum Implementieren von Audiosynthese und -segmentierung verwenden. Wir werden einige spezifische Codebeispiele verwenden, um den Lesern das Verständnis zu erleichtern. Einleitung: Mit der kontinuierlichen Weiterentwicklung der Audioverarbeitungstechnologie sind Audiosynthese und -segmentierung zu allgemeinen Funktionsanforderungen im täglichen Leben und bei der Arbeit geworden. Als schnelle, effiziente und einfach zu schreibende und zu wartende Programmiersprache gilt Golang in Verbindung mit FFmpeg

Tipps zum Reduzieren der Größe der Win10-Bildschirmaufzeichnungsdatei Tipps zum Reduzieren der Größe der Win10-Bildschirmaufzeichnungsdatei Jan 04, 2024 pm 12:05 PM

Viele Freunde müssen Bildschirme für Büroarbeiten aufzeichnen oder Dateien übertragen, aber manchmal verursacht das Problem zu großer Dateien große Probleme. Im Folgenden finden Sie eine Lösung für das Problem zu großer Dateien. Schauen wir uns das an. Was tun, wenn die Win10-Bildschirmaufzeichnungsdatei zu groß ist: 1. Laden Sie die Software Format Factory herunter, um die Datei zu komprimieren. Download-Adresse >> 2. Rufen Sie die Hauptseite auf und klicken Sie auf die Option „Video-MP4“. 3. Klicken Sie auf der Seite mit dem Konvertierungsformat auf „Datei hinzufügen“ und wählen Sie die zu komprimierende MP4-Datei aus. 4. Klicken Sie auf der Seite auf „Ausgabekonfiguration“, um die Datei entsprechend der Ausgabequalität zu komprimieren. 5. Wählen Sie „Geringe Qualität und Größe“ aus der Dropdown-Konfigurationsliste und klicken Sie auf „OK“. 6. Klicken Sie auf „OK“, um den Import der Videodateien abzuschließen. 7. Klicken Sie auf „Start“, um die Konvertierung zu starten. 8. Nach Abschluss können Sie

Ein Artikel über das Verkehrszeichenerkennungssystem beim autonomen Fahren Ein Artikel über das Verkehrszeichenerkennungssystem beim autonomen Fahren Apr 12, 2023 pm 12:34 PM

Was ist ein Verkehrszeichenerkennungssystem? Das Verkehrszeichenerkennungssystem des Autosicherheitssystems, dessen englische Übersetzung: Traffic Sign Recognition, kurz TSR, lautet, verwendet eine nach vorne gerichtete Kamera in Kombination mit einem Modus zur Erkennung gängiger Verkehrszeichen (Geschwindigkeitsbegrenzung, Parken, Kehrtwende, usw.). Diese Funktion macht den Fahrer auf vorausliegende Verkehrszeichen aufmerksam, damit er diese befolgen kann. Die TSR-Funktion verbessert die Sicherheit, indem sie die Wahrscheinlichkeit verringert, dass Fahrer Verkehrsregeln wie Stoppschilder nicht befolgen und illegales Linksabbiegen oder andere unbeabsichtigte Verkehrsverstöße vermeiden. Diese Systeme erfordern flexible Softwareplattformen zur Verbesserung der Erkennungsalgorithmen und zur Anpassung an Verkehrszeichen in verschiedenen Bereichen. Prinzip der Verkehrszeichenerkennung Die Verkehrszeichenerkennung wird auch TS genannt

See all articles