


Auch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen
Es kann auch neue Objekte segmentieren, die noch nie zuvor gesehen wurden.
Dies ist ein neues Lernrahmenwerk, das von DeepMind entwickelt wurde: Objekterkennungs- und Repräsentationsnetzwerke (kurz Odin)
#🎜 🎜#
Object Discovery Network verwendet einen zugeschnittenen Teil des Bildes als Eingabe. Der zugeschnittene Teil sollte den größten Teil des Bildbereichs enthalten, und dieser Teil des Bildes wurde nicht verbessert auf andere Weise umgehen.
Führen Sie dann eine Clusteranalyse für die aus dem Eingabebild generierte Feature-Map durch und segmentieren Sie jedes Objekt im Bild nach verschiedenen Features. Die Eingabeansicht für das Zieldarstellungsnetzwerkist das segmentierte Bild, das im Zielerkennungsnetzwerk generiert wird.
Nachdem die Ansichten eingegeben wurden, werden sie nach dem Zufallsprinzip separat vorverarbeitet, einschließlich Spiegeln, Unschärfe und Farbkonvertierung auf Punktebene.
Dann lernen die beiden Masken Funktionen, die durch Kontrastverlust die Objekte im Bild besser darstellen können.
Konkret wird durch Kontrasterkennung ein Netzwerk darauf trainiert, die Eigenschaften verschiedener Zielobjekte sowie viele „negative“ Eigenschaften anderer irrelevanter Objekte zu identifizieren. Maximieren Sie dann die Ähnlichkeit desselben Zielobjekts in verschiedenen Masken, minimieren Sie die Ähnlichkeit zwischen verschiedenen Zielobjekten und führen Sie dann eine bessere Segmentierung durch, um verschiedene Zielobjekte zu unterscheiden.Gleichzeitig wird das Zielerkennungsnetzwerk regelmäßig entsprechend den Parametern des Zieldarstellungsnetzwerks aktualisiert.
Das ultimative Ziel besteht darin, sicherzustellen, dass diese Eigenschaften auf Objektebene in verschiedenen Ansichten ungefähr unverändert bleiben, mit anderen Worten, die Objekte im Bild zu trennen.
Was bewirkt also das Odin-Lernframework?
In Bezug auf die Daten sind die Vorteile des Odin-Framework-Lernens offensichtlich. Wo spiegeln sich die Vorteile von Odin in den visuellen Bildern wider?
Vergleichen Sie mit Odin generierte Segmentierungsbilder mit denen, die aus einem zufällig initialisierten Netzwerk (3. Spalte) und einem von ImageNet überwachten Netzwerk (4. Spalte) erhalten wurden.
Beide Spalten 3 und 4 stellen die Grenzen von Objekten nicht klar dar oder es fehlt ihnen die Konsistenz und Lokalität realer Objekte, während die von Odin erzeugten Bildeffekte offensichtlich besser sind.
Referenzlink:
[1] https://twitter.com/DeepMind/status/1554467389290561541
[2] https://arxiv.org/abs/2203.08777
Das obige ist der detaillierte Inhalt vonAuch unbekannte Objekte lassen sich leicht identifizieren, segmentieren und die Wirkung übertragen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



1. Einleitung Mit der Popularisierung mobiler Geräte und der Verbesserung der Rechenleistung ist die Bildsegmentierungstechnologie zu einem Forschungsschwerpunkt geworden. MobileSAM (MobileSegmentAnythingModel) ist ein für mobile Geräte optimiertes Bildsegmentierungsmodell. Es zielt darauf ab, die Rechenkomplexität und den Speicherverbrauch zu reduzieren und gleichzeitig qualitativ hochwertige Segmentierungsergebnisse beizubehalten, um eine effiziente Ausführung auf mobilen Geräten mit begrenzten Ressourcen zu ermöglichen. In diesem Artikel werden die Prinzipien, Vorteile und Anwendungsszenarien von MobileSAM im Detail vorgestellt. 2. Designideen des MobileSAM-Modells umfassen hauptsächlich die folgenden Aspekte: Leichtgewichtiges Modell: Um sich an die Ressourcenbeschränkungen mobiler Geräte anzupassen, übernimmt das MobileSAM-Modell ein leichtes Modell.

Mit der kontinuierlichen Weiterentwicklung der Technologie der künstlichen Intelligenz hat sich die Bildsemantiksegmentierungstechnologie zu einer beliebten Forschungsrichtung im Bereich der Bildanalyse entwickelt. Bei der semantischen Bildsegmentierung segmentieren wir verschiedene Bereiche in einem Bild und klassifizieren jeden Bereich, um ein umfassendes Verständnis des Bildes zu erreichen. Python ist eine bekannte Programmiersprache. Aufgrund seiner leistungsstarken Datenanalyse- und Datenvisualisierungsfähigkeiten ist es die erste Wahl auf dem Gebiet der Technologieforschung im Bereich der künstlichen Intelligenz. In diesem Artikel wird die Verwendung der Bildsemantiksegmentierungstechnologie in Python vorgestellt. 1. Vorkenntnisse werden vertieft

Manchmal müssen wir eine große Datei an andere senden, aber aufgrund von Einschränkungen des Übertragungskanals, z. B. der Begrenzung der Größe von E-Mail-Anhängen oder der nicht sehr guten Netzwerkbedingungen, müssen wir die große Datei in kleine aufteilen Dateien und senden Sie sie mehrmals. Führen Sie diese kleinen Dateien dann zusammen. Heute werde ich zeigen, wie man große Dateien mit Python aufteilt und zusammenführt. Idee und Umsetzung Handelt es sich um eine Textdatei, kann diese durch die Anzahl der Zeilen geteilt werden. Unabhängig davon, ob es sich um eine Textdatei oder eine Binärdatei handelt, kann sie entsprechend der angegebenen Größe aufgeteilt werden. Mit der Dateilese- und -schreibfunktion von Python können Sie Dateien aufteilen und zusammenführen, die Größe jeder Datei festlegen und dann Bytes der angegebenen Größe lesen und in eine neue Datei schreiben. Das empfangende Ende liest die kleinen Dateien nacheinander und schreibt sie Die Bytes werden also der Reihe nach in eine Datei geschrieben

Wie implementiert man Spracherkennung und Sprachsynthese in C++? Spracherkennung und Sprachsynthese gehören heute zu den beliebten Forschungsrichtungen im Bereich der künstlichen Intelligenz und spielen in vielen Anwendungsszenarien eine wichtige Rolle. In diesem Artikel wird erläutert, wie Sie mithilfe von C++ Spracherkennungs- und Sprachsynthesefunktionen basierend auf der offenen Plattform Baidu AI implementieren und relevante Codebeispiele bereitstellen. 1. Spracherkennung Spracherkennung ist eine Technologie, die menschliche Sprache in Text umwandelt. Sie wird häufig in Sprachassistenten, Smart Homes, autonomem Fahren und anderen Bereichen eingesetzt. Das Folgende ist die Implementierung der Spracherkennung mit C++

Mit der kontinuierlichen Weiterentwicklung der Technologie der künstlichen Intelligenz wird die Technologie zur Gesichtserkennung und -erkennung im täglichen Leben immer häufiger eingesetzt. Gesichtserkennungs- und -erkennungstechnologien werden häufig in verschiedenen Fällen eingesetzt, beispielsweise in Systemen zur Gesichtszugriffskontrolle, Gesichtszahlungssystemen, Gesichtssuchmaschinen usw. Als weit verbreitete Programmiersprache kann Java auch Technologien zur Gesichtserkennung und -erkennung implementieren. In diesem Artikel wird erläutert, wie Sie mithilfe von Java die Technologie zur Gesichtserkennung und -erkennung implementieren. 1. Gesichtserkennungstechnologie Unter Gesichtserkennungstechnologie versteht man die Technologie, die Gesichter in Bildern oder Videos erkennt. in J

Golang und FFmpeg: So implementieren Sie Audiosynthese und -segmentierung. Es sind spezifische Codebeispiele erforderlich. Zusammenfassung: In diesem Artikel wird erläutert, wie Sie Golang- und FFmpeg-Bibliotheken zum Implementieren von Audiosynthese und -segmentierung verwenden. Wir werden einige spezifische Codebeispiele verwenden, um den Lesern das Verständnis zu erleichtern. Einleitung: Mit der kontinuierlichen Weiterentwicklung der Audioverarbeitungstechnologie sind Audiosynthese und -segmentierung zu allgemeinen Funktionsanforderungen im täglichen Leben und bei der Arbeit geworden. Als schnelle, effiziente und einfach zu schreibende und zu wartende Programmiersprache gilt Golang in Verbindung mit FFmpeg

Viele Freunde müssen Bildschirme für Büroarbeiten aufzeichnen oder Dateien übertragen, aber manchmal verursacht das Problem zu großer Dateien große Probleme. Im Folgenden finden Sie eine Lösung für das Problem zu großer Dateien. Schauen wir uns das an. Was tun, wenn die Win10-Bildschirmaufzeichnungsdatei zu groß ist: 1. Laden Sie die Software Format Factory herunter, um die Datei zu komprimieren. Download-Adresse >> 2. Rufen Sie die Hauptseite auf und klicken Sie auf die Option „Video-MP4“. 3. Klicken Sie auf der Seite mit dem Konvertierungsformat auf „Datei hinzufügen“ und wählen Sie die zu komprimierende MP4-Datei aus. 4. Klicken Sie auf der Seite auf „Ausgabekonfiguration“, um die Datei entsprechend der Ausgabequalität zu komprimieren. 5. Wählen Sie „Geringe Qualität und Größe“ aus der Dropdown-Konfigurationsliste und klicken Sie auf „OK“. 6. Klicken Sie auf „OK“, um den Import der Videodateien abzuschließen. 7. Klicken Sie auf „Start“, um die Konvertierung zu starten. 8. Nach Abschluss können Sie

Was ist ein Verkehrszeichenerkennungssystem? Das Verkehrszeichenerkennungssystem des Autosicherheitssystems, dessen englische Übersetzung: Traffic Sign Recognition, kurz TSR, lautet, verwendet eine nach vorne gerichtete Kamera in Kombination mit einem Modus zur Erkennung gängiger Verkehrszeichen (Geschwindigkeitsbegrenzung, Parken, Kehrtwende, usw.). Diese Funktion macht den Fahrer auf vorausliegende Verkehrszeichen aufmerksam, damit er diese befolgen kann. Die TSR-Funktion verbessert die Sicherheit, indem sie die Wahrscheinlichkeit verringert, dass Fahrer Verkehrsregeln wie Stoppschilder nicht befolgen und illegales Linksabbiegen oder andere unbeabsichtigte Verkehrsverstöße vermeiden. Diese Systeme erfordern flexible Softwareplattformen zur Verbesserung der Erkennungsalgorithmen und zur Anpassung an Verkehrszeichen in verschiedenen Bereichen. Prinzip der Verkehrszeichenerkennung Die Verkehrszeichenerkennung wird auch TS genannt
