


Das vom chinesischen Team entwickelte universelle Segmentierungsmodell SEEM bringt die einmalige Segmentierung auf eine neue Ebene
Anfang dieses Monats veröffentlichte Meta das KI-Modell „Segment Anything“ – Segment Anything Model (SAM). SAM gilt als universelles Grundmodell für die Bildsegmentierung. Es lernt allgemeine Konzepte über Objekte und kann Masken für jedes Objekt in jedem Bild oder Video generieren, einschließlich Objekten und Bildtypen, die während des Trainingsprozesses nicht angetroffen wurden. Diese „Zero-Sample-Migration“-Fähigkeit ist erstaunlich, und einige sagen sogar, dass der CV-Bereich einen „GPT-3-Moment“ eingeläutet hat.
Kürzlich hat ein neues Paper „Segment Everything Everywhere All at Once“ erneut für Aufsehen gesorgt. In diesem Artikel schlugen mehrere chinesische Forscher der University of Wisconsin-Madison, von Microsoft und der Hong Kong University of Science and Technology ein neues aufforderungsbasiertes Interaktionsmodell SEEM vor. SEEM kann alle Inhalte in einem Bild oder Video auf einmal segmentieren und Objektkategorien basierend auf verschiedenen modalen Eingaben des Benutzers (einschließlich Text, Bilder, Graffiti usw.) identifizieren. Das Projekt ist Open Source und es steht eine Testadresse zur Verfügung, die jeder nutzen kann.
Papierlink: https://arxiv.org/pdf/2304.06718.pdf
Projektlink: https://github.com/UX-Decoder/Segment-Everything -Everywhere-All-At-Once
Testadresse: https://huggingface.co/spaces/xdecoder/SEEM
Diese Studie verifizierte die Leistung von SEEM bei verschiedenen Segmentierungsaufgaben durch umfassende Experimente zur Wirksamkeit An. Obwohl SEEM nicht in der Lage ist, Benutzerabsichten zu verstehen, weist es starke Generalisierungsfähigkeiten auf, da es lernt, verschiedene Arten von Eingabeaufforderungen in einem einheitlichen Darstellungsraum zu schreiben. Darüber hinaus kann SEEM über einen einfachen Prompt-Decoder mehrere Interaktionsrunden effizient verarbeiten.
Let schauen sich zuerst den Segmentierungseffekt an:
segment "optimus prime" im Transformatorenfoto:
it kann auch eine Art von Objekt segmentieren, so wie B. das Segmentieren aller Gebäude in einem Landschaftsbild:
SEEM kann sich auch leicht bewegende Objekte im Video segmentieren:
Dieser Segmentierungseffekt kann als sehr glatt bezeichnet werden. Werfen wir einen Blick auf den in dieser Studie vorgeschlagenen Ansatz.
Methodenübersicht
Diese Forschung zielt darauf ab, eine allgemeine Schnittstelle für die Bildsegmentierung mithilfe multimodaler Eingabeaufforderungen vorzuschlagen. Um dieses Ziel zu erreichen, schlugen sie eine neue Lösung vor, die vier Attribute enthält, darunter Vielseitigkeit, Kompositionalität, Interaktivität und semantisches Bewusstsein, darunter
1) Vielseitigkeit. Diese Forschung schlägt vor, heterogene Elemente wie Punkte, Masken, Texte, Erkennungsboxen (Boxen) und sogar der Referenzbereich eines anderen Bildes in die gleiche gemeinsame visuelle Semantikaufforderung im Raum.
2) Compositionality schreibt spontan Abfragen zur Begründung, indem es einen gemeinsamen visuellen semantischen Raum aus visuellen und textuellen Eingabeaufforderungen lernt. SEEM kann jede Kombination von Eingabeaufforderungen verarbeiten.
3) Interaktivität: Diese Studie stellt die Speicherung von Gesprächsverlaufsinformationen vor, indem erlernbare Gedächtnisaufforderungen und durch Masken gesteuerte Kreuzaufmerksamkeit kombiniert werden.
4) Semantisches Bewusstsein: Verwenden Sie einen Textencoder, um Textabfragen zu kodieren und Beschriftungen zu maskieren, um so eine offene Semantik für alle Ergebnisse der Ausgabesegmentierung bereitzustellen.
Architektonisch folgt SEEM einem einfachen Transformer-Encoder-Decoder-Schema und einem Zusätzlicher Text-Encoder wurde hinzugefügt. In SEEM ähnelt der Dekodierungsprozess dem generativen LLM, jedoch mit multimodalen Eingaben und multimodalen Ausgaben. Alle Abfragen werden als Eingabeaufforderungen an den Decoder zurückgemeldet, und Bild- und Textcodierer werden als Eingabeaufforderungscodierer zum Codieren aller Arten von Abfragen verwendet.
Konkret kombinierte die Studie alle Abfragen (wie Punkte, Kästchen und Maske) werden in visuelle Eingabeaufforderungen codiert, während ein Textencoder verwendet wird, um Textabfragen in Texteingabeaufforderungen umzuwandeln, sodass die visuellen und Texteingabeaufforderungen ausgerichtet bleiben. Fünf verschiedene Arten von Eingabeaufforderungen können alle im gemeinsamen visuellen semantischen Raum abgebildet werden, und unsichtbare Benutzereingabeaufforderungen können durch Zero-Shot-Adaption verarbeitet werden. Durch das Training verschiedener Segmentierungsaufgaben ist das Modell in der Lage, verschiedene Eingabeaufforderungen zu verarbeiten. Darüber hinaus können sich verschiedene Arten von Eingabeaufforderungen gegenseitig bei der gegenseitigen Aufmerksamkeit unterstützen. Letztendlich können SEEM-Modelle verschiedene Eingabeaufforderungen nutzen, um bessere Segmentierungsergebnisse zu erzielen.
Neben seinen starken Generalisierungsfähigkeiten ist SEEM auch sehr effizient im Betrieb. Die Forscher verwendeten Eingabeaufforderungen als Eingabe für den Decoder, sodass SEEM den Feature-Extraktor zu Beginn über mehrere Interaktionsrunden mit Menschen nur einmal ausführen musste. Führen Sie bei jeder Iteration einfach erneut einen Lightweight-Decoder mit einer neuen Eingabeaufforderung aus. Daher kann bei der Bereitstellung des Modells der Feature-Extraktor mit einer großen Anzahl von Parametern und hoher Laufzeitbelastung auf dem Server ausgeführt werden, während auf dem Computer des Benutzers nur der relativ leichte Decoder ausgeführt wird, um das Netzwerklatenzproblem bei mehreren Remote-Aufrufen zu lindern.
Wie in Abbildung 3(b) oben dargestellt, enthält jede Interaktion in mehreren Interaktionsrunden eine manuelle Schleife und eine Modellschleife. In der künstlichen Schleife erhält der Mensch die Maskenausgabe der vorherigen Iteration und gibt durch visuelle Eingabeaufforderungen positives oder negatives Feedback für die nächste Decodierungsrunde. Während der Modellschleife empfängt und aktualisiert das Modell Speicheraufforderungen für zukünftige Vorhersagen.
Experimentelle Ergebnisse
In dieser Studie wurde das SEEM-Modell experimentell mit dem interaktiven Segmentierungsmodell SOTA verglichen. Die Ergebnisse sind in Tabelle 1 unten aufgeführt.
Als allgemeines Modell implementiert SEEM Modelle wie RITM und SimpleClick Comparable Leistung und kommt der Leistung von SAM sehr nahe, während SAM 50-mal mehr segmentierte Daten für das Training verwendet als SEEM.
Im Gegensatz zu bestehenden interaktiven Modellen ist SEEM die erste universelle Schnittstelle, die nicht nur klassische Segmentierungsaufgaben, sondern auch verschiedene Benutzereingabetypen unterstützt, darunter Text, Punkte, Kritzeleien, Kästchen usw Bilder bieten leistungsstarke Kombinationsmöglichkeiten. Wie in Tabelle 2 unten gezeigt, hat SEEM durch das Hinzufügen kombinierbarer Eingabeaufforderungen die Segmentierungsleistung bei cIoU, mIoU und anderen Indikatoren erheblich verbessert.
Werfen wir einen Blick auf die visuellen Ergebnisse der interaktiven Bildsegmentierung. Benutzer müssen nur einen Punkt zeichnen oder einfach kritzeln, und SEEM kann sehr gute Segmentierungsergebnisse liefern 🎜#Sie können auch Text eingeben und SEEM die Bildsegmentierung durchführen lassen
#🎜 🎜#
Sie können das Referenzbild auch direkt eingeben und den Referenzbereich markieren, andere Bilder segmentieren und Objekte finden, die mit dem Referenzbereich übereinstimmen:
Dieses Projekt kann für Interessierte bereits online ausprobiert werden Leser: Probieren Sie es aus.
Das obige ist der detaillierte Inhalt vonDas vom chinesischen Team entwickelte universelle Segmentierungsmodell SEEM bringt die einmalige Segmentierung auf eine neue Ebene. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Heute möchte ich eine aktuelle Forschungsarbeit der University of Connecticut vorstellen, die eine Methode zum Abgleichen von Zeitreihendaten mit großen NLP-Modellen (Natural Language Processing) im latenten Raum vorschlägt, um die Leistung von Zeitreihenprognosen zu verbessern. Der Schlüssel zu dieser Methode besteht darin, latente räumliche Hinweise (Eingabeaufforderungen) zu verwenden, um die Genauigkeit von Zeitreihenvorhersagen zu verbessern. Titel des Papiers: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Download-Adresse: https://arxiv.org/pdf/2403.05798v1.pdf 1. Hintergrundmodell für große Probleme

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren
