Obwohl ich dich noch nie getroffen habe, ist es für mich möglich, dich zu „kennen“ – das ist der Zustand, den Menschen von künstlicher Intelligenz auf den ersten Blick erwarten.
Um dieses Ziel zu erreichen, trainieren Menschen bei herkömmlichen Bilderkennungsaufgaben Algorithmusmodelle anhand einer großen Anzahl von Bildbeispielen mit unterschiedlichen Kategoriebezeichnungen, damit das Modell die Fähigkeit erwerben kann, diese Bilder zu erkennen. Bei der Zero-Shot-Learning-Aufgabe (ZSL) hoffen die Menschen, dass das Modell Schlussfolgerungen ziehen und Kategorien identifizieren kann, die in der Trainingsphase keine Bildbeispiele gesehen haben.
Generatives Zero-Shot-Lernen (GZSL) gilt als effektive Methode für Zero-Shot-Lernen. Bei GZSL besteht der erste Schritt darin, einen Generator zu trainieren, um visuelle Merkmale unsichtbarer Kategorien zu synthetisieren. Dieser Generierungsprozess wird durch die Nutzung semantischer Beschreibungen wie Attributbezeichnungen als Bedingungen vorangetrieben. Sobald diese virtuellen visuellen Merkmale generiert sind, können Sie mit dem Training eines Klassifizierungsmodells beginnen, das unsichtbare Klassen erkennen kann, genau wie Sie es mit einem herkömmlichen Klassifikator tun würden.
Das Training des Generators ist entscheidend für generative Zero-Shot-Lernalgorithmen. Idealerweise sollten die visuellen Merkmalsproben einer unsichtbaren Kategorie, die vom Generator basierend auf der semantischen Beschreibung generiert werden, die gleiche Verteilung aufweisen wie die visuellen Merkmale realer Proben dieser Kategorie. Das bedeutet, dass der Generator in der Lage sein muss, die Beziehungen und Muster zwischen visuellen Merkmalen genau zu erfassen, um Proben mit einem hohen Maß an Konsistenz und Glaubwürdigkeit zu generieren. Durch das Training des Generators können die visuellen Merkmalsunterschiede zwischen verschiedenen Kategorien effektiv erlernt werden Die Kategorie ist bedingt, was den Generator darauf beschränkt, nur die gesamte Kategorie zu optimieren, anstatt jede Beispielinstanz zu beschreiben. Daher ist es schwierig, die Verteilung der visuellen Merkmale realer Proben genau wiederzugeben, was zu einer schlechten Generalisierungsleistung des Modells führt. Schlecht. Darüber hinaus werden die visuellen Informationen des von sichtbaren und unsichtbaren Klassen gemeinsam genutzten Datensatzes, also das Domänenwissen, im Trainingsprozess des Generators nicht vollständig genutzt, was den Wissenstransfer von sichtbaren Klassen zu unsichtbaren Klassen einschränkt.
Um diese Probleme zu lösen, schlugen Doktoranden der Huazhong University of Science and Technology und technische Experten der Intime Business Group, einer Tochtergesellschaft von Alibaba, eine Methode namens Visually Enhanced Dynamic Semantic Prototyping (VADS) vor. Dieser Ansatz führt visuelle Merkmale gesehener Klassen vollständiger in semantische Bedingungen ein und ermöglicht es dem Push-Generator, genaue semantisch-visuelle Zuordnungen zu lernen. Dieses Forschungspapier „Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning“ wurde von CVPR 2024, der führenden internationalen akademischen Konferenz im Bereich Computer Vision, angenommen.
Die obige Forschung stellt insbesondere drei innovative Punkte dar:
Beim Zero-Shot-Lernen werden visuelle Merkmale verwendet, um den Generator zu verbessern und zuverlässige visuelle Merkmale zu generieren, was eine innovative Methode darstellt.
Die Forschung führte auch zwei Komponenten ein, VDKL und VOSU. Mit Hilfe dieser Komponenten wird der visuelle Prior des Datensatzes effektiv ermittelt, und durch dynamische Aktualisierung der visuellen Merkmale des Bildes wird die semantische Beschreibung der vordefinierten Kategorie erstellt Aktualisiert . Diese Methode nutzt visuelle Merkmale effektiv aus.
Die experimentellen Ergebnisse zeigen, dass der Effekt der Verwendung visueller Funktionen zur Verbesserung des Generators in dieser Studie sehr signifikant ist. Dieser Plug-and-Play-Ansatz ist nicht nur äußerst vielseitig, sondern verbessert auch die Generatorleistung.
Forschungsdetails
Schließlich verband das Forschungsteam die Ausgänge der beiden Module zu einem dynamischen semantischen Prototypvektor als Bedingung des Generators. Eine große Anzahl von Experimenten zeigt, dass die VADS-Methode bei häufig verwendeten Zero-Shot-Lerndatensätzen eine deutlich bessere Leistung als bestehende Methoden erzielt und mit anderen generativen Zero-Shot-Lernmethoden kombiniert werden kann, um allgemeine Verbesserungen der Genauigkeit zu erzielen.
Im visuellen Wahrnehmungsdomänenwissens-Lernmodul (VDKL) entwarf das Forschungsteam einen visuellen Encoder (VE) und ein Domänenwissens-Lernnetzwerk (DKL). Unter anderem kodiert VE visuelle Merkmale in latente Merkmale und latente Kodierung. Durch die Verwendung von Kontrastverlust zum Trainieren von VE mithilfe gesehener Klassenbildproben während der Generator-Trainingsphase kann VE die Klassentrennbarkeit visueller Merkmale verbessern.
Beim Training des ZSL-Klassifikators werden die vom Generator generierten unsichtbaren visuellen Merkmale ebenfalls in VE eingegeben und die erhaltenen latenten Merkmale werden mit den generierten visuellen Merkmalen als endgültige visuelle Merkmalsprobe verknüpft. Die andere Ausgabe von VE, also die latente Codierung, bildet nach der DKL-Transformation eine lokale Abweichung b, die mit dem lernbaren globalen Prior-P und dem zufälligen Gaußschen Rauschen in domänenbezogenes visuelles Prior-Rauschen kombiniert wird, um andere generative Nullproben von Pure zu ersetzen Gaußsches Rauschen wird häufig beim Lernen als Teil der Generatorerzeugungsbedingungen verwendet.
Im Vision-Oriented Semantic Update Module (VOSU) entwarf das Forschungsteam einen visuellen semantischen Prädiktor VSP und ein semantisches Update-Mapping-Netzwerk SUM. In der Trainingsphase von VOSU verwendet VSP visuelle Bildmerkmale als Eingabe, um einen vorhergesagten semantischen Vektor zu generieren, der das visuelle Muster des Zielbilds erfassen kann. Gleichzeitig verwendet SUM den semantischen Kategorieprototyp als Eingabe, aktualisiert ihn und erhält ihn der aktualisierte semantische Prototyp, und dann werden VSP und SUM trainiert, indem der Kreuzentropieverlust zwischen dem vorhergesagten semantischen Vektor und dem aktualisierten semantischen Prototyp minimiert wird. Das VOSU-Modul kann den semantischen Prototyp basierend auf visuellen Merkmalen dynamisch anpassen, sodass der Generator bei der Synthese neuer Kategoriemerkmale auf genauere semantische Informationen auf Instanzebene zurückgreifen kann.
Im experimentellen Teil verwendete die obige Forschung drei ZSL-Datensätze, die in der Wissenschaft häufig verwendet werden: Tiere mit Attributen 2 (AWA2), SUN-Attribut (SUN) und Caltech-USCD Birds-200-2011 (CUB) für traditionell Die Hauptindikatoren für Zero-Shot-Lernen und verallgemeinertes Zero-Shot-Lernen werden umfassend mit anderen neueren repräsentativen Methoden verglichen.
In Bezug auf den Acc-Indikator des traditionellen Zero-Shot-Lernens hat die Methode dieser Studie im Vergleich zu bestehenden Methoden erhebliche Genauigkeitsverbesserungen erzielt und liegt bei den drei Datensätzen bei 8,4 %, 10,3 % bzw. 8,4. %. Im verallgemeinerten Zero-Shot-Lernszenario nimmt die obige Forschungsmethode auch eine führende Position im harmonischen Mittelwertindex H der unsichtbaren Klasse und der Genauigkeit der gesehenen Klasse ein.
VADS-Methode kann auch mit anderen generativen Zero-Shot-Lernmethoden kombiniert werden. Nach der Kombination mit den drei Methoden CLSWGAN, TF-VAEGAN und FREE werden beispielsweise die Acc- und H-Indikatoren der drei Datensätze erheblich verbessert, und die durchschnittliche Verbesserung der drei Datensätze beträgt 7,4 %/5,9 %, 5,6 % /6,4 % und 3,3 %/4,2 %.
Durch die Visualisierung der vom Generator generierten visuellen Merkmale ist ersichtlich, dass die Merkmale einiger Kategorien ursprünglich miteinander verwechselt wurden, wie z. B. die sichtbare Klasse „Yellow breasted Chat“ und die unsichtbare Klasse in (b ) unten. Die beiden Arten von Merkmalen „Yellowthroat“ können in Abbildung (c) nach Verwendung der VADS-Methode klar in zwei Cluster unterteilt werden, wodurch Verwirrung beim Klassifikatortraining vermieden wird.
Machine Heart versteht, dass das Zero-Shot-Lernen, auf das sich das oben genannte Forschungsteam konzentriert, darauf abzielt, das Modell in die Lage zu versetzen, neue Kategorien zu erkennen die in der Trainingsphase keine Bildbeispiele haben, was potenziellen Wert im Bereich der intelligenten Sicherheit hat.
Behandeln Sie zunächst neu auftretende Risiken in Sicherheitsszenarien. Da in Sicherheitsszenarien weiterhin neue Bedrohungstypen oder ungewöhnliche Verhaltensmuster auftauchen, sind diese möglicherweise nicht in früheren Trainingsdaten aufgetreten. Zero-Shot-Learning ermöglicht es Sicherheitssystemen, neue Risikoarten schnell zu erkennen und darauf zu reagieren und so die Sicherheit zu verbessern.
Zweitens: Reduzieren Sie die Abhängigkeit von Beispieldaten: Die Beschaffung ausreichender annotierter Daten zum Trainieren eines effektiven Sicherheitssystems ist teuer und zeitaufwändig. Zero-Shot-Learning reduziert die Abhängigkeit des Systems von einer großen Anzahl von Bildbeispielen und spart dadurch Forschungs- und Entwicklungskosten. .
Drittens verbessern Sie die Stabilität in dynamischen Umgebungen: Zero-Shot-Learning verwendet semantische Beschreibungen, um unsichtbare Klassenmuster zu erkennen, und ist von Natur aus widerstandsfähiger gegenüber Änderungen in der visuellen Umgebung.
Als zugrunde liegende Technologie zur Lösung von Bildklassifizierungsproblemen kann diese Technologie auch in Szenarien implementiert werden, die auf visueller Klassifizierungstechnologie basieren, z. B. Attributerkennung von Personen, Gütern, Fahrzeugen und Objekten, Verhaltenserkennung usw. Insbesondere in Szenarien, in denen neue zu identifizierende Kategorien schnell hinzugefügt werden müssen und keine Zeit zum Sammeln von Trainingsbeispielen vorhanden ist oder es schwierig ist, eine große Anzahl von Beispielen zu sammeln (z. B. zur Risikoidentifizierung), bietet die Zero-Shot-Lerntechnologie große Vorteile gegenüber traditionellen Methoden.
Hat diese Forschungstechnologie eine Referenz für die Entwicklung aktueller Großmodelle?
Forscher glauben, dass die Kernidee des generativen Zero-Shot-Lernens darin besteht, den semantischen Raum und den visuellen Merkmalsraum auszurichten, was mit den Forschungszielen visueller Sprachmodelle (wie CLIP) in aktuellen multi- modale große Modelle.
Der größte Unterschied zwischen ihnen besteht darin, dass generatives Zero-Shot-Lernen auf vordefinierte begrenzte Kategorien von Datensätzen trainiert und verwendet wird, während große Modelle in visueller Sprache durch das Erlernen von Big Data vielseitig einsetzbar sind. Semantische und visuelle Darstellungsmöglichkeiten sind nicht eingeschränkt Als Basismodell haben sie ein breiteres Anwendungsspektrum.
Wenn das Anwendungsszenario der Technologie ein bestimmtes Feld ist, können Sie das große Modell an dieses Feld anpassen und verfeinern. Arbeiten Sie dabei in die gleiche oder eine ähnliche Forschungsrichtung, die dieser Artikel theoretisch bringen kann einige nützliche Inspirationen.
Hou Wenjin, Masterstudent an der Huazhong University of Science and Technology. Zu seinen Forschungsinteressen gehören Computer Vision, generative Modellierung, Wenig-Schuss-Lernen usw. Er hat diese Arbeit während seines Praktikums abgeschlossen bei Alibaba-Intime Business.
Wang Yan, Alibaba-Intime Commercial Technology Director, Algorithmusleiter des Shenzhen Xiang Intelligent Team.
Feng Xuetao, leitender Algorithmusexperte bei Alibaba-Intime Business, konzentriert sich hauptsächlich auf die Anwendung visueller und multimodaler Algorithmen im Offline-Einzelhandel und anderen Branchen.
Das obige ist der detaillierte Inhalt vonZur Verbesserung der generativen Zero-Shot-Lernfähigkeiten wurde die visuell verbesserte dynamische semantische Prototyping-Methode für CVPR 2024 ausgewählt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!