Zero-Shot-Learning (ZSL) ist ein maschinelles Lernparadigma, das vorab trainierte Deep-Learning-Modelle verwendet, um Stichproben auf neue Kategorien zu verallgemeinern. Die Kernidee besteht darin, das Wissen bestehender Trainingsinstanzen auf die Klassifizierungsaufgabe von Testinstanzen zu übertragen. Konkret sagen Zero-Shot-Lerntechniken neue Daten voraus, indem sie semantische Zwischenschichten und Attribute lernen und dieses Wissen dann während der Inferenz anwenden. Diese Methode ermöglicht es dem maschinellen Lernmodell, Kategorien zu klassifizieren, die zuvor noch nicht gesehen wurden, und ermöglicht so die Identifizierung unbekannter Kategorien. Durch Zero-Shot-Lernen kann das Modell umfassendere Generalisierungsfähigkeiten aus begrenzten Trainingsdaten erhalten und so seine Anpassungsfähigkeit an neue Probleme in der realen Welt verbessern.
Es ist zu beachten, dass die Trainings- und Testsätze beim Zero-Shot-Lernen disjunkt sind.
Zero-Shot-Lernen ist ein Teilgebiet des Transferlernens, das hauptsächlich in Situationen eingesetzt wird, in denen die Merkmals- und Beschriftungsräume völlig unterschiedlich sind. Im Gegensatz zum üblichen isomorphen Transferlernen geht es beim Zero-Shot-Lernen um mehr als nur die Feinabstimmung eines vorab trainierten Modells. Es erfordert das Erlernen des Umgangs mit neuen Problemen ohne Proben. Das Ziel des Zero-Shot-Learnings besteht darin, vorhandenes Wissen und Erfahrungen zu nutzen, um dieses Wissen auf neue Bereiche zu übertragen und so neue Probleme zu lösen. Diese Art des heterogenen Transferlernens ist sehr nützlich für den Umgang mit Situationen, in denen keine oder nur wenige Etiketten vorhanden sind, da es Vorhersagen und Klassifizierungen durchführen kann, indem die vorhandenen Etiketteninformationen genutzt werden. Daher hat Zero-Shot-Lernen großes Potenzial, in vielen realen Anwendungen eine wichtige Rolle zu spielen.
Gesehene Klassen: Datenklassen, die zum Trainieren von Deep-Learning-Modellen verwendet werden, z. B. beschriftete Trainingsdaten.
Unsichtbare Klassen: Datenklassen, die vorhandene tiefe Modelle verallgemeinern müssen, wie z. B. unbeschriftete Trainingsdaten.
Hilfsinformationen: Da keine gekennzeichneten Instanzen verfügbar sind, die zu unsichtbaren Klassen gehören, sind einige Hilfsinformationen erforderlich, um das Zero-Shot-Lernproblem zu lösen. Solche Zusatzinformationen sollten alle unsichtbaren Informationsklassen umfassen.
Zero-Shot-Lernen basiert auch auf gekennzeichneten Trainingssätzen sichtbarer und unsichtbarer Klassen. Sowohl sichtbare als auch unsichtbare Klassen sind in einem hochdimensionalen Vektorraum namens semantischer Raum miteinander verbunden, in dem Wissen aus sichtbaren Klassen auf unsichtbare Klassen übertragen werden kann.
Zero-Shot-Lernen umfasst zwei Phasen des Trainings und der Schlussfolgerung:
Training: Erwerb von Wissen über einen Satz gekennzeichneter Datenproben.
Inferenz: Erweitern Sie bereits erworbenes Wissen, um die bereitgestellten Hilfsinformationen für neue Unterrichtseinheiten zu nutzen.
Klassifikatorbasierte Methoden
Bestehende klassifikatorbasierte Methoden verwenden normalerweise eine Eins-zu-viele-Lösung, um Multiklassen-Zero-Shot-Klassifikatoren zu trainieren. Das heißt, für jede unsichtbare Klasse wird ein binärer Eins-zu-Eins-Klassifikator trainiert. Wir klassifizieren klassifikatorbasierte Methoden weiter in drei Kategorien entsprechend der Methode zur Konstruktion des Klassifikators.
①Korrespondenzmethode
Die Korrespondenzmethode zielt darauf ab, einen Klassifikator für unsichtbare Klassen durch die Korrespondenz zwischen einem binären Eins-zu-eins-Klassifikator für jede Klasse und ihrem entsprechenden Klassenprototyp zu erstellen. Jede Klasse hat nur einen entsprechenden Prototyp im semantischen Raum. Daher kann dieser Prototyp als „Repräsentation“ dieser Klasse betrachtet werden. Gleichzeitig gibt es im Merkmalsraum für jede Kategorie einen entsprechenden binären Eins-zu-Eins-Klassifikator, der auch als „Darstellung“ der Kategorie betrachtet werden kann. Korrespondenzmethoden zielen darauf ab, die Korrespondenzfunktion zwischen diesen beiden „Repräsentationen“ zu lernen.
②Beziehungsmethode
Methode zielt darauf ab, einen Klassifikator oder unsichtbare Klassen basierend auf den Beziehungen zwischen unsichtbaren Klassen und innerhalb der Klasse zu erstellen. Im Feature-Space kann anhand der verfügbaren Daten ein binärer Eins-zu-eins-Klassifikator der gesehenen Klassen erlernt werden. Gleichzeitig kann die Beziehung zwischen sichtbaren und unsichtbaren Klassen durch Berechnen der Beziehung zwischen entsprechenden Prototypen ermittelt werden.
③Kompositionsmethode
Die Kompositionsmethode beschreibt die Idee, einen Klassifikator für eine unsichtbare Klasse zu erstellen, indem Klassifikatoren für die Grundelemente kombiniert werden, aus denen die Klasse besteht.
Bei Kompositionsmethoden wird davon ausgegangen, dass es eine Liste von „Grundelementen“ gibt, aus denen die Klasse besteht. Jeder Datenpunkt in den sichtbaren und unsichtbaren Klassen ist eine Kombination dieser Grundelemente. Im semantischen Raum wird davon ausgegangen, dass jede Dimension ein Grundelement darstellt und jeder Klassenprototyp die Kombination dieser Grundelemente der entsprechenden Klasse darstellt.
Jede Dimension des Klassenprototyps nimmt 1 oder 0 an und gibt an, ob die Klasse entsprechende Elemente hat. Daher eignet sich diese Art von Methode hauptsächlich für den semantischen Raum.
Instanzbasierte Methoden
Instanzbasierte Methoden zielen darauf ab, zunächst gekennzeichnete Instanzen unsichtbarer Klassen zu erhalten und diese Instanzen dann zum Trainieren eines Zero-Shot-Klassifikators zu verwenden. Gemäß den Quellen dieser Instanzen können vorhandene instanzbasierte Methoden in drei Unterkategorien unterteilt werden:
①Projektionsmethode
Die Idee der Projektionsmethode besteht darin, Feature-Space-Instanzen und semantische Raumprototypen in einen gemeinsamen zu projizieren Platz, um eine markierte Instanz einer unsichtbaren Klasse zu erhalten.
Es gibt beschriftete Trainingsinstanzen im Feature-Space, die zur sichtbaren Klasse gehören. Gleichzeitig gibt es im semantischen Raum Prototypen sichtbarer und unsichtbarer Klassen. Merkmals- und semantische Räume sind reale Räume, und Instanzen und Prototypen sind darin Vektoren. Aus dieser Perspektive können Prototypen auch als beschriftete Instanzen betrachtet werden. Daher kennzeichnen wir Instanzen im Merkmalsraum und im semantischen Raum.
②Methoden zum Ausleihen von Instanzen
Diese Methoden handhaben das Abrufen gekennzeichneter Instanzen für unsichtbare Klassen durch Ausleihen von Trainingsinstanzen. Instanzenleihmethoden basieren auf Ähnlichkeiten zwischen Klassen. Mit der Kenntnis dieser ähnlichen Klassen können Instanzen identifiziert werden, die zu unsichtbaren Klassen gehören.
③Synthesemethode
Die Synthesemethode besteht darin, markierte Instanzen unsichtbarer Klassen zu erhalten, indem Pseudoinstanzen mithilfe verschiedener Strategien synthetisiert werden. Um Pseudoinstanzen zu synthetisieren, wird davon ausgegangen, dass die Instanzen jeder Klasse einer bestimmten Verteilung folgen. Zunächst müssen die Verteilungsparameter der unsichtbaren Klassen geschätzt werden. Anschließend werden Instanzen der unsichtbaren Klasse synthetisiert.
Wie andere Konzepte hat auch das Zero-Shot-Lernen seine Grenzen. Hier sind einige der häufigsten Herausforderungen bei der praktischen Anwendung von Zero-Shot-Lernen.
1. Bias
Während der Trainingsphase kann das Modell nur auf die Daten und Beschriftungen sichtbarer Klassen zugreifen. Dies führt dazu, dass das Modell Datenproben unsichtbarer Klassen während des Tests als sichtbare Klassen vorhersagt. Das Bias-Problem wird noch deutlicher, wenn das Modell während des Tests anhand von Stichproben aus sichtbaren und unsichtbaren Klassen bewertet wird.
2. Domänenübertragung
Zero-Shot-Lernmodelle werden in erster Linie entwickelt, um vorab trainierte Modelle auf neue Klassen auszudehnen, sobald diese Daten nach und nach verfügbar werden. Daher tritt beim Zero-Shot-Lernen häufig das Problem der Domänenübertragung auf. Eine Domänenverschiebung tritt auf, wenn die statistische Verteilung der Daten im Trainingssatz und im Testsatz deutlich unterschiedlich ist.
3. Zentrumsproblem
Das Zentrumsproblem hängt mit dem Fluch der Dimensionalität zusammen, der mit der Suche nach dem nächsten Nachbarn verbunden ist. Beim Zero-Shot-Lernen tritt das zentrale Problem aus zwei Gründen auf.
Sowohl Eingabe- als auch semantische Merkmale existieren im hochdimensionalen Raum. Wenn ein solcher hochdimensionaler Vektor in einen niedrigdimensionalen Raum projiziert wird, verringert sich die Varianz, was dazu führt, dass die abgebildeten Punkte in einem Zentrum gruppiert werden.
Die beim Zero-Shot-Lernen weit verbreitete Ridge-Regression wirft zentrale Fragen auf. Dies kann zu verzerrten Vorhersagen führen, d. h. unabhängig von der Abfrage werden meist nur wenige Klassen vorhergesagt.
4. Informationsverlust
Beim Training auf sichtbaren Klassen lernt das Modell nur die wichtigen Attribute, die diese sichtbaren Klassen unterscheiden. Während in der sichtbaren Klasse möglicherweise einige potenzielle Informationen vorhanden sind, werden sie nicht erlernt, wenn sie nicht wesentlich zum Entscheidungsprozess beitragen. Diese Informationen sind jedoch während der Testphase unsichtbarer Klassen wichtig. Dies führt zu Informationsverlust.
Das obige ist der detaillierte Inhalt vonAnalysieren Sie die Definition und Bedeutung von Zero-Shot-Learning (ZSL). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!