Wenn die Verteilungen des Trainingsdatensatzes und des Testdatensatzes gleich sind, können Modelle für maschinelles Lernen eine überlegene Leistung zeigen. In einer Open-World-Umgebung stoßen Modelle jedoch häufig auf OOD-Proben (Out-of-Distribution), was dazu führen kann, dass sich das Modell auf unvorhersehbare Weise verhält, und die Folgen von Fehlern können schwerwiegend sein, insbesondere in Hochrisikoszenarien wie z als autonomes Fahren [1, 2]. Daher ist die OOD-Erkennung von entscheidender Bedeutung, um die Zuverlässigkeit von Modellen für maschinelles Lernen im tatsächlichen Einsatz sicherzustellen.
Die meisten OOD-Erkennungsmethoden [1, 3] können OOD-Proben basierend auf gut trainierten In-Distribution (ID)-Klassifikatoren effektiv erkennen. Für unterschiedliche ID-Datensätze müssen sie jedoch den Klassifikator für die OOD-Erkennung neu trainieren. Darüber hinaus basieren diese Methoden nur auf visuellen Mustern und ignorieren die Verbindung zwischen visuellen Bildern und Textbeschriftungen. Mit dem Aufkommen groß angelegter visueller Sprachmodelle (Vision-Manguage Models, VLMs, wie CLIP [4]) wird die Zero-Shot-OOD-Erkennung möglich [5]. Durch die Erstellung eines Textklassifikators nur mit ID-Kategoriebezeichnungen ist es möglich, OOD-Proben über verschiedene ID-Datensätze hinweg zu erkennen, ohne den Klassifikator neu zu trainieren.
Obwohl bestehende CLIP-basierte Methoden zur Erkennung außerhalb der Verteilung eine beeindruckende Leistung aufweisen, scheitern sie häufig, wenn sie auf schwer zu erkennende Proben außerhalb der Verteilung stoßen. Wir glauben, dass bestehende Methoden nur auf ID-Kategoriebezeichnungen basieren Textklassifikatoren schränken die inhärente Fähigkeit von CLIP, Proben aus dem Open-Label-Bereich zu identifizieren, weitgehend ein. Wie in Abbildung 1 (a) dargestellt, ist die Methode zum Erstellen eines Textklassifikators, der nur auf ID-Kategoriebezeichnungen basiert, schwierig, schwer zu erkennende OOD-Proben zu unterscheiden (ID-Datensatz: CUB-200-2011, OOD-Datensatz: Orte).
Abbildung 1. Schematische Darstellung der Forschungsmotivation: (a) Erstellen Sie einen Textklassifikator, der nur auf ID-Kategoriebezeichnungen basiert, (b) verwenden Sie echte OOD-Beschriftungen, (c) verwenden Sie LLM, um sich eine potenzielle Exposition gegenüber Ausreißern vorzustellen
In dieser Arbeit Wir schlagen eine Out-of-Distribution-Erkennungsmethode namens „Envisioning Outlier Exposure“ (EOE) vor, die das Expertenwissen und die Inferenzfähigkeiten großer Sprachmodelle (LLMs) nutzt, um potenzielle Ausreißer-Expositionen vorzustellen und dadurch die OOD-Erkennungsleistung zu verbessern (dargestellt in). Abbildung 1 (c)) ohne Zugriff auf tatsächliche OOD-Daten. Wir entwerfen (1) LLM-Hinweise basierend auf visueller Ähnlichkeit, um potenzielle Ausreißerklassenbezeichnungen speziell für die OOD-Erkennung zu generieren, und (2) eine neue Bewertungsfunktion basierend auf potenziellen Ausreißerstrafen, um schwer zu identifizierende OOD-Proben effektiv zu unterscheiden. Experimente zeigen, dass EOE bei verschiedenen OOD-Aufgaben eine überlegene Leistung erzielt und effektiv auf den ImageNet-1K-Datensatz skaliert werden kann.
ØPapier-Link: https://arxiv.org/pdf/2406.00806
ØCode-Link: https://github.com/tmlr-group/EOE
Als nächstes werden wir kurz Forschungsergebnisse zum Thema mit Ihnen teilen Richtung der Out-of-Distribution-Erkennung wurden kürzlich auf der ICML 2024 veröffentlicht.
Vorkenntnisse
Einführung in die Methode
EOE zielt darauf ab, die Zero-Shot-OOD-Erkennungsleistung zu verbessern, indem LLM genutzt wird, um potenzielle Ausreißerkategoriebezeichnungen zu generieren. Da jedoch die OOD-Kategorien, die bei der Bereitstellung des Modells angetroffen werden, unbekannt sind, stellt sich die Frage, wie wir LLM anleiten können, die erforderlichen Ausreißer-Kategoriebezeichnungen zu generieren? Wie können wir nach Erhalt der Ausreißerklassenbezeichnungen besser zwischen ID- und OOD-Proben unterscheiden? Um diese Probleme anzugehen, schlagen wir einen LLM-Hinweis speziell für die OOD-Erkennung vor, der auf dem Prinzip der visuellen Ähnlichkeit basiert, und führen eine neuartige Bewertungsfunktion ein, um ID/OOD-Proben besser zu unterscheiden. Der Gesamtrahmen unseres Ansatzes ist in Abbildung 2 dargestellt.
Abbildung 2. EOE-Gesamtrahmendiagramm
Die feinkörnige OOD-Erkennung wird auch als offene Mengenerkennung bezeichnet. Sowohl ID- als auch OOD-Proben gehören zur gleichen Hauptkategorie (z. B „Vogel“-Klasse), und es gibt inhärente visuelle Ähnlichkeiten zwischen Unterklassen (z. B. „Spatz“ und „Schwalbe“). Daher ist es sinnvoller, den LLM anzuweisen, direkt verschiedene Unterkategorien innerhalb derselben Hauptkategorie bereitzustellen.
Die oben genannten drei Arten von LLM-Eingabeaufforderungen zur OOD-Erkennung sind in Abbildung 3 dargestellt.
Abbildung 3. Drei Arten von LLM-Eingabeaufforderungen, die auf dem Prinzip der visuellen Ähnlichkeit basieren
Abbildung 4. EOE-Pseudocode
Die Vorteile unserer Methode lassen sich wie folgt zusammenfassen:
EOE basiert nicht auf Vorkenntnissen unbekannter OOD-Daten und eignet sich daher besonders für Open-World-Szenarien.
Null-Stichprobe: Das gleiche vorab trainierte Modell kann effektiv auf eine Vielzahl aufgabenspezifischer ID-Datensätze angewendet werden, ohne dass jeder spezifische ID-Datensatz separat trainiert werden muss. EOE erreicht eine überlegene OOD-Erkennungsleistung, indem es nur die ID-Klassen-Tags kennt.
Skalierbarkeit und Vielseitigkeit: Im Vergleich zu bestehenden Zero-Shot-OOD-Erkennungsmethoden [6], die auch latente OOD-Klassenbezeichnungen generieren, kann EOE problemlos auf große Datensätze wie ImageNet-1K angewendet werden. Darüber hinaus zeigt EOE Vielseitigkeit bei verschiedenen Aufgaben, einschließlich der Fern-, Nah- und feinkörnigen OOD-Erkennung.
Experimentelle Ergebnisse
Wir haben Experimente mit mehreren Datensätzen verschiedener OOD-Aufgaben durchgeführt. Tabelle 1 zeigt die experimentellen Ergebnisse der Far OOD-Erkennung auf ImageNet-1K, wobei Ground Truth die Leistung bei Verwendung echter OOD-Labels darstellt, die bei der tatsächlichen Bereitstellung nicht verfügbar ist. Die Ergebnisse zeigen, dass EOE mit Feinabstimmungsmethoden vergleichbar ist und MCM übertrifft [5].
Tabelle 1. Fern-OOD-Versuchsergebnisse
Wir berichten auch über experimentelle Ergebnisse zu Near-OOD- und Fine-grained-OOD-Aufgaben. Wie in Tabelle 2 und Tabelle 3 gezeigt, erzielen unsere Methoden beide die beste Erkennungsleistung.
Tabelle 2. Nahezu OOD-Versuchsergebnisse
Tabelle 3. Feinkörnige OOD-Versuchsergebnisse
Wir führten Ablationsexperimente an jedem EOE-Modell durch, einschließlich verschiedener Bewertungsfunktionen, LLM-Eingabeaufforderungen: verschiedene LLM und Anzahl potenzieller OOD-Klassenetiketten unterschiedlicher Länge. Experimente zeigen, dass die von uns entworfene Bewertungsfunktion und die auf dem Prinzip der visuellen Ähnlichkeit entworfene LLM-Eingabeaufforderung eine optimale Leistung erzielen und unsere Methode eine hervorragende Leistung bei verschiedenen LLMs und der Anzahl potenzieller OOD-Klassenbezeichnungen unterschiedlicher Länge erzielt. Gleichzeitig führten wir auch Ablationsexperimente zur Struktur des visuellen Sprachmodells durch. Detaillierte experimentelle Ergebnisse finden Sie im Originalartikel.
Abbildung 5. Ablationsexperiment – verschiedene Bewertungsfunktionen, LLM-Hinweise und verschiedene LLMs
Abbildung 5. Ablationsexperiment – die Anzahl der generierten potenziellen OOD-Klassenbezeichnungen
Wir haben die Wirksamkeit von analysiert EOE: Tatsächlich ist es unwahrscheinlich, dass die generierte Anomalieklassenbezeichnung die wahre OOD-Klasse trifft. Dies liegt daran, dass die OOD-Daten, die bei der tatsächlichen Bereitstellung des Modells auftreten, vielfältig und unvorhersehbar sind. Anhand visueller Ähnlichkeitsregeln können die von EOE generierten potenziellen abnormalen Klassenbezeichnungen jedoch die Leistung des Modells bei der OOD-Erkennung verbessern, selbst wenn die echte OOD-Klasse nicht getroffen wird.
Um das obige Argument zu veranschaulichen, zeigen wir Visualisierungen, die aus der Softmax-Ausgabe von Label-Matching-Scores über T-SNE abgeleitet wurden. Die Visualisierungsergebnisse zwischen unserem EOE und der Vergleichsmethode MCM sind in Abbildung 6 dargestellt. Basierend auf den ID-Klassenbezeichnungen von ImageNet-10 generiert LLM potenzielle Anomaliebezeichnungen „U-Boote“ basierend auf visuellen Ähnlichkeitsregeln. Bei der Begegnung mit der OOD-Klasse „Dampflokomotive“ (eine Klasse in ImageNet-20) weist „Dampflokomotive“ die größte Ähnlichkeit mit „U-Boot“ in und auf. Daher wird EOE es als „U-Boot“ gruppieren und es somit als OOD-Klasse erkennen. Wenn jedoch keine potenziellen Ausreißer-Klassenbezeichnungen vorhanden sind, können wir feststellen, dass MCM dazu neigt, alle OOD-Klassenbezeichnungen zusammenzufassen. Dies kann dazu führen, dass schwer zu identifizierende OOD-Proben als ID-Klassen identifiziert werden. Zusammenfassend lässt sich sagen, dass in unserem EOE-Framework 1) OOD-Proben, die derselben Klasse angehören, tendenziell zusammengefasst werden, 2) Proben derselben Gruppe in die angenommene Ausreißerklasse („Steam“) eingeteilt werden, mit der sie optisch ähnlich sind ” vs „U-Boot“). Diese Beobachtungen legen nahe, dass unser EOE die OOD-Erkennung verbessern kann, ohne die eigentliche OOD-Kategorie zu berühren, und außerdem semantisch einfacher zu interpretieren ist. Wir hoffen, dass diese Arbeit eine neue Idee für zukünftige Forschung auf dem Gebiet der OOD-Erkennung liefern kann.
Abbildung 6. Visualisierungsergebnisse
Referenzen
[1] Hendrycks, D. und Gimpel, K. Eine Basis für die Erkennung falsch klassifizierter und nicht verteilter Beispiele in neuronalen Netzen. In ICLR, 2017.
[2] Yang, J., Zhou, K., Li, Y. und Liu, Z. Generalisierte Out-of-Distribution-Erkennung: Eine Umfrage arXiv Preprint arXiv:2110.11334, 2021.
[3] Liu , W., Wang, X., Owens, J. und Li, Y. Energiebasierte Out-of-Distribution-Erkennung , C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. Lernen übertragbarer visueller Modelle aus der Überwachung natürlicher Sprache . In ICML, 2021.
[5] Ming, Y., Cai, Z., Gu, J., Sun, Y., Li, W. und Li, Y. vertiefen sich in die Erkennung von Out-of-Distribution mit Vision-Sprachdarstellungen. In NeurIPS, 2022.
[6] Esmaeilpour, S., Liu, B., Robertson, E. und Shu, L. Zeroshot-Außerverteilungserkennung basierend auf dem vorab trainierten Modellclip . Im AAAI, 2022.
Einführung in die ForschungsgruppeDie Trustworthy Machine Learning and Reasoning Research Group (TMLR Group) der Hong Kong Baptist University besteht aus einer Reihe junger Professoren, Postdoktoranden, Doktoranden und Gastdoktoranden Studenten und Es besteht aus wissenschaftlichen Mitarbeitern, und das Forschungsteam ist dem Fachbereich Informatik der School of Science angegliedert. Die Forschungsgruppe ist spezialisiert auf vertrauenswürdiges Repräsentationslernen, vertrauenswürdiges Lernen basierend auf kausalem Denken, vertrauenswürdige Grundmodelle und andere verwandte Algorithmen, Theorie und Systemdesign sowie Anwendungen in den Naturwissenschaften. Die spezifischen Forschungsrichtungen und damit verbundenen Ergebnisse finden Sie auf der Seite der Gruppe Github (https://github.com/tmlr-group). Das Forschungsteam wird durch staatliche Forschungsgelder und industrielle Forschungsgelder finanziert, wie zum Beispiel das Outstanding Young Scholars Program des Hong Kong Research Grants Council, allgemeine Projekte und Jugendprojekte der National Natural Science Foundation of China sowie wissenschaftliche Forschungsgelder von Microsoft, NVIDIA, Baidu, Alibaba, Tencent und andere Unternehmen. Junge Professoren und erfahrene Forscher arbeiten Hand in Hand, und die GPU-Rechenressourcen sind ausreichend. Es werden viele Postdoktoranden, Doktoranden, wissenschaftliche Mitarbeiter und Forschungspraktikanten langfristig rekrutiert. Darüber hinaus begrüßt unsere Gruppe auch Bewerbungen von selbstfinanzierten Gastpostdoktoranden, Doktoranden und Forschungsassistenten für mindestens 3–6 Monate, und der Fernzugriff wird unterstützt. Interessierte Studierende senden bitte Ihren Lebenslauf und Ihren vorläufigen Forschungsplan an die E-Mail-Adresse (bhanml@comp.hkbu.edu.hk).
Das obige ist der detaillierte Inhalt vonICML 2024|. Großes Sprachmodell unterstützt CLIP-basierte Out-of-Distribution-Erkennungsaufgaben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!