Das Denoising Diffusion Model (DDM) ist eine derzeit weit verbreitete Methode zur Bilderzeugung. Kürzlich führte ein vierköpfiges Team aus Xinlei Chen, Zhuang Liu, Xie Saining und He Kaiming eine Dekonstruktionsstudie zu DDM durch. Durch das schrittweise Entfernen seiner Komponenten stellten sie fest, dass die Generierungsfähigkeit von DDM allmählich abnahm, die Fähigkeit zum Repräsentationslernen jedoch immer noch ein bestimmtes Niveau beibehielt. Dies zeigt, dass einige Komponenten in DDM für das Repräsentationslernen möglicherweise nicht wichtig sind.
Für aktuelle generative Modelle in Bereichen wie Computer Vision gilt das Entrauschen als Kernmethode. Diese Art von Methode wird oft als Entrauschungs-Diffusionsmodell (DDM) bezeichnet. Durch das Erlernen eines Entrauschungs-Autoencoders (DAE) können mehrere Rauschpegel durch den Diffusionsprozess effektiv eliminiert werden.
Diese Verfahren erzielen eine hervorragende Bilderzeugungsqualität und eignen sich besonders zur Erzeugung hochauflösender, fotoähnlicher simulierter Echtbilder. Die Leistung dieser generativen Modelle ist so gut, dass man fast davon ausgehen kann, dass sie über starke Erkennungsfähigkeiten und die Fähigkeit verfügen, den generierten visuellen Inhalt zu verstehen.
Obwohl DAE der Kern aktueller generativer Modelle ist, besteht der früheste Artikel „Extrahieren und Komponieren robuster Features mit entrauschenden Autoencodern“ darin, die Darstellung von Daten durch überwachte Methoden zu erlernen. In diesem Artikel wird eine Methode vorgeschlagen, mit der robuste Merkmale extrahiert und kombiniert werden können. Ziel ist es, die Leistung überwachter Lernaufgaben zu verbessern, indem nützliche Darstellungen von Eingabedaten durch Entrauschen von Autoencodern gelernt werden. Die erfolgreiche Anwendung dieses Ansatzes zeigt die Bedeutung von DAEs in generativen Modellen.
In der aktuellen Repräsentations-Lerngemeinschaft gelten Varianten, die auf „Maskenrauschen“ basieren, als die erfolgreichsten DAEs, wie etwa die Vorhersage fehlenden Textes in einer Sprache (wie BERT) oder fehlender Kacheln in einem Bild.
Obwohl maskenbasierte Varianten explizit angeben, was unbekannt und was bekannt ist, unterscheiden sie sich erheblich von der Aufgabe, additives Rauschen zu entfernen. Bei der Aufgabe, additives Rauschen zu isolieren, stehen keine expliziten Informationen zur Steuerung der Verarbeitung zur Verfügung. Aktuelle DDMs für generative Aufgaben basieren jedoch hauptsächlich auf additivem Rauschen, was bedeutet, dass unbekannte und bekannte Inhalte beim Lernen von Darstellungen möglicherweise nicht explizit gekennzeichnet werden. Daher kann dieser Unterschied dazu führen, dass die maskenbasierten Varianten unterschiedliche Effekte bei der Verarbeitung von additivem Rauschen zeigen.
In letzter Zeit gibt es zunehmend Forschung zu den Repräsentationslernfähigkeiten von DDM (Deep Denoising Model). Diese Studien übernehmen direkt vorab trainierte DDM-Modelle (ursprünglich für Generierungsaufgaben verwendet) und bewerten deren Darstellungsqualität bei Erkennungsaufgaben. Die Anwendung dieser generativ orientierten Modelle hat zu spannenden Ergebnissen geführt.
Diese bahnbrechenden Studien haben jedoch auch einige ungelöste Probleme aufgedeckt: Diese vorhandenen Modelle sind für Generierungsaufgaben und nicht für Erkennungsaufgaben konzipiert, sodass wir nicht bestimmen können, ob ihre Darstellungsfähigkeiten durch Rauschunterdrückung oder Diffusion gesteuert werden. Erhalten aus dem Fahrprozess.
Diese Studie von Xinlei Chen et al. macht einen großen Schritt in diese Forschungsrichtung.
Titel des Papiers: Deconstructing Denoising Diffusion Models for Self-Supervised Learning
Adresse des Papiers: https://arxiv.org/pdf/2401.14404.pdf
Sie verwendeten kein vorhandenes orientiertes The Das generierte DDM trainiert stattdessen ein anerkennungsorientiertes Modell. Die Kernidee dieser Forschung besteht darin, das DDM zu dekonstruieren und Schritt für Schritt zu modifizieren, bis es zu einem klassischen DAE wird.
Durch diesen dekonstruktiven Forschungsprozess untersuchten sie sorgfältig jeden Aspekt des modernen DDM im Hinblick auf Lernrepräsentationsziele. Der Forschungsprozess brachte der KI-Community ein neues Verständnis darüber, welche Schlüsselkomponenten ein DAE benötigt, um eine gute Darstellung zu erlernen.
Überraschenderweise fanden sie heraus, dass die Hauptschlüsselkomponente der Tokenizer ist, dessen Funktion darin besteht, einen niedrigdimensionalen latenten Raum zu schaffen. Interessanterweise ist diese Beobachtung weitgehend unabhängig vom jeweiligen Tokenizer – sie untersuchten Standard-VAE, VAE auf Kachelebene, AE auf Kachelebene und PCA-Encoder auf Kachelebene. Sie fanden heraus, dass DAE durch den niedrigdimensionalen latenten Raum und nicht durch den spezifischen Tokenizer gut repräsentiert wird.
Dank der Wirksamkeit von PCA konnte das Team es vollständig dekonstruieren und schließlich eine einfache Architektur erhalten, die dem klassischen DAE sehr ähnlich ist (siehe Abbildung 1).
Sie verwenden PCA auf Kachelebene, um das Bild in einen latenten Raum zu projizieren, fügen Rauschen hinzu und projizieren es über inverse PCA zurück. Anschließend wird ein Autoencoder darauf trainiert, das entrauschte Bild vorherzusagen.
Sie nennen diese Architektur Latent Denoising Autoencoder (l-DAE), was ein latenter Denoising Autoencoder ist.
Der Dekonstruktionsprozess des Teams enthüllte auch viele andere interessante Eigenschaften zwischen DDM und klassischem DAE.
Zum Beispiel haben sie herausgefunden, dass mit l-DAE auch mit einem einzigen Rauschpegel gute Ergebnisse erzielt werden können (d. h. Rauschplanung ohne DDM). Die Verwendung von mehrstufigem Rauschen wirkt wie eine Form der Datenerweiterung, die von Vorteil sein kann, aber keinen beitragenden Faktor darstellt.
Basierend auf diesen Beobachtungen ist das Team davon überzeugt, dass die Charakterisierungsfähigkeiten von DDM in erster Linie durch entrauschende Prozesse und nicht durch diffusionsgesteuerte Prozesse erreicht werden.
Abschließend verglich das Team seine Ergebnisse auch mit früheren Benchmarks. Einerseits sind die neuen Ergebnisse besser als bisher verfügbare Methoden: Dies ist zu erwarten, da diese Modelle den Ausgangspunkt für den Dekonstruktionsprozess bildeten. Andererseits sind die Ergebnisse der neuen Architektur nicht so gut wie die der grundlegenden kontrastiven Lernmethoden und maskenbasierten Methoden, aber der Abstand wird etwas verringert. Dies zeigt auch, dass es Raum für weitere Forschung in der Forschungsrichtung DAE und DDM gibt.
Hintergrund: Denoising Diffusion Model
Der Ausgangspunkt für diese dekonstruktive Studie ist das Denoising Diffusion Model (DDM).
Was DDM betrifft, lesen Sie bitte die Artikel „Diffusion models beat GANs on image synthesize“ und „Scalable Diffusion Models with Transformers“ sowie verwandte Berichte auf dieser Website „U-Net, das das Diffusionsmodell dominiert, wird ersetzt werden, Xie Saining et al. stellen Transformer vor und schlagen DiT vor》.
Dekonstruktion des Entrauschungs-Diffusionsmodells
Wir konzentrieren uns hier auf seinen Dekonstruktionsprozess – dieser Prozess ist in drei Phasen unterteilt. Die erste besteht darin, den generationenzentrierten Ansatz in DiT dahingehend zu ändern, dass er stärker auf selbstüberwachtes Lernen ausgerichtet ist. Lassen Sie uns als Nächstes den Tokenizer schrittweise dekonstruieren und vereinfachen. Schließlich versuchten sie, so viel wie möglich vom DDM-gesteuerten Design zurückzuentwickeln, um das Modell dem klassischen DAE näher zu bringen.
Umleitung von DDM auf selbstüberwachtes Lernen
Obwohl DDM konzeptionell eine Form von DAE ist, wurde es ursprünglich für Bildgenerierungsaufgaben entwickelt. Viele Designs in DDM sind auf generative Aufgaben ausgerichtet. Einige Designs eignen sich grundsätzlich nicht für selbstüberwachtes Lernen (z. B. mit Kategoriebezeichnungen); andere sind nicht erforderlich, wenn die visuelle Qualität nicht berücksichtigt wird.
In diesem Abschnitt wird das Team den Zweck von DDM auf selbstüberwachtes Lernen anpassen. Tabelle 1 zeigt den Verlauf dieser Phase.
Kategoriekonditionierung entfernen
Der erste Schritt besteht darin, den Kategoriekonditionierungsprozess im Basismodell zu entfernen.
Unerwartet verbessert das Entfernen der Kategoriekonditionierung die Genauigkeit der linearen Sonde erheblich (von 57,5 % auf 62,1 %), aber die Generierungsqualität sinkt erwartungsgemäß erheblich (FID von 11,6 auf 34,2).
Das Team stellte die Hypothese auf, dass die direkte Konditionierung des Modells anhand der Kategoriebezeichnungen den Bedarf des Modells an der Codierung von Informationen über die Kategoriebezeichnungen verringern könnte. Das Entfernen der Kategoriekonditionierung zwingt das Modell dazu, mehr Semantik zu lernen
Dekonstruktion von VQGAN
DiT Der Trainingsprozess des von LDM geerbten VQGAN-Tokenizers verwendet mehrere Verlustbegriffe: automatischer Codierungsrekonstruktionsverlust, KL-Divergenz Regularisierungsverlust, Wahrnehmungsverlust basierend auf einem überwachten VGG Das Netzwerk ist für die ImageNet-Klassifizierung und den gegnerischen Verlust mithilfe des Diskriminators trainiert. Das Team führte Ablationsstudien zu den beiden letztgenannten Verlusten durch, siehe Tabelle 1.
Natürlich wirkt sich die Entfernung beider Verluste auf die Generierungsqualität aus, aber im linearen Erkennungsgenauigkeitsindex wird sie durch die Entfernung des Wahrnehmungsverlusts von 62,5 % auf 58,4 % sinken, während sie durch die Entfernung des gegnerischen Verlusts von 58,4 % ansteigt 59,0 %. Nach der Beseitigung des gegnerischen Verlusts ist der Tokenizer im Wesentlichen ein VAE.
Lärmplanung ersetzen
Das Team untersuchte ein einfacheres Lärmplanungsschema, um selbstüberwachtes Lernen zu unterstützen.
Konkret soll der Signalskalierungsfaktor γ^2_t im Bereich von 1>γ^2_t≥0 linear gedämpft werden. Dadurch kann das Modell mehr Leistung in schärfere Bilder stecken. Dadurch wird die lineare Erkennungsgenauigkeit deutlich von 59,0 % auf 63,4 % erhöht.
Dekonstruktion des Tokenizers
Als nächstes dekonstruieren wir den VAE-Tokenizer durch viele Vereinfachungen. Sie verglichen vier Varianten von Autoencodern als Tokenisierer, von denen jede eine vereinfachte Version der vorherigen ist:
Faltungs-VAE: Dies ist das Ergebnis des vorherigen Dekonstruktionsschritts; ein häufiger Fall ist dieser VAE-Encoder und -Decoder tiefe Faltungs-Neuronale Netze.
VAE auf Kachelebene: Eingaben in Kacheln umwandeln.
AE auf Kachelebene: Der Regularisierungsterm von VAE wird entfernt, wodurch VAE im Wesentlichen zu AE wird und sein Encoder und Decoder beide lineare Projektionen sind.
PCA auf Kachelebene: Eine einfachere Variante, die eine Hauptkomponentenanalyse (PCA) auf dem Kachelraum durchführt. Es lässt sich leicht zeigen, dass PCA einem Sonderfall von AE entspricht.
Da die Arbeit mit Kacheln einfach ist, hat das Team die Filter von drei Tokenizern auf Kachelebene im Kachelraum visualisiert, siehe Abbildung 4.
Tabelle 2 fasst die lineare Erkennungsgenauigkeit von DiT bei Verwendung dieser vier Tokenizer-Varianten zusammen.
Sie beobachteten die folgenden Ergebnisse:
Damit DDM selbstüberwachtes Lernen gut durchführen kann, ist die implizite Dimension des Tokenizers entscheidend.
Für selbstüberwachtes Lernen bietet hochauflösendes, pixelbasiertes DDM eine schlechte Leistung (siehe Abbildung 5).
Werden Sie ein klassischer Entrauschungs-Autoencoder
Das nächste Ziel der Dekonstruktion ist die Erstellung des Modells So nah wie möglich am klassischen DAE. Das bedeutet, alle Aspekte zu entfernen, die das aktuelle PCA-basierte DDM vom klassischen DAE unterscheiden. Die Ergebnisse sind in Tabelle 3 aufgeführt.
Der Ansatz des Teams besteht darin, dem Verlustterm klarerer Daten mehr Gewicht zu verleihen, indem die Verlustfunktion angepasst wird. Dies zeigt, dass die Auswahl gesunken ist Das Vorhersageziel beeinflusst die Qualität der Darstellung.
Eingabeskalierung entfernen
In modernem DDM hat die Eingabe einen Skalierungsfaktor γ_t, aber dies wird in klassischen DAEs nicht oft gemacht
Durch die Einstellung von γ_t ≡ 1 fand das Team heraus dass es eine Genauigkeit von 63,6 % erreichte (siehe Tabelle 3), was besser ist als das Modell mit der Variablen γ_t (62,4 %). Dies zeigt, dass die Genauigkeit der Eingabe im aktuellen Szenario völlig unnötig ist
Verwenden Sie inverse PCA, um den Bildraum zu bearbeiten. Bisher wurde das Modell für alle zuvor untersuchten Einträge (außer Abbildung 5) im impliziten Raum ausgeführt, der vom Tokenizer generiert wurde (Abbildung 2(b)). Ich möchte, dass das DAE direkt im Bildraum arbeitet und dennoch eine hervorragende Positionsgenauigkeit erreicht. Da PCA verwendet wird, kann dies durch die Durchführung dieser Änderung erreicht werden Auf der Eingabeseite (immer noch die Vorhersage der Ausgabe im impliziten Raum) können wir eine Genauigkeit von 63,6 % erreichen (Tabelle 3), und wenn wir sie weiter auf der Ausgabeseite anwenden (d. h. die Vorhersage der Ausgabe im Bildraum mithilfe der inversen PCA, ergibt sich eine Genauigkeit von 63,9). %. Beide Ergebnisse zeigen, dass die Ergebnisse, die durch die Verwendung des inversen PCA im Bildraum erzielt werden, denen ähneln, die im Originalbild vorhergesagt wurden. Obwohl die inverse PCA das vorhergesagte Ziel im Bildraum erhalten kann, ist das Ziel nicht das Originalbild. Dies liegt daran, dass PCA ein verlustbehafteter Encoder für jede reduzierte Dimension ist. Eine natürlichere Lösung besteht darin, das Originalbild direkt vorherzusagen. Wenn das Netzwerk aufgefordert wird, das Originalbild vorherzusagen, besteht das eingeführte „Rauschen“ aus zwei Teilen: additiv Gaußsches Rauschen (seine intrinsische Dimension ist d) und PCA-Rekonstruktionsfehler (seine intrinsische Dimension ist d D − d (D ist 768)) Durch das Design des Teams kann das Originalbild getrennt werden Mit einer linearen Erkennungsgenauigkeit von 64,5 % vorherzusagen ist das Volumen konzeptionell sehr einfach: Seine Eingabe ist ein verrauschtes Bild, bei dem das Rauschen dem impliziten PCA-Raum hinzugefügt wird, und seine Vorhersage ist das ursprüngliche saubere Bild (Abbildung 1). Einzelner GeräuschpegelSchließlich arbeitete das Team aus Neugier auch an einer Variante mit einem einzigen Geräuschpegel. Sie wiesen darauf hin, dass mehrstufiges Rauschen, das durch Rauschplanung erreicht wird, eine Eigenschaft des Diffusionsprozesses von DDM ist. Klassische DAEs erfordern konzeptionell nicht unbedingt mehrstufiges Rauschen. Sie haben den Geräuschpegel σ auf einen konstanten Wert von √(1/3) festgelegt. Unter Verwendung dieses einstufigen Rauschens liegt die Genauigkeit des Modells bei respektablen 61,5 %, was nur eine Verbesserung um drei Prozentpunkte im Vergleich zu den 64,5 % darstellt, die mit mehrstufigem Rauschen erreicht wurden. Die Verwendung von mehrstufigem Rauschen ähnelt einer Form der Datenerweiterung in DAE: Sie ist vorteilhaft, aber kein Wegbereiter. Dies bedeutet auch, dass die Repräsentationskraft von DDM in erster Linie auf entrauschungsgetriebenen Prozessen und nicht auf diffusionsgetriebenen Prozessen beruht.Zusammenfassung
Zusammenfassend hat das Team das moderne DDM dekonstruiert und in ein klassisches DAE verwandelt.Sie haben viele moderne Designs entfernt und konzeptionell nur zwei Designs beibehalten, die vom modernen DDM übernommen wurden: niedrigdimensionaler impliziter Raum (hier wird das Rauschen hinzugefügt) und mehrstufiges Rauschen.
Sie verwenden das letzte Element in Tabelle 3 als letzte DAE-Instanz (dargestellt in Abbildung 1). Sie nennen diese Methode Latent Denoising Autoencoder (latent denoising autoencoder), abgekürzt als l-DAE.
Analyse und Vergleich
Visualisierung impliziten Rauschens
Konzeptionell ist l-DAE eine Form von DAE, die lernt, dem impliziten Raum hinzugefügtes Rauschen zu entfernen. Da PCA einfach ist, kann das im inversen PCA enthaltene Rauschen leicht visualisiert werden.
Abbildung 7 vergleicht das Rauschen, das den Pixeln hinzugefügt wird, und das Rauschen, das dem latenten Raum hinzugefügt wird. Im Gegensatz zum Pixelrauschen ist implizites Rauschen weitgehend unabhängig von der Auflösung des Bildes. Wenn PCA auf Kachelebene als Tokenizer verwendet wird, wird das Muster des impliziten Rauschens hauptsächlich durch die Kachelgröße bestimmt.
Entrauschungsergebnisse
Abbildung 8 zeigt weitere Beispiele für Entrauschungsergebnisse basierend auf l-DAE. Es ist ersichtlich, dass die neue Methode auch bei starkem Rauschen bessere Vorhersageergebnisse erzielen kann.
Datenerweiterung
Es ist zu beachten, dass keines der hier vorgestellten Modelle Datenerweiterung verwendet: Es wird nur das Zuschneiden des Bildmittebereichs verwendet, keine zufällige Größenänderung oder Farbdithering. Das Team führte weitere Untersuchungen durch und testete das endgültige l-DAE mithilfe einer milden Datenerweiterung:
Die Ergebnisse verbesserten sich leicht. Dies weist darauf hin, dass die Repräsentationslernfähigkeiten von l-DAE weitgehend unabhängig von der Datenerweiterung sind. Ein ähnliches Verhalten wurde bei MAE beobachtet, siehe den Aufsatz „Masked autoencoders are scalable vision learners“ von He Kaiming et al., der sich deutlich von der kontrastiven Lernmethode unterscheidet.
Trainingsepoche
Alle vorherigen Experimente basierten auf einem Training mit 400 Epochen. Gemäß dem Design von MAE untersuchte das Team auch das Training von 800 und 1600 Epochen:
Im Gegensatz dazu hatte MAE einen signifikanten Zuwachs (4 %); Es gibt fast keinen Gewinn (0,2 %), wenn die Epochenzahl von 300 auf 600 steigt.
Modellgröße
Alle Vorgängermodelle basierten auf der DiT-L-Variante und ihre Encoder und Decoder waren ViT-1/2L (halbe Tiefe von ViT-L). Das Team trainierte Modelle unterschiedlicher Größe weiter, wobei der Encoder ViT-B oder ViT-L war (der Decoder hat immer die gleiche Größe wie der Encoder):
Sie können sehen: Wenn sich die Modellgröße von ViT-B ändert Bei einer Erweiterung auf ViT-L kann ein enormer Gewinn von 10,6 % erzielt werden.
Vergleichen Sie frühere Basismodelle
Um die Auswirkungen verschiedener Arten selbstüberwachter Lernmethoden besser zu verstehen, führte das Team schließlich einen Vergleich durch. Die Ergebnisse sind in Tabelle 4 aufgeführt.
Interessanterweise schneidet l-DAE im Vergleich zu MAE recht gut ab, mit einem Rückgang von nur 1,4 % (ViT-B) bzw. 0,8 % (ViT-L). Andererseits stellte das Team auch fest, dass MAE beim Training effizienter ist, da es nur unmaskierte Kacheln verarbeitet. Dennoch wurde die Genauigkeitslücke zwischen MAE- und DAE-gesteuerten Methoden weitgehend verringert.
Schließlich stellten sie auch fest, dass Autoencoder-basierte Methoden (MAE und l-DAE) im Vergleich zu kontrastiven Lernmethoden unter diesem Protokoll immer noch Mängel aufweisen, insbesondere wenn das Modell klein ist. Sie sagten schließlich: „Wir hoffen, dass unsere Forschung mehr Aufmerksamkeit auf die Forschung zum selbstüberwachten Lernen mithilfe von Autoencoder-basierten Methoden lenken wird.“
Das obige ist der detaillierte Inhalt vonDas Team von He Kaiming und Xie Saining verfolgte erfolgreich die Erforschung des Dekonstruktions-Diffusionsmodells und entwickelte schließlich den hochgelobten Autoencoder zur Rauschunterdrückung.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!