In den letzten Jahren wurden große Fortschritte auf dem Gebiet der Bildgenerierung erzielt, insbesondere bei der Text-zu-Bild-Generierung: Solange wir Text verwenden, um unsere Gedanken zu beschreiben, kann KI neuartige und realistische Bilder erzeugen.
Aber tatsächlich können wir noch einen Schritt weiter gehen – der Schritt der Umwandlung von Ideen im Kopf in Text kann entfallen und die Entstehung von Bildern kann direkt durch Gehirnaktivität (wie z. B. EEG-Aufzeichnung (Elektroenzephalogramm)) gesteuert werden.
Diese „Thinking to Image“-Generierungsmethode hat breite Anwendungsaussichten. Beispielsweise kann es die Effizienz des künstlerischen Schaffens erheblich verbessern und Menschen dabei helfen, flüchtige Inspirationen einzufangen. Es kann auch möglich sein, die Träume von Menschen nachts zu visualisieren. Es kann sogar in der Psychotherapie eingesetzt werden, um autistischen Kindern und Patienten mit Sprachstörungen zu helfen.
Kürzlich haben Forscher der Tsinghua University Shenzhen International Graduate School, des Tencent AI Lab und des Pengcheng Laboratory gemeinsam eine Forschungsarbeit zum Thema „Thinking to Image“ veröffentlicht, bei der vorab trainierte Text-zu-Bild-Modelle (wie Stable Diffusion) verwendet wurden. Die leistungsstarken Generierungsfunktionen erzeugen hochwertige Bilder direkt aus EEG-Signalen.
Bilder
Papieradresse: https://arxiv.org/pdf/2306.16934.pdf
Projektadresse: https://github.com/bbaaii/DreamDiffusion
Einige neuere verwandte Forschungen (wie MinD-Vis) versuchen, visuelle Informationen auf der Grundlage von fMRT (Signalen der funktionellen Magnetresonanztomographie) zu rekonstruieren. Sie haben gezeigt, dass es möglich ist, die Gehirnaktivität zur Rekonstruktion hochwertiger Ergebnisse zu nutzen. Diese Methoden sind jedoch noch weit von der idealen Nutzung von Gehirnsignalen für eine schnelle und effiziente Erstellung entfernt. Dies hat hauptsächlich zwei Gründe:
Erstens sind fMRT-Geräte nicht tragbar und erfordern die Bedienung durch Fachpersonal, daher ist die Erfassung von fMRT-Signalen sehr schwierig schwierig;
Zweitens sind die Kosten für die fMRT-Datenerfassung hoch, was den Einsatz dieser Methode in der tatsächlichen Kunstschaffung stark behindern wird.
Im Gegensatz dazu ist EEG eine nicht-invasive, kostengünstige Methode zur Aufzeichnung der elektrischen Aktivität des Gehirns, und es gibt mittlerweile tragbare kommerzielle Produkte auf dem Markt, die EEG-Signale empfangen können.
Aber es gibt immer noch zwei große Herausforderungen bei der Erzeugung von „Gedanken-zu-Bildern“:
1) EEG-Signale werden mit nicht-invasiven Methoden erfasst und sind daher von Natur aus verrauscht. Darüber hinaus sind die EEG-Daten begrenzt und individuelle Unterschiede können nicht ignoriert werden. Wie kann man also unter so vielen Einschränkungen effektive und robuste semantische Darstellungen aus EEG-Signalen erhalten?
2) Text- und Bildräume in Stable Diffusion sind aufgrund der Verwendung von CLIP und des Trainings an einer großen Anzahl von Text-Bild-Paaren gut aufeinander abgestimmt. Allerdings haben EEG-Signale ihre eigenen Eigenschaften und ihr Raum unterscheidet sich deutlich von Text und Bildern. Wie lassen sich EEG-, Text- und Bildräume auf begrenzte und verrauschte EEG-Bildpaare ausrichten?
Um die erste Herausforderung anzugehen, schlägt diese Studie vor, große Mengen an EEG-Daten zum Trainieren von EEG-Darstellungen zu verwenden, anstatt nur seltene EEG-Bildpaare. Diese Studie verwendet eine maskierte Signalmodellierungsmethode, um fehlende Token basierend auf kontextuellen Hinweisen vorherzusagen.
Im Gegensatz zu MAE und MinD-Vis, die die Eingabe als zweidimensionales Bild behandeln und räumliche Informationen maskieren, berücksichtigt diese Studie die zeitlichen Eigenschaften des EEG-Signals und befasst sich eingehend mit der Semantik hinter den zeitlichen Veränderungen im menschlichen Gehirn . Diese Studie blockierte zufällig einen Teil der Token und rekonstruierte diese blockierten Token dann im Zeitbereich. Auf diese Weise ist der vorab trainierte Encoder in der Lage, ein tiefes Verständnis der EEG-Daten verschiedener Personen und unterschiedlicher Gehirnaktivitäten zu entwickeln.
Für die zweite Herausforderung optimieren frühere Lösungen das Modell der stabilen Diffusion normalerweise direkt, indem sie eine kleine Anzahl verrauschter Datenpaare für das Training verwenden. Es ist jedoch schwierig, eine genaue Ausrichtung zwischen Gehirnsignalen (z. B. EEG und fMRT) und Textraum zu erlernen, indem SD nur durchgängig durch den endgültigen Bildrekonstruktionsverlust feinabgestimmt wird. Daher schlug das Forschungsteam den Einsatz zusätzlicher CLIP-Überwachung vor, um die Ausrichtung von EEG-, Text- und Bildräumen zu erreichen.
Konkret verwendet SD selbst den Text-Encoder von CLIP, um Texteinbettungen zu generieren, was sich stark von den maskierten vorab trainierten EEG-Einbettungen der vorherigen Stufe unterscheidet. Nutzen Sie den Bild-Encoder von CLIP, um umfangreiche Bildeinbettungen zu extrahieren, die gut auf die Texteinbettungen von CLIP abgestimmt sind. Diese CLIP-Bildeinbettungen wurden dann verwendet, um die EEG-Einbettungsdarstellung weiter zu verfeinern. Daher können die verbesserten EEG-Funktionseinbettungen gut mit den Bild- und Texteinbettungen von CLIP abgestimmt werden und eignen sich besser für die SD-Bilderzeugung, wodurch die Qualität der generierten Bilder verbessert wird.
Basierend auf den beiden oben genannten sorgfältig entwickelten Lösungen schlägt diese Forschung eine neue Methode DreamDiffusion vor. DreamDiffusion generiert hochwertige und realistische Bilder aus Elektroenzephalogramm-Signalen (EEG).
Bilder
Im Einzelnen besteht DreamDiffusion hauptsächlich aus drei Teilen:
1) Maskieren Sie das Signal-Vortraining, um einen effektiven und robusten EEG-Encoder zu erreichen;
2) Verwenden Sie vorab trainierte Stable Diffusion und begrenzte EEG-Bildpaare zur Feinabstimmung;
3) Verwenden Sie den CLIP-Encoder, um EEG-, Text- und Bildräume auszurichten.
Zuerst nutzten die Forscher EEG-Daten mit viel Rauschen und nutzten Maskensignalmodellierung, um den EEG-Encoder zu trainieren und Kontextwissen zu extrahieren. Der resultierende EEG-Encoder wird dann verwendet, um über einen Kreuzaufmerksamkeitsmechanismus bedingte Merkmale für eine stabile Diffusion bereitzustellen.
Bilder
Um die Kompatibilität der EEG-Funktionen mit Stable Diffusion zu verbessern, richteten die Forscher das EEG, den Text und das Bild weiter aus, indem sie während der Feinabstimmung den Abstand zwischen der EEG-Einbettung und der CLIP-Bildeinbettung verringerten Prozess. Eingebetteter Raum.
Vergleich mit Brain2Image
Die Forscher verglichen die Methode in diesem Artikel mit Brain2Image. Brain2Image verwendet traditionelle generative Modelle, nämlich Variational Autoencoder (VAEs) und generative Adversarial Networks (GANs), für die Konvertierung von EEG in Bilder. Allerdings liefert Brain2Image nur Ergebnisse für wenige Kategorien und keine Referenzimplementierung.
Vor diesem Hintergrund führte diese Studie einen qualitativen Vergleich mehrerer im Brain2Image-Papier vorgestellter Kategorien durch (d. h. Flugzeuge, Kürbislaternen und Pandas). Um einen fairen Vergleich zu gewährleisten, verwendeten die Forscher dieselbe Bewertungsstrategie wie im Brain2Image-Artikel beschrieben und zeigen die mit den verschiedenen Methoden generierten Ergebnisse in Abbildung 5 unten.
Die erste Zeile der folgenden Abbildung zeigt die von Brain2Image generierten Ergebnisse, und die letzte Zeile wird von DreamDiffusion generiert, der von den Forschern vorgeschlagenen Methode. Es ist ersichtlich, dass die von DreamDiffusion erzeugte Bildqualität deutlich höher ist als die von Brain2Image, was auch die Wirksamkeit dieser Methode bestätigt.
Bilder
Ablationsexperiment
Die Rolle des Vortrainings: Um die Wirksamkeit eines groß angelegten EEG-Daten-Vortrainings zu demonstrieren, wurden in dieser Studie ungeschulte Encoder zum Trainieren verwendet Validieren Sie mehrere Modelle. Eines der Modelle war identisch mit dem vollständigen Modell, während das andere Modell nur zwei EEG-Kodierungsschichten hatte, um eine Überanpassung an die Daten zu vermeiden. Während des Trainingsprozesses wurden die beiden Modelle mit bzw. ohne CLIP-Überwachung trainiert. Die Ergebnisse sind in den Spalten 1 bis 4 des Modells in Tabelle 1 aufgeführt. Es ist ersichtlich, dass die Genauigkeit des Modells ohne Vortraining abnimmt.
Maskenverhältnis: In diesem Artikel wird auch die Verwendung von EEG-Daten untersucht, um das optimale Maskenverhältnis für das MSM-Vortraining zu bestimmen. Wie in den Spalten 5 bis 7 des Modells in Tabelle 1 dargestellt, kann ein zu hohes oder zu niedriges Maskenverhältnis die Modellleistung beeinträchtigen. Die höchste Gesamtgenauigkeit wird erreicht, wenn das Maskenverhältnis 0,75 beträgt. Dieses Ergebnis ist von entscheidender Bedeutung, da es darauf hindeutet, dass im Gegensatz zur Verarbeitung natürlicher Sprache, bei der normalerweise niedrige Maskenverhältnisse verwendet werden, hohe Maskenverhältnisse die bessere Wahl sind, wenn MSM im EEG durchgeführt wird.
CLIP-Ausrichtung: Einer der Schlüssel zu dieser Methode besteht darin, die EEG-Darstellung über einen CLIP-Encoder am Bild auszurichten. In dieser Studie wurden Experimente durchgeführt, um die Wirksamkeit dieser Methode zu überprüfen. Die Ergebnisse sind in Tabelle 1 aufgeführt. Es ist zu beobachten, dass die Leistung des Modells erheblich abnimmt, wenn die CLIP-Überwachung nicht verwendet wird. Tatsächlich kann die Verwendung von CLIP zum Ausrichten von EEG-Merkmalen, wie in der unteren rechten Ecke von Abbildung 6 dargestellt, auch ohne vorheriges Training noch zu vernünftigen Ergebnissen führen, was die Bedeutung der CLIP-Überwachung bei dieser Methode unterstreicht.
Bilder
Das obige ist der detaillierte Inhalt vonDas Bild in Ihrem Gehirn kann jetzt in hoher Auflösung wiederhergestellt werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!