Dieser Artikel wird mit Genehmigung von AI New Media Qubit (öffentliche Konto-ID: QbitAI) nachgedruckt. Bitte wenden Sie sich für einen Nachdruck an die Quelle.
Mit der Entwicklung optischer Algorithmen können wir nun hochdimensionale Signale mit niedrigdimensionalen Sensoren „erfassen“.
Zum Beispiel ist dies ein „Foto“, das wir mit einem 2D-Sensor aufgenommen haben, das voller verrauschter Daten aussieht:
Durch die in diesem „Foto“ enthaltenen Daten können wir jedoch ein wiederherstellen dynamisches Video!
Es klingt magisch, aber es kann tatsächlich durch eine Methode namens Snapshot Compressive Imaging (Snapshot Compressive Imaging, SCI) erreicht werden.
Mit dieser Methode können hochdimensionale Daten als zweidimensionale Messung abgetastet werden, wodurch eine effiziente Erfassung hochdimensionaler visueller Signale erreicht wird.
Nehmen Sie eine Kamera als Beispiel, obwohl es sich um einen 2D-Sensor handelt, wenn Sie eine Möglichkeit finden, ein digitales Mikrospiegelgerät-Messgerät hinter dem Kameraobjektiv anzubringen (Digital Micromirror Devices, DMD), ist dies ein Gerät, das genau kann Steuern der Lichtquelle ) gibt es eine Möglichkeit, mit gewöhnlichen Kameras Dimensionsreduktionsmessungen an hochdimensionalen Daten durchzuführen, einfache 2D-Daten zu erhalten und dann hochdimensionale visuelle 3D-Signale wiederherzustellen.
Zum Beispiel ist die Bildrate einer gewöhnlichen Kamera sehr niedrig und sie kann nur ein paar Dutzend Fotos pro Sekunde aufnehmen (vorausgesetzt, sie kann 30 Fotos aufnehmen).
Wenn wir sich schnell bewegende Objekte aufnehmen möchten, wird dieses digitale Mikrospiegelgerät, solange wir es zu einer gewöhnlichen Kamera hinzufügen, „das Videosignal entlang der Zeitdimension komprimieren“ und jedes Mal, wenn ein Foto aufgenommen wird, mehrere Frames oder sogar Dutzende Frames von Fotos (das heißt, ein Video wird wiederhergestellt) . Angenommen, die voreingestellte Komprimierungsrate für das digitale Mikrospiegelgerät beträgt 10. Wenn Sie jetzt ein Foto aufnehmen, können 10 Fotos
(oder ein Video mit 10 Einzelbildern) wiederhergestellt werden, und die Kamera hat auch eine direkte Erhöhung der Bildrate um das Zehnfache, und es können 300 Fotos in einer Sekunde aufgenommen werden.Jetzt stellt sich die Frage, wie man aus diesen komprimierten niedrigdimensionalen Messdaten, die Rauschen enthalten, das ursprüngliche hochdimensionale Signal möglichst effizient wiederherstellen kann. Mit der Entwicklung des Deep Learning wurden verschiedene Rekonstruktionsalgorithmen vorgeschlagen. Allerdings sind die Genauigkeit und Stabilität der durch diese Algorithmen rekonstruierten Signale immer noch nicht gut genug.
Zu diesem Zweck haben Forscher derHong Kong University, der Chinese Academy of Sciences und der Westlake University
eine Deep Equilibrium Models(DEQ)
-Methode für die Komprimierung von Video-Schnappschüssen vorgeschlagen, die in AAAI 2023 aufgenommen wurde:
Diese Methode verbessert nicht nur die Rekonstruktionsgenauigkeit und -stabilität, sondern optimiert auch den Speicherbedarf weiter –
Der Algorithmus benötigt während des Trainings und Tests nur
Speicher auf konstantem Niveau, das heißt: Bei Verwendung von Deep Learning ist dies der Fall Der verbrauchte Speicherplatzändert sich nicht mit der Netzwerktiefe
(während sich bei Verwendung herkömmlicher Optimierungsmethoden der verbrauchte Speicherplatz nicht mit der Anzahl der Iterationen ändert) . Lass uns einen Blick darauf werfen. Was ist die Schwierigkeit bei der Snapshot-Komprimierung?
Dank der Entwicklung neuartiger optischer Hardware und Bildgebungsalgorithmen kann das Snapshot Compressive Imaging (SCI)-System hochdimensionale Daten als zweidimensionale Messung in einer Snapshot-Messung erfassen und so eine effiziente Erfassung hochdimensionaler Daten erreichen visuelles Signal. Wie in Abbildung 1 dargestellt, kann das SCI-System in zwei Teile unterteilt werden, Hardware-Kodierung und Software-Dekodierung:
△ Abbildung 1. Das Snapshot-komprimierte Bildgebungssystem verwendet niedrigdimensionale Sensoren, um hochdimensionale Daten zu erfassen bei Schnappschussmessungen
Wir betrachten hier das Video-SCI-System, wie in Video 1 gezeigt. Der obere Teil des Videos zeigt die vom Hardware-Teil des SCI-Systems erhaltenen Komprimierungsmessungen und der untere Teil des Videos zeigt die mit dem wiederhergestellten Videoergebnisse Algorithmus, der in der Arbeit vorgeschlagen wird.
Offensichtlich muss der gesamte Bildgebungsprozess ein umgekehrtes Problem lösen:Obwohl es viele Rekonstruktionsmethoden gibt, die das umgekehrte Problem der SCI-Bildgebung lösen können, weist jede dieser Methoden ihre eigenen Mängel auf, wie in Abbildung 2 dargestellt:
△Abbildung 2. Bestehende Methoden der SCI-Rekonstruktionsmethoden und Hauptprobleme
Unter ihnen weist der traditionelle Optimierungsalgorithmus (a) eine begrenzte Leistung auf.
Mit der Entwicklung von Deep Learning, End-to-End Deep Networks (b) und Entfaltungsmethoden (c) können sie zwar die Leistung verbessern, leiden aber zwangsläufig unter einem wachsenden Gedächtnis, wenn die Tiefe des Layer-Netzwerks zunimmt. Belegungsanforderungen und das Modell muss sorgfältig entworfen werden.
Plug and Play(PnP)Framework(d)Obwohl dieser Algorithmus die Vorteile der datengesteuerten Regularisierung und der flexiblen iterativen Optimierung nutzt, muss er durch geeignete Parametereinstellungen genaue Ergebnisse gewährleisten und erfordert sogar einige komplexe Strategien, um zufriedenstellende Ergebnisse zu erzielen Leistung.
Im Vergleich zu anderen Methoden schlägt das Papier neue Algorithmen DE-RNN und DE-GAP vor, um die Genauigkeit und Stabilität der Rekonstruktionsergebnisse sicherzustellen. Die Leistung der Rekonstruktionsergebnisse kann auf ein höheres Niveau konvergieren, wie in Abbildung 3 dargestellt Gezeigt:
△ Abbildung 3. Vergleich der Rekonstruktionsergebnisse zwischen DE-GAP und anderen Methoden
Generell sind die Rekonstruktionsergebnisse früherer Methoden wie RNN und PnP instabil und die Leistung verschlechtert sich langfristig sogar Iterationen.
Allerdings können die Ergebnisse der DE-GAP-Rekonstruktion die Leistungsverbesserung aufrechterhalten, wenn die Anzahl der Iterationen zunimmt, und schließlich zu einem stabilen Ergebnis konvergieren.
Wie geht das?
Um die Probleme früherer Methoden zu lösen und eine fortgeschrittenere SCI-Rekonstruktion zu erreichen, schlägt dieser Artikel erstmals eine neue Idee vor –
Verwendung des DEQ-Modells zur Lösung des inversen Problems Frage zur Video-SCI-Rekonstruktion.
Das DEQ-Modell wurde erstmals 2019 vorgeschlagen und wird hauptsächlich bei umfangreichen Sprachverarbeitungsaufgaben mit langen Sequenzen in der Verarbeitung natürlicher Sprache verwendet.
Wie in Abbildung 4 gezeigt, kann das DEQ-Modell den Fixpunkt im Prozess der Vorwärtsausbreitung und Rückausbreitung durch Wurzelfindungsmethoden wie die Newton-Iterationsmethode direkt lösen und so effektiv Unendlichkeit erreichen, indem nur Speicher auf konstanter Ebene verwendet wird :
△ Abbildung 4. Festpunktmethode zur Lösung des DEQ-Modells (links) und Speichernutzung auf konstantem Niveau (rechts)
(Abbildung 4 stammt aus dem Artikel: S. Bai et al., „ Deep Equilibrium Models“, NeurIPS 2019.)
In diesem Artikel wird das DEQ-Modell zum ersten Mal auf zwei bestehende Video-SCI-Rekonstruktions-Frameworks angewendet: RNN und PnP.
Der Effekt ist auch sehr gut, wenn ein unendlich tiefes Netzwerk nur mit Speicher auf konstantem Niveau realisiert wird.
Wie in Abbildung 5 gezeigt, entwirft das Papier iterative Funktionen in Kombination mit dem DEQ-Modell für RNN bzw. PnP, wobei x das Rekonstruktionsergebnis, y die Kompressionsmessung und Φ die Messmatrix ist: △Abbildung 5. Die iterativen Funktionen von RNN und PnP in Kombination mit dem DEQ-Modell(Einzelheiten zum spezifischen Ableitungsprozess sowie zur Vorwärts- und Rückwärtsausbreitung finden Sie im Dokument)
Was sind die experimentellen Ergebnisse? In der Arbeit wurden Experimente mit sechs klassischen SCI-Datensätzen und realen Daten durchgeführt. Im Vergleich zu früheren Methoden sind die Rekonstruktionsergebnisse insgesamt besser. Wie in Tabelle 1 gezeigt, erreicht diese Methode im Durchschnitt eine Verbesserung des PSNR um etwa 0,1 dB und eine Verbesserung des SSIM um etwa 0,04. Die Verbesserung von SSIM zeigt, dass diese Methode Bilder mit relativ feinen Strukturen rekonstruieren kann: △ Tabelle 1. PSNR (dB) und SSIM verschiedener Algorithmen an sechs klassischen Datensätzen der Video-SCI-Rekonstruktion Abbildung 6 Es handelt sich um einen Vergleich der Rekonstruktionsergebnisse verschiedener Algorithmen an klassischen Datensätzen und die Darstellung einiger Details ist flüssiger und klarer:△Abbildung 6
Abbildung 7 ist ein Vergleich der Rekonstruktionsergebnisse verschiedener Algorithmen anhand realer Daten, und der Effekt ist im Vergleich besser:
△Abbildung 7
Mehr experimentelle Ergebnisse können sein Papier gesehen.
Derzeit ist der Papiercode Open Source und interessierte Freunde können ihn verwenden~
(Am Ende des Artikels ist auch das Erklärungsvideo des Autors angehängt, in dem die ausführlichen und einfachen Dinge erklärt werden)
Papieradresse:
https://www.php.cn/link/b8002139cdde66b87638f7f91d169d96
Codeadresse:
https ://www.php.cn/link /fa95123aa5f89781ed4e89a55eb2edcc
Erklärvideo des Autors:
Englisch: https://www. bilibili.com/video /BV1X54y1g7D9/
Chinesisch: https://www.bilibili.com/video/BV1V54y137QK/
Plastisches Kantonesisch: https://www.bilibili.com/video/BV122 4y1G7ee/
Das obige ist der detaillierte Inhalt vonEin Schnappschuss kann ein Video wiederherstellen! Das AAAI-Papier von 2023 schlägt einen neuen Algorithmus für die Snapshot-Komprimierung der Bildgebung vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!