この記事はAI New Media Qubit(公開アカウントID:QbitAI)の許可を得て転載していますので、転載については出典元にご連絡ください。
光学アルゴリズムの発展により、低次元のセンサーを使用して高次元の信号を「捕捉」できるようになりました。
たとえば、これは 2D センサーで撮影した「写真」ですが、ノイズの多いデータでいっぱいに見えます:
しかし、この「写真」に含まれるデータを通じて、ダイナミックなビデオを復元することができます。
すごいことのように聞こえますが、Snapshot Compressive Imaging(Snapshot Compressive Imaging、SCI)## と呼ばれる方法を使用します。 # メソッドは実際に実現できます。
この手法は、高次元データを二次元計測値としてサンプリングすることができるため、高次元の視覚信号を効率的に取得することが可能です。 カメラを例に挙げると、2D センサーですが、カメラ レンズの後ろにデジタル マイクロミラー デバイス測定デバイスを追加する方法が見つかったら、 (デジタル マイクロミラー デバイス) 、DMD、これは光源を正確に制御できるデバイスです). 通常のカメラで高次元データの次元削減測定を実行し、単純な 2D データを取得し、高次元を復元できるようにする方法があります。 3D 視覚信号。
たとえば、通常のカメラのフレーム レートは非常に低く、1 秒あたり数十枚の写真しか撮影できません (30 枚の写真を撮影できると仮定します)。高速で移動する物体を撮影したい場合、このデジタルマイクロミラーデバイスを通常のカメラに追加するだけで、
映像信号を時間次元で圧縮することができます。写真を撮るたびに、1 枚の写真で数フレーム、場合によっては数十フレームの写真を復元できます(つまり、ビデオを復元します)。 デジタル マイクロミラー デバイスのプリセット圧縮率が 10 であるとします。すると、今 1 枚の写真を撮影すると、10 枚の写真を復元できます (または 10 フレームの写真を含むビデオ) )、カメラのフレームレートも 10 倍に向上し、
1 秒あたり 300 枚の写真を撮影できます。ここで、ノイズを含む圧縮された低次元測定データから元の高次元信号をできるだけ効率的に復元する方法が問題になります。 ディープラーニングの発展に伴い、さまざまな再構成アルゴリズムが提案されていますが、これらのアルゴリズムによる再構成信号の精度や安定性はまだ十分ではありません。
この目的を達成するために、香港大学、中国科学院、西湖大学
の研究者は、ビデオ スナップショット圧縮イメージングのための深部平衡モデル(DEQ)
手法を提案しました。 、AAAI 2023 に含まれています:
この方法は、再構成の精度と安定性を向上させるだけでなく、メモリ フットプリントをさらに最適化します。
##アルゴリズムは、トレーニングとテスト中に 一定レベルのメモリ
のみを必要とします。つまり、深層学習を使用する場合、消費されるメモリ空間は ネットワークの深さによって変化しません (従来の最適化方法を使用する場合、消費されるメモリ空間は反復回数によって変化しません)。 見に行きましょう。 スナップショット圧縮イメージングの難しさは何ですか? 新しい光学ハードウェアとイメージング アルゴリズムの設計の恩恵を受けて、スナップショット圧縮イメージング
(スナップショット圧縮イメージング、SCI)システムは、1 つのスナップショットで高次元データを 2 次元測定として実行できます。測定サンプリングにより高次元の視覚信号を効率的に取得します。
ビデオ撮影を例に挙げると、ハードウェア エンコードを通じて、SCI システムはビデオ データをサンプリングして圧縮します。時間次元で、その後、アルゴリズムを使用して元の高次元ビデオ データが再構築されます。 ここでは、ビデオ 1 に示すビデオ SCI システムについて考えてみましょう。ビデオの上部は、SCI システムのハードウェア部分によって取得された圧縮測定値を示し、ビデオの下部はビデオの結果を示しています。論文で提案されたアルゴリズムを使用して復元されました。
明らかに、イメージング プロセス全体で、
ノイズの多い圧縮測定からビデオを復元する方法SCI イメージングの逆問題を解決できる再構成方法は数多くありますが、図 2 に示すように、これらの方法にはそれぞれ独自の欠点があります。
##△図 2. SCI 再構成の既存の手法と主な問題点その中で、従来の最適化アルゴリズム(a)
パフォーマンスが制限されています。ディープラーニング、エンドツーエンドディープネットワーク
(b)および展開メソッド(c)の開発により、パフォーマンスは向上しますが、必然的にパフォーマンスは向上します。ネットワークの層の深さは増加し続けるメモリ要件に悩まされており、慎重なモデル設計が必要です。
プラグ アンド プレイ(PnP)フレームワーク(d)データ駆動型の正則化と柔軟な反復最適化の利点を享受しながら、このアルゴリズムは適切なパラメーターを通過する必要があります。正確な結果を保証するには設定が必要であり、満足のいくパフォーマンスを得るにはいくつかの複雑な戦略を採用する必要があります。
他の方法と比較して、この論文では、再構成結果の精度と安定性を保証するための新しいアルゴリズム DE-RNN および DE-GAP を提案します。図 3 に示すように、より高いレベル:
△図 3. DE-GAP と他の手法の再構成結果の比較
一般的に、過去 RNN や PnP などの手法の再構築結果は不安定であり、長期の反復ではパフォーマンスが低下することさえあります。ただし、DE-GAP 再構成の結果は、反復回数が増加してもパフォーマンスの向上を維持でき、最終的には安定した結果に収束します。 ######どうやったの?
パフォーマンスを向上させるための高度なモデルの紹介
従来の方法の問題を解決し、より高度な SCI 再構成を実現するために、この論文では新しいアイデアを初めて提案します---
DEQ モデル
を使用して、ビデオ SCI 再構成の逆問題を解決します。
図 4 に示すように、DEQ モデルは、ニュートンの反復法などの根探索法を通じて順伝播および逆伝播のプロセスで固定点を直接解くことができるため、定数レベルのメモリのみを使用します。
△図 4. DEQ モデルを解くための固定小数点法 (左) と定数レベルのメモリ使用量 (右) ) ) ) )
効果も非常に優れています。RNN は、
定レベル メモリのみを使用して無限に深いネットワークを実現するのと同等です。PnP は、無限に多くの反復最適化ステップを実現するのと同等であり、反復最適化プロセス固定小数点を解決します。 図 5 に示すように、この論文では、RNN と PnP それぞれの DEQ モデルと組み合わせた反復関数を設計しています。ここで、x は再構成結果、y は圧縮測定値、Φ は測定行列です。
△図 5. DEQ モデルとそれぞれ組み合わせた RNN と PnP の反復関数
この論文では、6 つの古典的な SCI データセットと実際のデータを対象に実験を実施しましたが、以前の方法と比較して、全体的な再構成結果はより優れています。
表 1 に示すように、この方法では、平均して PSNR で約 0.1 dB、SSIM で約 0.04 の改善が達成されています。 SSIM の改良により、この方法が比較的微細な構造を持つ画像を再構成できることがわかります。
△表 1. ビデオ SCI 再構成用の 6 つの古典的なデータセットにおけるさまざまなアルゴリズムの PSNR (dB) とSSIM図 6 は、従来のデータ セットに対するさまざまなアルゴリズムの再構成結果の比較であり、一部の詳細がよりスムーズかつ明確に表示されています。#△図 6図 7 は、実際のデータに対するさまざまなアルゴリズムの再構成結果の比較であり、比較すると効果がより優れています。 △図 7その他の実験結果は論文に記載されています。 現在、論文のコードはオープンソース化されており、興味のある友人は利用することができます~ (著者による説明ビデオも記事の最後に添付して説明しています)簡単な用語)##紙のアドレス:
https://www. php.cn/link/b8002139cdde66b87638f7f91d169d96
コードアドレス:
https: //www.php.cn/link/fa95123aa5f89781ed4e89a55eb2edcc 著者による論文説明ビデオ:
英語: https://www.bilibili.com/video/BV1X54y1g7D9/
中国語: https://www.bilibili.com/video/BV1V54y137QK/
## プラスチック広東語: https://www.bilibili.com/video/BV1224y1G7ee/
以上がスナップショットでビデオを復元できる! AAAI 2023 論文では、スナップショット圧縮イメージングの新しいアルゴリズムを提案していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。