首頁 > 科技週邊 > 人工智慧 > 一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

WBOY
發布: 2023-04-13 10:40:02
轉載
1465 人瀏覽過

本文經AI新媒體量子位元(公眾號ID:QbitAI)授權轉載,轉載請聯絡來源。

隨著光學演算法發展,如今我們用低維感測器也能「捕捉」高維訊號了。

舉個例子,這是我們用2D感測器拍到的一張“照片”,看起來充滿了雜訊資料:

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

然而,正是透過這張「照片」所包含的數據,我們就能還原出一段動態的影片來!

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

聽起來很神奇,但透過一種名為快照壓縮成像(Snapshot Compressive Imaging, SCI )的方法,確實能實現。

這種方法能將高維度資料作為二維測量進行取樣, 從而實現高效地獲取高維度視覺訊號。

以相機為例,雖然它是2D感測器,但如果想辦法在相機鏡頭後面加個數位微鏡裝置測量裝置 (Digital Micromirror Devices,DMD,這是一種能精確控制光源的裝置),就有辦法讓普通的相機對高維度數據進行降維測量,得到簡易的的2D數據,再還原出高維3D的視覺訊號。

例如,普通的相機幀率很低,一秒鐘最多只能拍幾十張照片(假設能拍30張)。

當我們想拍攝高速運動的物體時,只要給普通相機加上這個數位微鏡裝置,它就會沿著時間維度壓縮視訊訊號,每拍到一張照片就能還原出來幾張甚至幾十張照片(也就是還原出來一段影片)

假設我們給數位微鏡裝置預設的壓縮率是10,那麼,現在拍一張照片就能還原出來10張照片(或者說是一段包含了10幀照片的視頻),而相機的幀率也直接翻了10倍,變成一秒能拍300張照片

現在問題來了,要如何從這些含有雜訊的壓縮低維度測量資料中,盡可能有效率地恢復原始高維度訊號呢?

隨著深度學習發展,各種重建演算法也都被提了出來,然而這些演算法重建訊號的準確性和穩定性仍然不夠好。

為此,來自港大、中科院和西湖大學的研究人員,提出了一種用於視頻快照壓縮成像的Deep Equilibrium Models(DEQ)方法,目前已被AAAI 2023收錄:

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

#這種方法不僅提升了重建準確度和穩定性,也進一步優化了記憶體佔用空間— —

演算法在訓練和測試中只需要常數級記憶體,即:在使用深度學習時,它所消耗的記憶體空間不隨網路深度變化(而在使用傳統最佳化方法時,它所消耗的記憶體空間不會隨迭代次數變化)

一起來看看。

快照壓縮成像困難是什麼?

受益於新穎光學硬體和成像演算法的設計,快照壓縮成像(Snapshot Compressive Imaging, SCI)系統可以在一次快照測量中,將高維度資料作為二維測量進行採樣, 從而實現高效地獲取高維度視覺訊號。

如圖1所示,SCI系統可分為兩個部分,硬體編碼與軟體解碼:

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

△圖1. 快照壓縮成像系統使用低維感測器在快照測量中捕獲高維度資料

以拍攝影片為例,透過硬體編碼,SCI系統對視訊資料進行取樣,在時間維度上壓縮;此後,採用演算法來重建原始的高維度視訊資料。

這裡考慮視頻SCI系統,如視頻1所示,視頻上半部分展示的是SCI系統硬體部分得到的壓縮測量,視頻下半部分是使用該論文提出的算法恢復出來的視頻結果。

顯然,整個成像過程中需要求解一個逆問題:如何從含雜訊的壓縮測量中恢復影片

儘管目前已經有許多重建方法可以求解SCI成像的逆問題,但這些方法各有缺陷,如圖2所示:

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

△圖2. SCI重建的現有方法和主要問題

其中,傳統的最佳化演算法(a)效能有限。

而隨著深度學習的發展,端到端的深度網路(b)和unfolding方法(c)雖然能提高效能,但不可避免地隨著層網路深度的增加而遭受不斷增長的記憶體佔用需求,並且需要精心設計模型。

即插即用(PnP)框架(d)雖然享受資料驅動正規化和靈活迭代優化的優點,但是這種演算法必須透過適當的參數設定來保證準確的結果,甚至需要採用一些複雜的策略來獲得令人滿意的性能。

相較於其他方法,論文提出了新演算法DE-RNN和DE-GAP,來確保重建結果的準確性和穩定性,其重建結果的效能可以收斂到一個較高水平,如圖3所示:

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

△圖3. DE-GAP與其他方法重建結果對比

通常來說,以往方法如RNN和PnP的重建結果不穩定,甚至在長期迭代中表現變差。

但DE-GAP重建結果卻能隨著迭代次數的增加而保持效能的提升,並最終收斂到穩定的結果。

這是怎麼做到的?

引入先進模型提升性能

為了解決以往方法存在的問題、實現更先進的SCI重建,這篇論文首次提出了一個新思路—

使用DEQ模型,解決視訊SCI重建的逆問題。

DEQ模型在2019年被首次提出,主要應用於自然語言處理中的大規模長序列語言處理任務。

如圖4所示,DEQ模型可以透過牛頓迭代法等求根方法,在前向傳播和反向傳播的過程中直接求解出不動點,從而僅使用常數級記憶體就等效實現了無窮深網路:

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

△圖4. DEQ模型的求解不動點方法(左)與常數級記憶體佔用(右)

(圖4出自論文:S. Bai et al, “Deep equilibrium models”, NeurIPS 2019.)

##具體來說,這篇論文首次將DEQ模型應用於兩個現有的視訊SCI重建框架:RNN和PnP。

效果也非常不錯,RNN相當於僅使用

常數級記憶體實現了無窮深網絡,PnP等效於實現了無窮多迭代優化步驟,並且在迭代優化過程中直接求解不動點。

如圖5所示,論文為RNN和PnP分別設計了結合DEQ模型的迭代函數,這裡x是重建結果,y是壓縮測量,Φ是測量矩陣:

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

△圖5. RNN和PnP分別結合DEQ模型後的迭代函數

(具體推導過程和前後向傳播的細節請見論文)

實驗結果如何?

論文在六個經典的SCI資料集和真實資料上都進行了實驗,相較以往的方法,整體重建結果都要更好。

如表1顯示,平均而言,這種方法在PSNR實現了大約0.1dB的改善,SSIM實現了約0.04的改善。 SSIM的改進表明,這種方法可以重建具有相對精細結構的圖像:

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

#△表1. 視訊SCI重建的六個經典資料集上不同演算法的PSNR (dB)與SSIM

圖6則是經典資料集上不同演算法的重建結果對比,在一些細節的呈現上更流暢清晰:

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

△圖6

#圖7則是真實資料上不同演算法的重建結果對比,效果相較之下也要更好:

一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法

#△圖7

更多實驗結果可見論文。

目前論文程式碼已開源,有興趣的小夥伴們可以用起來了~

(文末還附上了作者的講解視頻,深入淺出)

論文網址:
#https://www.php.cn/link/b8002139cdde66b87638f7f91d169d96

##程式碼位址:
#https: //www.php.cn/link/fa95123aa5f89781ed4e89a55eb2edcc
#論文解說影片作者:
英文:https://www.bilibili.com/video/BV1X54y1g7D9/
中文:https://www.bilibili.com/video/BV1V54y137QK/
##塑膠粵語:https:/ /www.bilibili.com/video/BV1224y1G7ee/#

以上是一張快照就能還原出一段影片! AAAI 2023論文提出快照壓縮成像新演算法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板