Stable Diffusion能超越JPEG等演算法,提高影像壓縮率並保持清晰度?
基於文字的影像生成模型火了,出圈的不只擴散模型,還有開源的Stable Diffusion模型。
最近一位瑞士的軟體工程師Matthias Bühlmann無意間發現,Stable Diffusion不僅能用來產生影像,還可以用來壓縮點陣圖影像,甚至比JPEG和WebP的壓縮率更高。
例如一張美洲駱駝的照片,原圖為768KB,使用JPEG壓縮到5.66KB,而Stable Diffusion可以進一步壓縮到4.98KB ,而且能夠保留更多高解析度的細節以及更少的壓縮偽影,肉眼可見地優於其他壓縮演算法。
不過這種壓縮方式也有缺陷,即不適合壓縮人臉和文字圖像,在某些情況下,甚至會產生一些原圖並不存在內容。
雖然重新訓練一個自編碼器也能做到類似Stable Diffusion的壓縮效果,但使用Stable Diffusion的一個主要優勢在於,有人已經投入了上百萬的資金幫你訓練了一個,你又何必重新花錢訓練一個壓縮模型呢?
Stable Diffusion如何壓縮圖像
擴散模型正在挑戰生成模型的霸主地位,對應的開源Stable Diffusion模型也在機器學習社群中掀起一場藝術革命。
Stable Diffusion由三個訓練後的神經網路串聯得到,即一個變分自編碼器(VAE) ,U-Net模型和一個文字編碼器。
變分自編碼器對影像空間中的影像進行編碼和解碼,從而獲得該影像在潛空間的表徵向量,以一個解析度更低(64x64)具有更高精度(4x32bit)的向量來表示來源影像(3x8或4x8bit的512x512)。
VAE在將影像編碼到潛空間的訓練過程主要依賴自監督學習,即輸入和輸出都是來源影像,因此隨著模型進一步訓練,不同版本的模型的潛空間表徵可能看起來不同。
使用Stable Diffusion v1.4的潛空間表徵透過重新映射和解釋為4通道彩色影像後,看起來就是下圖的中間影像,來源影像中的主要特徵仍然可見。
要注意的是,VAE往返編碼一次並不是無損的。
例如在解碼之後,藍色帶子上的ANNA名字就沒有來源影像那麼清晰了,可讀性顯著降低。
Stable Diffusion v1.4中的變分自編碼器不太擅長表示小文字以及人臉圖像,不知道v1.5版本是否會改善。
Stable Diffusion的主要壓縮演算法就是利用影像的這種潛空間表徵,從短文本描述產生新的影像。
從潛空間表徵的隨機噪聲開始,使用充分訓練的U-Net迭代去除潛空間圖像的噪聲,用一種更簡單的表徵輸出模型認為它在這個噪聲中「看到」的預測,有點像我們在看雲的時候,從不規則的圖形中還原出腦海裡的形狀或面孔。
當使用Stable Diffusion來產生圖像時,這個迭代去噪步驟是由第三個元件,即文字編碼器引導的,該編碼器為U-Net提供關於它應該嘗試在噪音中看到什麼的訊息。
不過對於壓縮任務來說,並不需要文字編碼器,所以實驗過程只創建了一個空字串的編碼用於告訴U-Net在影像重建過程中進行非引導去雜訊。
為了使用Stable Diffusion作為影像壓縮編解碼器,演算法需要有效地壓縮由VAE產生的潛表徵。
在實驗中可以發現,對潛表徵進行下取樣或直接使用現有的有損影像壓縮方法,都會大幅降低重建影像的品質。
但作者發現 VAE 的解碼似乎對潛表徵的量化(quantization)非常有效。
透過從浮點到8位元無符號整數的潛量化進行縮放、拖曳(clamping)和重新映射,只會產生很小的可見重構錯誤。
透過量化8位元的潛表徵,影像表示的資料大小現在是64*64*4*8bit=16kB ,遠小於未壓縮來源影像的512*512*3*8bit=768kB
#如果潛表徵的位數小於8bit,無法產生比較好的效果。
如果對圖像進一步執行調色板(palettizing)和抖動(dithering),則量化效果就會再次提升。
使用256*4*8位元向量和Floyd-Steinberg抖動的潛表徵創建了一個調色板表示,使資料大小進一步壓縮到64*64*8 256*4 *8bit=5kB
潛空間調色盤的抖動會引入噪聲,從而扭曲了解碼結果。但由於Stable Diffusion是基於潛噪聲的去除,所以可以使用U-Net來去除抖動所造成的噪音。
經過4次迭代,重建結果在視覺上非常接近未量化的版本。
雖然資料量大大減少了(來源影像為壓縮影像的155倍大),但效果是非常好的,不過也引入了有些偽影(例如原圖的心形圖案中不存在偽影)。
有趣的是,這種壓縮方案引入的偽影對影像內容的影響比對影像品質的影響更大,而且以這種方式壓縮的影像可能包含這些類型的壓縮偽影。
作者也用zlib對調色盤和索引進行了無損壓縮,在測試樣本中,大多數的壓縮結果都小於5kb,但這種壓縮方法仍然有更多的最佳化空間。
為了評估該壓縮編解碼器,作者沒有使用任何在網路上找到的標準測試圖像,因為網路上的圖像都有可能在Stable Diffusion的訓練集中出現過,而壓縮這類影像可能會導致不公平的對比優勢。
為了盡可能公平地進行比較,作者使用了Python圖像庫中最高品質的編碼器設置,以及使用mozjpeg庫添加了壓縮後的JPG數據的無損數據壓縮。
值得注意的是,雖然Stable Diffusion的結果主觀上看起來比JPG和WebP壓縮的圖像要好得多,但在標準測量指標(如PSNR或SSIM)方面,它們並沒有明顯更好,但也沒有更差。
只是引入的偽影類型不那麼明顯,因為它們對影像內容的影響大於對影像品質的影響。
這種壓縮方法也有一點危險,雖然重建特徵的品質很高,但內容可能會受到壓縮偽影的影響,即使它看起來非常清晰。
例如,在一張測試影像中,雖然Stable Diffusion作為編解碼器在保持影像的品質方面要好得多,甚至連相機顆粒紋理(camera grain)都能保留下來(這是大多數傳統壓縮演算法難以做到的) ,但其內容仍然受到壓縮偽影的影響,像建築物形狀這樣的精細特徵可能會改變。
雖然在JPG壓縮影像中當然不可能比在Stable Diffusion壓縮影像中辨識出更多的真實值,但Stable Diffusion壓縮結果的高視覺品質可能具有欺騙性,因為JPG和WebP中的壓縮偽影更容易識別。
如果你也想動手復現一遍實驗,作者在Colab上開源了程式碼。
程式碼連結:https://colab.research.google.com/drive/1Ci1VYHuFJK5eOX9TB0Mq4NsqkeDrMaaH?usp=sharing
最後,作者表示,文章中設計的實驗仍然是相當淺顯的,但效果仍然令人驚喜,未來仍有很大的改進空間 。
以上是Stable Diffusion能超越JPEG等演算法,提高影像壓縮率並保持清晰度?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

寫在前面&筆者的個人理解目前,在整個自動駕駛系統當中,感知模組扮演了其中至關重要的角色,行駛在道路上的自動駕駛車輛只有通過感知模組獲得到準確的感知結果後,才能讓自動駕駛系統中的下游規控模組做出及時、正確的判斷和行為決策。目前,具備自動駕駛功能的汽車中通常會配備包括環視相機感測器、光達感測器以及毫米波雷達感測器在內的多種數據資訊感測器來收集不同模態的信息,用於實現準確的感知任務。基於純視覺的BEV感知演算法因其較低的硬體成本和易於部署的特點,以及其輸出結果能便捷地應用於各種下游任務,因此受到工業

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

C++sort函數底層採用歸併排序,其複雜度為O(nlogn),並提供不同的排序演算法選擇,包括快速排序、堆排序和穩定排序。

人工智慧(AI)與執法領域的融合為犯罪預防和偵查開啟了新的可能性。人工智慧的預測能力被廣泛應用於CrimeGPT(犯罪預測技術)等系統,用於預測犯罪活動。本文探討了人工智慧在犯罪預測領域的潛力、目前的應用情況、所面臨的挑戰以及相關技術可能帶來的道德影響。人工智慧和犯罪預測:基礎知識CrimeGPT利用機器學習演算法來分析大量資料集,識別可以預測犯罪可能發生的地點和時間的模式。這些資料集包括歷史犯罪統計資料、人口統計資料、經濟指標、天氣模式等。透過識別人類分析師可能忽視的趨勢,人工智慧可以為執法機構

01前景概要目前,難以在檢測效率和檢測結果之間取得適當的平衡。我們研究了一種用於高解析度光學遙感影像中目標偵測的增強YOLOv5演算法,利用多層特徵金字塔、多重偵測頭策略和混合注意力模組來提高光學遙感影像的目標偵測網路的效果。根據SIMD資料集,新演算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在偵測結果和速度之間達到了更好的平衡。 02背景&動機隨著遠感技術的快速發展,高解析度光學遠感影像已被用於描述地球表面的許多物體,包括飛機、汽車、建築物等。目標檢測在遠感影像的解釋中

行動攝影從根本上改變了我們捕捉和分享生活瞬間的方法。智慧型手機的出現,尤其是iPhone,在這一轉變中發揮了關鍵作用。 iPhone以其先進的相機技術和用戶友好的編輯功能而聞名,已成為業餘和經驗豐富的攝影師的首選。 iOS17的推出標誌著這趟旅程中的一個重要里程碑。 Apple的最新更新帶來了一套增強的照片編輯功能,為用戶提供了一個更強大的工具包,將他們的日常快照變成視覺上引人入勝且藝術豐富的圖像。這種技術的發展不僅簡化了攝影過程,還為創意表達開闢了新的途徑,使用戶能夠毫不費力地為他們的照片注入專業氣息

一、58畫像平台建置背景首先和大家分享下58畫像平台的建造背景。 1.傳統的畫像平台傳統的想法已經不夠,建立用戶畫像平台依賴數據倉儲建模能力,整合多業務線數據,建構準確的用戶畫像;還需要數據挖掘,理解用戶行為、興趣和需求,提供演算法側的能力;最後,還需要具備數據平台能力,有效率地儲存、查詢和共享用戶畫像數據,提供畫像服務。業務自建畫像平台和中台類型畫像平台主要區別在於,業務自建畫像平台服務單條業務線,按需定制;中台平台服務多條業務線,建模複雜,提供更為通用的能力。 2.58中台畫像建構的背景58的使用者畫像

寫在前面&筆者的個人理解在自動駕駛系統當中,感知任務是整個自駕系統中至關重要的組成部分。感知任務的主要目標是使自動駕駛車輛能夠理解和感知周圍的環境元素,如行駛在路上的車輛、路旁的行人、行駛過程中遇到的障礙物、路上的交通標誌等,從而幫助下游模組做出正確合理的決策和行為。在一輛具備自動駕駛功能的車輛中,通常會配備不同類型的信息採集感測器,如環視相機感測器、雷射雷達感測器以及毫米波雷達感測器等等,從而確保自動駕駛車輛能夠準確感知和理解周圍環境要素,使自動駕駛車輛在自主行駛的過程中能夠做出正確的決斷。目
