顛覆三觀!谷歌最新研究:用效能差的模型計算「相似度」反而更準?
計算影像之間的相似度是電腦視覺中的開放性問題。
在影像生成火遍全球的今天,如何定義「相似度」,也是評估產生影像真實度的關鍵問題。
雖然當下有一些相對直接的方法來計算影像相似度,例如測量像素上的差異(如FSIM, SSIM),但這種方法獲得的相似性差異和人眼感知到的差異相去深遠。
深度學習興起後,一些研究人員發現一些神經網路分類器,如AlexNet, VGG, SqueezeNet等在ImageNet上訓練後得到的中間表徵可以用作感知相似性的計算。
也就是說,embedding比像素更貼近人對於多張影像相似的感知。
當然,這只是假設。
最近Google發表了一篇論文,專門研究了ImageNet分類器是否能夠更好地評估感知相似度。
論文連結:https://openreview.net/pdf?id=qrGKGZZvH0
#雖然已經有工作在2018年發布的BAPPS資料集基礎上,在第一代ImageNet分類器上研究了感知評分(perceptual scores) ,為了進一步評估準確率和感知評分的相關性,以及各種超參數的影響,論文中增加了對最新ViT模型的研究結果。
準確率越高,感知相似度越差?
眾所周知,透過在ImageNet上的訓練學到的特性可以很好地遷移到許多下游任務,提升下游任務的性能,這也使得在ImageNet預訓練成了一個標準操作。
此外,在ImageNet上取得更高的準確率通常意味著在一組多樣化的下游任務上有更好的性能,例如對破損圖片的穩健性、對out-of-distribution資料的泛化效能和對較小分類資料集的遷移學習。
但在感知相似度計算上,一切好像反過來了。
在ImageNet上獲得高精度的模型反而具有較差的感知分數,而那些成績「中游」的模型在感知相似度任務上表現最好。
ImageNet 64 × 64驗證精度(x 軸) ,64 × 64 BAPPS 資料集上的感知評分(y 軸),每個藍點代表一個ImageNet 分類器
可以看到,更好的ImageNet 分類器在一定程度上實現了更好的感知評分,但超過某一閾值,提高準確度反而會降低感知評分,分類器的準確度適中(20.0-40.0) ,可以獲得最佳的感知評分。
文中同時研究了神經網路超參數對感知分數的影響,如寬度、深度、訓練步數、權重衰減、標籤平滑和dropout
對於每個超參數,存在一個最優精度,提高精度可以改善感知評分,但這個最優值相當低,並且在超參數掃描中很早就可以達到。
除此之外,分類器精確度的提高會導致更差的感知評分。
舉個例子,文中給了感知分數相對於兩個超參數的變化: ResNets中的訓練steps和ViTs中的寬度。
提前停止的ResNets在6, 50和200的不同深度設定下獲得了最佳感知評分
ResNet-50和ResNet -200的感知評分在訓練的前幾個epoch達到最高值,但在峰值後,表現更好的分類器感知評分值下降更為劇烈。
結果顯示,ResNets的訓練與學習率調整可以隨step增加提升模型的準確度。同樣,在峰值之後,模型也表現出與這種逐步提高的精度相符的感知相似度評分逐步下降。
ViTs由應用於輸入影像的一組Transformer區塊組成,ViT模型的寬度是單一Transformer區塊的輸出神經元數,增加寬度可以有效提高模型的精確度。
研究人員透過更換兩個ViT變體的寬度,獲得兩個模型B/8(即Base-ViT模型,patch尺寸為4)和L/4(即Large -ViT模型) ,並評估準確性和感知評分。
結果還是與提前停止的ResNets觀察結果相似,精度較低的較窄的ViT比預設寬度表現得更好。
不過ViT-B/8和ViT-L/4的最佳寬度分別是它們預設寬度的6% 和12% ,論文中還提供了對於其他超參數的更詳細實驗列表,如寬度、深度、訓練步數、權重衰減、標籤平滑和跨ResNet 和ViTs 的dropout。
所以想提升感知相似度,那策略就簡單了,適當降低準確率即可。
透過縮小ImageNet模型來提高感知評分,表格中的值表示透過在具有預設超參數的模型上縮放給定超參數的模型而獲得的改進
根據上述結論,文中提出了一個簡單的策略來改善架構的感知評分:縮小模型來降低準確性,直至達到最佳的感知得分。
在實驗結果中也可以看到,透過在每個超參數上縮小每個模型所獲得的感知評分來改進。除了 ViT-L/4,提前停止可以在所有架構中產生最高的評分改進度,並且提前停止是最有效的策略,不需要進行費時的網格搜尋。
全域感知函數
在先前的工作中,感知相似度函數使用跨影像空間維度的歐氏距離來計算。
這種方式假定了像素之間存在直接對應關係,但這種對應關係可能不適用於彎曲、平移或旋轉的影像。
在這篇文章中,研究人員採用了兩個依賴圖像全局表示的感知函數,即捕捉兩個圖像之間的風格相似性的神經風格遷移工作中的風格損失函數和歸一化的平均池距離函數。
樣式損失函數比較兩張影像之間的通道間cross-correlation矩陣,而平均池函數比較空間平均的全域表示。
全域感知函數一致地改善了兩個網路訓練的預設超參數和ResNet-200作為訓練epoch函數的感知評分
文中也探討了一些假設來解釋精確度和知覺分數之間的關係,並得出了一些額外的見解。
例如,沒有常用的skip連接的模型準確性也與感知評分成反比,與接近輸入的層相比,更接近輸出的層平均具有較低的感知評分。
同時也進一步探討了失真靈敏度(distortion sensitivity)、 ImageNet類別粒度和空間頻率靈敏度。
總之,這篇論文探討了提高分類精度是否會產生更好的感知度量的問題,研究了不同超參數下ResNets和ViTs上精度與感知評分之間的關係,發現感知評分與精確度呈現倒U型關係,其中精確度與感知評分在一定程度上相關,呈現倒U型關係。
最後,文章詳細討論了精確度與感知評分之間的關係,包括skip連接、全局相似函數、失真敏感度、分層感知分數、空間頻率敏感度和ImageNet類別粒度。
雖然對於ImageNet精確度和感知相似度之間的權衡現象的確切解釋仍然是一個謎,但這篇論文向前邁出了第一步。
以上是顛覆三觀!谷歌最新研究:用效能差的模型計算「相似度」反而更準?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

通用矩陣乘法(GeneralMatrixMultiplication,GEMM)是許多應用程式和演算法中至關重要的一部分,也是評估電腦硬體效能的重要指標之一。透過深入研究和優化GEMM的實現,可以幫助我們更好地理解高效能運算以及軟硬體系統之間的關係。在電腦科學中,對GEMM進行有效的最佳化可以提高運算速度並節省資源,這對於提高電腦系統的整體效能至關重要。深入了解GEMM的工作原理和最佳化方法,有助於我們更好地利用現代計算硬體的潛力,並為各種複雜計算任務提供更有效率的解決方案。透過對GEMM性能的優

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的
