Transformer在大模型領域的地位無可撼動。然而,隨著模型規模的擴展和序列長度的增加,傳統的Transformer架構的限制開始凸顯。幸運的是,Mamba的問世正迅速改變這一現狀。它出色的性能立即引起了AI界的轟動。 Mamba的出現為大規模模型的訓練和序列處理帶來了巨大的突破。它的優勢在AI界迅速蔓延,為未來的研究和應用帶來了巨大的希望。
上週四, Vision Mamba(Vim)的提議已經展現了它成為視覺基礎模型的下一代骨幹的巨大潛力。每隔一天,中國科學院、華為、鵬城實驗室的研究人員提出了 VMamba:一種具有全局感受野、線性複雜度的視覺 Mamba 模型。 這項工作標誌著視覺 Mamba 模型 Swin 時刻的來臨。
#CNN 和視覺Transformer(ViT)是目前最主流的兩類基礎視覺模型。儘管 CNN 具有線性複雜度,ViT 具有更強大的數據擬合能力,然而代價是計算複雜較高。 研究者認為 ViT 之所以擬合能力強,是因為其具有全域感受野和動態權重。受 Mamba 模型的啟發,研究者設計出在線性複雜度下同時具有這兩種優秀性質的模型,即 Visual State Space Model(VMamba)。 大量的實驗證明,VMamba 在各種視覺任務中表現卓越。 如下圖所示,VMamba-S 在 ImageNet-1K 上達到 83.5% 的正確率,比 Vim-S 高 3.2%,比 Swin-S 高 0.5%。
VMamba 的成功關鍵在於採用了S6 模型,這個模型最初是為了解決自然語言處理(NLP)任務而設計的。與 ViT 的注意力機制不同,S6 模型透過將 1D 向量中的每個元素與先前的掃描資訊進行交互,有效地將二次複雜度降低為線性。這種互動方式使得 VMamba 在處理大規模資料時更加有效率。因此,S6 模型的引入為 VMamba 的成功打下了堅實的基礎。
然而,由於視覺訊號(如圖像)不像文字序列那樣具有天然的有序性,因此無法在視覺訊號上簡單地對S6 中的資料掃描方法進行直接應用。為此研究者設計了 Cross-Scan 掃描機制。 Cross-Scan 模組(CSM)採用四向掃描策略,即從特徵圖的四個角落同時掃描(見上圖)。 此策略確保特徵中的每個元素都以不同方向從所有其他位置整合訊息,從而形成全局感受野,又不增加線性計算複雜度。
在 CSM 的基礎上,作者設計了 2D-selective-scan(SS2D)模組。如上圖所示,SS2D 包含了三個步驟:
上圖為本文所提出的 VMamba 結構圖。 VMamba 的整體框架與主流的視覺模型類似,其主要差異在於基本模組(VSS block)中採用的算符不同。 VSS block 採用了上述介紹的 2D-selective-scan 操作,即 SS2D。 SS2D 保證了 VMamba 在線性複雜度的代價下實現全域感受野。
#ImageNet 分類
##透過比較實驗結果不難看出,在相似的參數量和FLOPs 下:
這些結果遠高於 Vision Mamba (Vim) 模型,充分驗證了 VMamba 的潛力。
COCO 目標偵測
#在COOCO 資料集上,VMamba 也保持卓越性能:在fine-tune 12 epochs 的情況下,VMamba-T/S/B 分別達到46.5%/48.2%/48.5% mAP,超過了Swin-T/S/B 達3.8%/3.6%/1.6 % mAP,超過ConvNeXt-T/S/B 達2.3%/2.8%/1.5% mAP。這些結果驗證了 VMamba 在視覺下游實驗中完全 work,展現出了能平替主流基礎視覺模型的潛力。
ADE20K 語意分割
在ADE20K 上,VMamba 也表現出卓越性能。 VMamba-T 模型在 512 × 512 解析度下實現 47.3% 的 mIoU,這個分數超越了所有競爭對手,包括 ResNet,DeiT,Swin 和 ConvNeXt。這種優勢在 VMamba-S/B 模型下依然能夠維持。
有效感受野
VMamba 具有全域的有效感受野,其他模型中只有DeiT 具有這個特性。但值得注意的是,DeiT 的代價是平方級的複雜度,而 VMamaba 是線性複雜度。
輸入尺度縮放
最後,讓我們期待更多基於 Mamba 的視覺模型被提出,並列於 CNNs 和 ViTs,為基礎視覺模型提供第三種選擇。
以上是視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba的詳細內容。更多資訊請關注PHP中文網其他相關文章!