Meta發布多用途大模型開源,協助離視覺大一統更進一步
在開源了「分割一切」的 SAM 模型後,Meta 在「視覺基礎模型」的路上越走越遠。
這次,他們開源的是一組名叫 DINOv2 的模型。這些模型能產生高效能的視覺表徵,無需微調就能用於分類、分割、影像檢索、深度估計等下游任務。
這組模型具有以下特徵:
- 使用自監督的方式進行訓練,而不需要大量的標記資料;
- 可以用作幾乎所有CV 任務的骨幹,不需要微調,如圖像分類、分割、圖像檢索和深度估計;
- 直接從圖像中學習特徵,而不依賴文字描述,這可以使模型更好地理解局部資訊;
- 可以從任何影像集合中學習;
- DINOv2 的預訓練版本已經可用,並且可以在一系列任務上媲美CLIP 和OpenCLIP。
- 論文連結:https://arxiv.org/pdf/2304.07193.pdf
- #計畫連結:https://dinov2.metademolab.com/
論文概覽
學習非特定任務的預訓練表示已成為自然語言處理的標準。大家可以「照原樣」使用這些功能(無需微調),而且它們在下游任務上的表現明顯優於特定任務模型的表現。這一成功得益於使用輔助目標對大量原始文本進行預先訓練,例如語言建模或詞向量,這些不需要監督。
隨著 NLP 領域發生這種範式轉變,預計類似的「基礎」模型將出現在電腦視覺中。這些模型應該產生在任何任務上「開箱即用」的視覺特徵,無論是在影像層級(例如影像分類)還是像素層級(例如分割)。
這些基礎模型有很大希望可以集中在文本引導(text-guided)的預訓練上,即使用一種文本監督的形式來指導特徵的訓練。這種形式的文字引導預訓練限制了可以保留的有關圖像的信息,因為標題僅近似於圖像中的豐富信息,並且更精細、複雜的像素級信息可能無法通過此監督被發現。此外,這些圖像編碼器需要已經對齊好的文字 - 圖像語料庫,不能提供其文字對應物的靈活性,也就是說不能只從原始資料中學習。
文字引導預訓練的替代方法是自監督學習,其中特徵僅從圖像中學習。這些方法在概念上更接近語言建模等前置任務,並且可以在影像和像素層級擷取資訊。然而,儘管它們有可能去學習通用特徵,但自監督學習的大部分效果提升都是在小型精編資料集 ImageNet1k 的預訓練背景下取得的。一些研究人員已經嘗試將這些方法擴展到 ImageNet-1k 之外的一些努力,但他們專注於未經篩選的資料集,這通常會導致效能品質顯著下降。這是由於缺乏對數據品質和多樣性的控制,而數據品質和多樣性對於產生良好的結果至關重要。
在這項工作中,研究者探討瞭如果在大量精編資料上進行預訓練,自監督學習是否有可能去學習通用的視覺特徵。它們重新審視了現有的在圖像和 patch 層級學習特徵的判別性自監督方法,例如 iBOT,並在更大資料集下重新考慮他們的一些設計選擇。研究者的大多數技術貢獻都是為了在擴展模型和資料大小時穩定和加速判別性自監督學習而量身定制的。這些改進使他們方法的速度提升到了類似的判別性自監督方法的 2 倍左右,需要的內存減少到了後者的 1/3,使他們能夠利用更長的訓練和更大的 batch size。
關於預訓練數據,他們建立了一個自動 pipeline ,用於從大量未經篩選的圖像集合中過濾和重新平衡數據集。這個靈感來自 NLP 中使用的 pipeline ,其中使用數據相似性而不是外部元數據,並且不需要手動註釋。在處理影像時的一個主要困難是重新平衡概念並且避免在一些主導模式下出現過度擬合。在這項工作中,樸素聚類方法可以很好地解決這個問題,研究人員收集了一個由 142M 圖像組成的小而多樣化的語料庫來驗證他們的方法。
最後,研究者提供了各種預先訓練的視覺模型,稱為 DINOv2,在他們的資料上使用不同的視覺 Transformer(ViT)架構進行訓練。他們發布了所有模型和程式碼,以在任何資料上重新訓練 DINOv2。在擴展時,他們在影像和像素層級的各種電腦視覺基準測試上驗證了 DINOv2 的質量,如圖 2 所示。最後研究者得出結論,單獨的自監督預訓練是學習可遷移凍結特徵的良好候選者,可媲美最好的公開可用的弱監督模型。
資料處理
研究者透過從大量未篩選的資料中檢索與多個精編資料集中的影像接近的影像來組裝他們的精編LVD -142M 資料集。他們在論文中介紹了資料管道中的主要組成部分,包括精選 / 未篩選的資料來源、影像重複資料刪除步驟和檢索系統。整個 pipeline 不需要任何元資料或文本,直接處理圖像,如圖 3 所示。請讀者參閱附錄 A,以了解有關模型方法的更多詳細資訊。
圖 3:資料處理的 pipeline 概述。來自精編和非精編的資料來源的圖像首先被映射到嵌入。然後,非精編的圖像在與標準圖像匹配之前對重複資料刪除。由此產生的組合透過自監督檢索系統進一步豐富擴充了初始資料集。
判別性自監督預訓練
研究人員透過一種判別性的自監督方法學習他們的特徵,該方法可以看作是DINO 和iBOT 損失的結合,並以SwAV 為中心。他們還添加了一個正則化器來傳播特徵和一個簡短的高解析度訓練階段。
高效實現
他們考慮了幾項改進,以在更大範圍內訓練模型。使用 PyTorch 2.0 在 A100 GPU 上訓練模型,該程式碼也可與用於特徵擷取的預訓練模型一起使用。模型的詳細資訊在附錄表 17 中。在相同的硬體下,與 iBOT 實作相比,DINOv2 程式碼僅使用 1/3 的內存,運行速度提高到了前者的 2 倍。
實驗結果
在本節中,研究者將介紹新模型在許多圖像理解任務上的實證評估。他們評估了全局和局部影像表示,包括類別和實例級識別、語義分割、單目深度預測和動作識別。
ImageNet 分類
#其他圖像和影片分類基準
#實例識別
#密集辨識任務
定性結果
以上是Meta發布多用途大模型開源,協助離視覺大一統更進一步的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

恐怖走廊是模擬山羊3之中的一個任務,這個任務要怎麼樣才能夠去完成呢,掌握到詳細的過關方式和對應的流程,能夠完成這個任務的相應挑戰,下面就為大家帶來模擬山羊3恐怖走廊攻略,了解相關的資訊。模擬山羊3恐怖走廊攻略1、首先需要玩家前往地圖左上角的寂靜嶺處。 2.在這裡可以看到一個屋頂上寫著RESTSTOP的房子,玩家需要操作山羊進入這棟房子。 3.進入房間之後,我們先向前直走,然後向右轉,在這裡盡頭有一扇門,我們直接從這裡進去。 4.進入之後同樣是先向前走隨後右轉,在這裡走到門前門會關上,我們需要回頭找到

模擬山羊3是有著經典模擬玩法的遊戲,可讓玩家充分體驗到休閒動作類操作模擬的樂趣,遊戲中還擁有很多特色任務的精彩,其中模擬山羊3帝陵任務是需要玩家找尋到鐘塔上的三個鐘並操作的,有些玩家還不清楚要怎麼弄,下面帶來模擬山羊3帝陵任務攻略流程分享!模擬山羊3帝陵任務攻略流程按照順序敲擊鐘即可。詳細步驟拓展1、首先玩家需要打開地圖到霧丘公墓。 2.然後上到鐘樓上,裡面會有三個鐘。 3.接著按照從大到小的順序,依照222312312熟悉怒敲擊。 4、完成敲擊後即可完成任務,並打開大門以獲得光劍。

要自動化任務和管理多個系統,任務規劃軟體是您武器庫中的寶貴工具,尤其是對於系統管理員而言。 Windows任務規劃程式完美地完成了這項工作,但最近許多人報告說操作員拒絕了請求錯誤。這個問題存在於作業系統的所有迭代中,即使已經廣泛報告和涵蓋,也沒有有效的解決方案。繼續閱讀以找到真正對其他人有用的內容!操作員或管理員拒絕了任務計畫程式0x800710e0中的請求是什麼?任務計劃程式允許在沒有使用者輸入的情況下自動執行各種任務和應用程式。您可以使用它來安排和組織特定應用程式、配置自動通知、幫助傳遞訊息等。它

營救史蒂夫是模擬山羊3中的一個獨特任務,具體需要怎麼做才能夠完成呢,這個任務比較簡單,但是我們需要注意不要理解錯意思,下面就為大家帶來模擬山羊3營救史蒂夫任務攻略,能夠更好的完成相關的任務。模擬山羊3營救史蒂夫任務攻略1、先來到地圖中右下角的溫泉。 2.在來到溫泉邊之後就可以觸發營救史蒂夫的這個任務。 3.注意在溫泉裡有個男人,雖然他也叫史蒂夫,但是並不是這次任務的目標。 4.在這個溫泉裡找到一條叫史蒂夫的魚,並且將其帶上岸,即可完成這個任務。

抖音作為當下最受歡迎的社群媒體平台之一,吸引了大量用戶參與其中。在抖音上,有許多粉絲團任務可供用戶完成,以獲得一定的獎勵和福利。那麼,抖音粉絲團任務在哪裡可以找到呢?一、抖音粉絲團任務在哪裡看?為了找到抖音粉絲團任務,你需要造訪抖音的個人首頁。在主頁上,你會看到一個名為「粉絲團」的選項。點擊這個選項,你就可以瀏覽你所加入的粉絲團和相關任務。在粉絲團任務欄位中,你會看到各種不同類型的任務,例如按讚、留言、分享、轉發等。每個任務都有對應的獎勵和要求,一般來說,完成任務後會獲得一定數量的金幣或經驗值

寫在前面今天我們探討下深度學習技術如何改善在複雜環境中基於視覺的SLAM(同時定位與地圖建構)表現。透過將深度特徵提取和深度匹配方法相結合,這裡介紹了一種多功能的混合視覺SLAM系統,旨在提高在諸如低光條件、動態光照、弱紋理區域和嚴重抖動等挑戰性場景中的適應性。我們的系統支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺SLAM與深度學習方法結合,以啟發其他研究。透過在公共資料集和自採樣資料上的廣泛實驗,展示了SL-SLAM在定位精度和追蹤魯棒性方面優

1介紹神經輻射場(NeRF)是深度學習和電腦視覺領域的一個相當新的範式。 ECCV2020論文《NeRF:將場景表示為視圖合成的神經輻射場》(該論文獲得了最佳論文獎)中介紹了這項技術,該技術自此大受歡迎,迄今已獲得近800次引用[1 ]。此方法標誌著機器學習處理3D資料的傳統方式發生了巨大變化。神經輻射場場景表示和可微分渲染過程:透過沿著相機射線採樣5D座標(位置和觀看方向)來合成影像;將這些位置輸入MLP以產生顏色和體積密度;並使用體積渲染技術將這些值合成影像;此渲染函數是可微分的,因此可以透過

實現任務通用是深度學習基礎模型研究的核心問題,也是近期大模型方向的主要關注點之一。然而,在時間序列領域,各類分析任務的差異較大,既有需要細粒度建模的預測任務,也有需要擷取高層語意資訊的分類任務。如何建構統一的深度基礎模型有效率地完成各類時序分析任務,此前尚未有成型方案。為此,來自清華大學軟體學院的團隊圍繞時序變化建模這一基本問題展開研究,提出了任務通用的時序基礎模型TimesNet,論文被ICLR 2023接收。作者列表:吳海旭*,胡騰戈*,劉雍*,週航,王建民,龍明盛連結:https://ope
