HuggingFace教你怎麼做SOTA視覺模型
前有OpenAI的GPT-4o,後有Google的系列王炸,先進的多模態大模型接連炸場。
其他從業者在震撼之餘,也再次開始思考怎麼追趕這些超級模型了。
在這篇HuggingFace和法國索邦大學的一篇論文中,總結出了建構視覺大模型的關鍵經驗,給開發者指明了一條路。
圖片
這些經驗涵蓋了模型架構選擇、訓練方法、訓練資料等多個面向。作者在多方比較之後給了詳盡的總結,核心要點包括:
- 想把視覺大模型搞好,架構的選擇很重要。
- 語言模型對整體表現的影響,比視覺模組更大。
- 採用分階段預訓練策略,更有利於建構模型能力。
- 訓練資料應包含多種類型,並注意之間的比例平衡。
可以說,HF能夠打造出同規模SOTA的視覺模型Idefics2,背後依賴的都是這些經驗。
Idefics2基於Mistral-7B打造,整體擁有8B的參數量,可以準確辨識出手寫字體。
圖片
這是一篇很好的專業人士評價稱,這是一篇很好的調查報告,對視覺模型開發者很有幫助,但同時也提醒不要當成萬金油來看。
圖片
當然也有人打趣說,什麼架構資料都是浮雲,有GPU才是最關鍵的。
圖片
倒也有些道理,不過玩笑很玩笑,還是來看看HuggingFace都帶給了我們哪些經驗。
來自SOTA模型開發實戰
HuggingFace論文中的這些經驗,來自於視覺模型Idefics2的開發過程。
與前一代Idefics1和Flamingo等同規模前SOTA相比,Idefics2在多個資料集上表現優異,甚至還超過了更大的13B模型。
同時,和在COCO資料集上略勝於Idefics2的MM1相比,Idefics2在每張圖上消耗的token大幅減少。
圖片
從Idefics2的開發實戰當中,HuggingFace帶給我們的經驗至少包含以下幾個面向:
- #backbone和架構的選擇
- 訓練方法和策略
- 資料多樣性和處理策略
語言模型對整體表現影響更大
目前的視覺大模型主要都採用語言模型+視覺編碼器的形式進行開發,作者對二者對整體表現帶來的影響分別進行了評估。
結果顯示,語言模型的品質比視覺模型更重要。
在相同參數量的情況下,使用更好的語言模型(如將Llama-7B替換為Mistral-7B),能夠顯著提升視覺大模型在下游任務上的表現。
而升級視覺編碼器帶來的提升則較為有限,因此在需要權衡時最好的做法是優先選擇更強的語言模型。
圖片
當然這不代表升級視覺編碼器沒有作用,在條件允許的情況下,選用更好的視覺編碼器也能帶來一定的性能提升。
此外還應注意選擇要與下游任務相匹配,例如在文字辨識任務上,應使用支援可變解析度的視覺編碼器;如果任務對推理速度要求很高,可以選擇更輕量級的模型。
以及在實際應用中,推理速度和記憶體佔用也是需要權衡的因素,Idefics2選用的SigLIP-SO400M就在效能和效率之間取得了很好的平衡。
根據需求選擇架構類型
關於架構的選擇,這篇論文討論了常見的完全自回歸和交叉注意力這兩種。
完全自迴歸架構透過自迴歸方式產生每個輸出,考慮了整個序列的依賴關係;
後者則允許模型在處理一種模態時動態地關注另一種模態的不同部分,實現更靈活的模態間交互作用。
在具體工作中,作者發現哪種架構表現較好取決於預先訓練的backbone是否被凍結。
(簡單說,若預訓練backbone參與正式訓練過程則為非凍結,不參與則為凍結)
若未被凍結,則完全自迴歸架構的表現較優,反之則是交叉注意力架構更好。
圖片
至於是否需要對backbone進行凍結,就要看開發者需求的重點了。
在資源有限的條件下,如果需要高性能、對延遲高度敏感,選擇凍結更為合適;
如果希望模型具有更高的靈活性和適應性,則應選擇非凍結的訓練方式。
具體到Idefics2,選擇了不凍結backbone,因此相應地採用了完全自回歸架構。
圖片
訓練階段的經驗
#選擇好適當的架構固然重要,訓練過程同樣也必不可少,在Idefics2在的訓練過程之中,作者總結了這些經驗供我們參考:
一是整體上採用分階段的預訓練策略,初始階段使用較低分辨率的圖像,隨後引入更高分辨率的PDF文檔,這種做法可以逐步建立模型的多種能力。
二是使用Learned Pooling替代直接將影像特徵送入語言模型,這可以大幅減少影像token數量,顯著提升訓練和推理效率,也帶來了效能的提升。
三是資料增強,一種方法是在訓練時將圖像切分成多個子圖像送入模型,可以在推理時用計算時間換取更強的性能,這在文本識別等任務上尤為有效,不過並非所有圖片都需要這樣處理。
四是在指令微調階段使用更多元的資料和任務,可以提升模型的泛化和穩健性。
此外為了穩定訓練,當預訓練的單模態backbone參與訓練(非凍結)時,作者也使用了LoRA技術來適應預訓練參數。
資料的多樣性和處理策略
除了訓練過程本身,所選用的資料也會對模型的表現造成重大影響。
從收集階段開始,就應注意要選擇多種類型的數據,如Idefics2就使用的數據就包括三類-圖文對齊的文檔(如網頁)、圖像-文字對(如圖片標題),以及有OCR標註的PDF文件。
對於各類別資料所佔的比例,也應依實際需求進行適當平衡,而非簡單等分。
至於資料規模,則是在條件允許的情況下多多益善,當然應注意過濾掉低品質資料。
當然收集只是獲得訓練資料的一個步驟,想把模型訓練好,還需要進行一定的加工處理。
對不同類型的數據採用不同的預處理和增強策略,例如對於OCR數據,使用更高解析度的圖片是必要的,其他數據則可以使用較低解析度。
這其中需要注意的是,處理圖像時要保留原始的寬高比和分辨率,可以在提高模型適應性的同時大幅節省訓練和推理的計算開銷。
如果你認為這些經驗對你有所啟發,可以讀讀原論文了解更多詳情,也歡迎在評論區交流你的開發經驗。
論文網址:https://www.php.cn/link/52c8b8d56837155b4870fc2658b676f0
以上是HuggingFace教你怎麼做SOTA視覺模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

寫在前面今天我們探討下深度學習技術如何改善在複雜環境中基於視覺的SLAM(同時定位與地圖建構)表現。透過將深度特徵提取和深度匹配方法相結合,這裡介紹了一種多功能的混合視覺SLAM系統,旨在提高在諸如低光條件、動態光照、弱紋理區域和嚴重抖動等挑戰性場景中的適應性。我們的系統支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺SLAM與深度學習方法結合,以啟發其他研究。透過在公共資料集和自採樣資料上的廣泛實驗,展示了SL-SLAM在定位精度和追蹤魯棒性方面優

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
