無需標註海量數據,目標偵測新範式OVD讓多模態AGI又前進一步
目標偵測是電腦視覺中一個非常重要的基礎任務,與常見的影像分類/ 辨識任務不同,目標偵測需要模型在給出目標的類別之上,進一步給出目標的位置和大小訊息,在CV 三大任務(辨識、偵測、分割)中處於承上啟動的關鍵地位。
目前大火的多模態 GPT-4 在視覺能力上只具備目標辨識的能力,還無法完成更高難度的目標偵測任務。而辨識出影像或影片中物體的類別、位置和大小信息,是現實生產中眾多人工智慧應用的關鍵,例如自動駕駛中的行人車輛識別、安防監控應用中的人臉鎖定、醫學影像分析中的腫瘤定位等等。
已有的目標偵測方法如YOLO 系列、R-CNN 系列等目標偵測演算法在科學研究人員的不斷努力下已經具備很高的目標偵測精度與效率,但由於現有方法需要在模型訓練前就定義好待檢測目標的集合(閉集),導致它們無法檢測訓練集合之外的目標,例如一個被訓練用於檢測人臉的模型就不能用於檢測車輛;另外,現有方法高度依賴人工標註的數據,當需要增加或修改待檢測的目標類別時,一方面需要對訓練數據進行重新標註,另一方面需要對模型進行重新訓練,既費時又費力。
一個可能的解決方案是,收集海量的圖像,並人工標註Box 信息與語義信息,但這將需要極高的標註成本,而且使用海量數據對檢測模型進行訓練也對科學研究工作者提出了嚴峻的挑戰,如資料的長尾分佈問題與人工標註的品質不穩定等因素都將影響偵測模型的效能表現。
發表在CVPR 2021 的文章OVR-CNN [1] 提出了一個全新的目標偵測範式:開放詞集目標偵測(Open-Vocabulary Detection,OVD,也稱為開放世界目標偵測),來因應上文提到的問題,即面向開放世界未知物體的偵測場景。
OVD 由於能夠在無需人工擴充標註資料量的情況下識別並定位任意數量和類別目標的能力,自提出後吸引了學術界與工業界的持續關注,也為經典的目標偵測任務帶來了新的活力與新的挑戰,並有望成為目標偵測的未來新典範。
具體地,OVD 技術不需要人工標註海量的圖片來增強檢測模型對未知類別的檢測能力,而是透過將具有良好泛化性的無類別(class- agnostic)區域偵測器與經過大量無標註資料訓練的跨模態模型結合,透過影像區域特徵與待偵測目標的描述性文字進行跨模態對齊來擴展目標偵測模型對開放世界目標的理解能力。
跨模態和多模態大模型工作近期的發展非常迅速,如CLIP [2]、ALIGN [3] 與R2D2 [4] 等,而它們的發展也促進了OVD 的誕生與OVD 領域相關工作的快速迭代與演化。
OVD 技術涉及兩大關鍵問題的解決:1)如何提升區域(Region) 資訊與跨模態大模型之間的適配;2)如何提升泛類別目標檢測器對新類別的泛化能力。從這兩個角度出發,以下將詳細介紹一些 OVD 領域的相關工作。
OVD 基本流程示意[1]
OVD 的基礎概念:OVD 的使用主要涉及到few-shot 和zero-shot 兩大類場景,few-shot 是指有少量人工標註訓練樣本的目標類別,zero-shot 則是指不存在任何人工標註訓練樣本的目標類別。在常用的學術評測資料集 COCO、LVIS 上,資料集會被劃分為 Base 類別和 Novel 類,其中 Base 類別對應 few-shot 場景,Novel 類別對應 zero-shot 場景。如 COCO 資料集包含 65 種類別,常用的評測設定是 Base 集包含 48 種類別,few-shot 訓練中只使用這 48 個類別。 Novel 集包含 17 種類別,在訓練時完全不可見。檢定指標主要參考 Novel 類別的 AP50 數值進行比較。
論文1:Open-Vocabulary Object Detection Using Captions
#論文網址:https://arxiv.org/pdf/2011.10678.pdf
程式碼位址:https://github.com/ alirezazareian/ovr-cnn
OVR-CNN 是CVPR 2021 的Oral-Paper,也是OVD 領域的開山之作。它的二階段訓練範式,影響了後續許多的 OVD 工作。如下圖所示,第一階段主要使用image-caption pairs 對視覺編碼器進行預訓練,其中藉助BERT (參數固定) 來產生詞掩碼,並與加載ImageNet 預訓練權重的ResNet50 進行弱監督的Grounding 匹配,作者認為弱監督會讓匹配陷入局部最優,於是加入多模態Transformer 進行詞掩碼預測來增加穩健性。
第二階段的訓練流程與Faster-RCNN 類似,區別點在於,特徵提取的Backbone 來自於第一階段預訓練得到的ResNet50 的1-3 層,RPN 後仍使用ResNet50 的第四層進行特徵加工,隨後將特徵分別用於Box 回歸與分類預測。分類預測是OVD 任務區別於常規檢測的關鍵標誌,OVR-CNN 中將特徵輸入一階段訓練得到的V2L 模組(參數固定的圖向量轉詞向量模組) 得到一個圖文向量,隨後與標籤詞向量組進行匹配,對類別進行預測。在二階段訓練中,主要使用 Base 類別對偵測器模型進行框回歸訓練與類別配對訓練。由於 V2L 模組始終固定,配合目標偵測模型定位能力遷移到新類別,使得偵測模型能夠辨識並定位到全新類別的目標。
如下圖所示,OVR-CNN 在COCO 資料集上的表現遠超之前的Zero-shot 目標檢測演算法。
- 論文2:RegionCLIP: Region-based Language-Image Pretraining
#論文網址:https://arxiv.org/abs/2112.09106
##代碼位址:https://github.com/microsoft/RegionCLIP
OVR-CNN 中使用BERT 與多模態Transfomer 進行iamge-text pairs 預訓練,但隨著跨模態大模型研究的興起,科學研究工作者開始利用CLIP,ALIGN 等更強大的跨模態大模型對OVD 任務進行訓練。偵測器模型本身主要針對Proposals,即區域資訊進行分類識別,發表於CVPR 2022 的RegionCLIP [5] 發現目前已有的大模型,如CLIP,對裁剪區域的分類能力遠低於對原圖本身的分類能力,為了改進這一點,RegionCLIP 提出了一個全新的兩階段OVD 方案。
########################第一階段,資料集主要使用CC3M,COCO-caption 等圖文匹配資料集進行區域層級的蒸餾預訓練。具體地:############1. 將原先存在於長文本中的詞彙進行提取,組成 Concept Pool,進一步形成一組關於 Region 的簡單描述,用於訓練。 ######2. 利用基於 LVIS 預訓練的 RPN 提取 Proposal Regions,並利用原始 CLIP 對提取到的不同 Region 與準備好的描述進行匹配分類,並進一步組裝成偽造的語義標籤。
3. 將準備好的 Proposal Regions 與語意標籤在新的 CLIP 模型上進行 Region-text 對比學習,進而得到一個專精於 Region 資訊的 CLIP 模型。
4. 在預訓練中,新的CLIP 模型也會透過蒸餾策略學習原始CLIP 的分類能力,以及進行全圖層級的image-text 對比學習,來維持新的CLIP 模型對完整影像的表達能力。
第二階段,將得到的預訓練模型在偵測模型上進行遷移學習。
RegionCLIP 進一步拓展了已有跨模態大模型在常規檢測模型上的表徵能力,進而取得了更出色的效能,如下圖所示,RegionCLIP 相比OVR-CNN 在Novel 類別上取得了較大提升。 RegionCLIP 透過一階段的預訓練有效地的提升了區域(Region) 資訊與多模態大模型之間的適應能力,但CORA 認為其使用更大參數規模的跨模態大模型進行一階段訓練時,訓練成本將會非常高昂。
論文3:CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching
- #論文網址:https://arxiv.org/abs/2303.13076
- 程式碼位址:https://github.com/tgxs002/CORA
CORA [6] 已收錄於CVPR 2023,為了克服其所提出目前OVD 任務所面臨的兩個阻礙,設計了一個類別DETR 的OVD 模型。如其文章標題所示,模型主要包含了 Region Prompting 與 Anchor Pre-Matching 兩個策略。前者透過Prompt 技術來優化基於CLIP 的區域分類器所提取的區域特徵,進而緩解整體與區域的分佈差距,後者透過DETR 檢測方法中的錨點預匹配策略來提升OVD 模型對新類別物件定位能力的泛化性。
CLIP 原始視覺編碼器的整體影像特徵與區域特徵之間存在分佈差距,進而導致偵測器的分類精度較低(這點與RegionCLIP 的出發點類似)。因此,CORA 提出 Region Prompting 來適應 CLIP 影像編碼器,提高對區域資訊的分類效能。具體地,首先透過 CLIP 編碼器的前 3 層將整個影像編碼成一個特徵映射,然後由 RoI Align 產生錨點框或預測框,並將其合併成區域特徵。隨後由 CLIP 影像編碼器的第四層進行編碼。為了緩解CLIP 影像編碼器的全圖特徵圖與區域特徵之間存在分佈差距,設定了可學習的Region Prompts 並與第四層輸出的特徵進行組合,進而產生最終的區域特徵用來與文字特徵進行匹配,匹配損失使用了樸素的交叉熵損失,且訓練過程中與CLIP 相關的參數模型全都凍結。
CORA 是一個類別 DETR 的偵測器模型,類似於 DETR,其也使用了錨點預匹配策略來提前產生候選框用於框回歸訓練。具體來說,錨點預匹配是將每個標籤框與最接近的一組錨點框進行匹配,以確定哪些錨點框應該被視為正樣本,哪些應該被視為負樣本。這個配對過程通常是基於 IoU(交並比)進行的,如果錨點框與標籤框的 IoU 超過一個預先定義的閾值,則將其視為正樣本,否則將其視為負樣本。 CORA 顯示該策略能夠有效提高對新類別定位能力的泛化性。
但是使用錨點預先匹配機制也會帶來一些問題,例如至少有一個錨點框與標籤框形成匹配時,才可正常進行訓練。否則,該標籤框將被忽略,同時阻礙模型的收斂。進一步,即使標籤框獲得了較為準確的錨點框,由於 Region Classifier 的識別精度有限,進而導致該標籤框仍可能被忽略,即標籤框對應的類別資訊沒有與基於 CLIP 訓練的 Region Classifier 形成對齊。因此,CORA 以CLIP-Aligned 技術利用CLIP 的語意辨識能力,與預訓練ROI 的定位能力,在較少人力情形下對訓練資料集的影像進行重新標註,使用此技術,可以讓模型在訓練中匹配更多的標籤框。
比起 RegionCLIP,CORA 在 COCO 資料集上進一步提升了 2.4 的 AP50 數值。
總結與展望
OVD 技術不僅與當前流行的跨/ 多模態大模型的發展緊密聯繫,同時也承接了過去科研工作者對目標檢測領域的技術累積,是傳統AI 技術與以通用AI 能力為導向研究的成功銜接。 OVD 更是一項面向未來的全新目標偵測技術,可以預料到的是,OVD 可以偵測並定位任意目標的能力,也將反過來推進多模態大模型的進一步發展,有希望成為多模態AGI發展中的重要基石。當下,多模態大模型的訓練資料來源是網路上的海量粗糙資訊對,即文字影像對或文字語音對。若利用 OVD 技術對原本粗糙的影像資訊進行精準定位,並輔助預測影像的語意資訊來篩選語料,將會進一步提升大模型預訓練資料的質量,進而優化大模型的表徵能力與理解能力。
一個很好的例子就是 SAM (Segment Anything)[7],SAM 不僅讓科研工作者們看到了通用視覺大模型未來方向,也引發了很多思考。值得注意的是,OVD 技術可以很好的接入 SAM,來增強 SAM 的語義理解能力,自動的生成 SAM 需要的 box 信息,從而進一步解放人力。同樣的對於AIGC (人工智慧生成內容),OVD 技術同樣可以增強與用戶之間的交互能力,如當用戶需要指定一張圖片的某一個目標進行變化,或對該目標生成一句描述的時候,可以利用OVD 的語言理解能力與OVD 對未知目標偵測的能力實現對使用者描述對象的精確定位,進而實現更高品質的內容產生。當下 OVD 領域的相關研究蓬勃發展,OVD 技術對未來通用 AI 大模型所能帶來的改變值得期待。
以上是無需標註海量數據,目標偵測新範式OVD讓多模態AGI又前進一步的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

多模態文件理解能力新SOTA!阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰,提出了一系列解決方案。話不多說,先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式:不同樣式的圖表都可以:更細節的文字識別和定位也能輕鬆搞定:還能對文檔理解給出詳細解釋:要知道,“文檔理解”目前是大語言模型實現落地的一個重要場景,市面上有許多輔助文檔閱讀的產品,有的主要透過OCR系統進行文字識別,配合LLM進行文字理

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的
