AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
該文章的第一作者安照崇,目前在哥本哈根大學攻讀博士學位,指導教授為Serge Belongie。他碩士畢業於蘇黎世聯邦理工學院(ETH Zurich),在碩士期間,他在導師Luc Van Gool的實驗室中參與了多個研究計畫。他的主要研究方向包括場景理解、小樣本學習以及多模態學習。
3D場景理解讓人形機器人「看得見」周身場景,使汽車自動駕駛功能能夠即時感知行駛過程中可能出現的情形,從而做出更加智能化的行為和反應。而這一切需要大量3D場景的詳細標註,以便急劇提升時間成本和資源投入。
最近,ETH Zurich等團隊提出了一種Few-shot學習方法,大大改善了這一局限性,並重新審視了目前的FS-PCS任務,在3D場景感知領域引入全新的benchmark,為未來的模型設計與開發開創了新局面。
- 論文連結: https://arxiv.org/abs/2403.00592
3D Few-shot分割結果範例
3D場景
3D場景在自動駕駛、智慧機器人等領域扮演著的三維世界。儘管傳統的全監督學習模型在特定類別的識別上表現出色,但這些模型通常僅限於識別這些預先定義的類別。這就意味著,每當需要識別新的物件類別時,就必須收集大量的3D場景資料並進行詳細標註,這一過程不僅耗時耗力,還極大限制了全監督模型在真實世界中的應用廣度和靈活性。
然而,借助Few-shot學習方法,這一局面得到了顯著改善。 Few-shot學習是一種需要極少標註樣本就能迅速適應新類別的技術。這意味著模型可以透過少量的範例迅速學習和適應新的環境,大大降低了資料收集和處理的成本。這種快速、靈活的學習方式,使得3D場景理解技術更適應快速變化的現實世界,為各種應用場景如自動駕駛和高階機器人系統開啟了新的可能性。因此,研究Few-shot 3D模型能有效推動許多重要任務在更廣大世界的實際應用。
特別的,對於Few-shot 3D point cloud semantic segmentation(FS-PCS)任務,模型的輸入包括support point cloud以及關於新類別的標註(support mask)和quequery cloud。模型需要透過利用support point cloud和support mask來獲得關於新類別的知識並應用於分割query point cloud,預測這些新類別的標籤
,以確保測試時使用的類均為新類,未被模型在訓練時見過。
任務的重新檢視與修正 類別分別為door和板)
🎜🎜🎜🎜🎜🎜 表1. 存在(w/FG)中與不存在前景重新審視了目前FS-PCS任務。發現目前的任務setting有兩個顯著的問題:前景洩漏
:3D任務通常將場景點雲中的密集點採樣後作為模型的均勻輸入。然而FS-PCS所採用的取樣方法並非均勻取樣,而是會對
目標類別(前景區)取樣更多的點,對非目標區域(背景區域)取樣較少的點,這樣得到的輸入點雲會在前景有更密集的點分佈,導致了前景洩漏問題。如圖1所示,第四和第六列的輸入點雲來自於目前的有偏採樣,在前景區域(door或board)顯示出比背景更密集的點分佈,而第三和第五列的輸入使用改正後的一致性取樣,顯示出了均勻的點密度分佈。這個問題使得
新類別的資訊被點雲的密度分佈所洩漏- ,從而允許模型簡單的利用輸入點雲中的密度差異,預測更密集的區域為前景就可以實現良好的few-shot性能,而非依賴學習從support到query的知識轉移能力。因此目前的評估benchmark無法反映過往模型的真實表現。如表1所示,將目前setting中的前景洩漏改正後,過往模型展示出了大的性能下降,顯示了過往模型極大的依賴於密度的差異來實現看似優越的few-shot性能。 第二個問題是稀疏點分佈:目前的setting僅從場景中採樣2048個稀疏點分佈:當前的setting
僅從場景中採樣2048個語義- 作為模型在訓練和測試時的輸入,這樣稀疏的點分佈嚴重限制了輸入場景的語義清晰度。如圖1所示,在第一行第五列中,人類肉眼難以區分出區域中的語意類別door和周圍的類別wall。對第二行也同樣困難來區分目標區域為board類別或是其他的類別如window。這些稀疏的輸入點雲有非常受限的語義資訊,引入了顯著的歧義性,限制了模型有效挖掘場景中語義的能力。
因此,為了改正這些問題,作者提出了
一個新的setting來標準化FS-PCS任務
,採用均勻採樣並增加採樣點數10倍到20480點。如圖1中第三列所示,新setting下的輸入有一致性的點的分佈和更清晰的語意訊息,使得該任務更加貼近於真實的應用場景。
新的模型COSeg
在新改正的setting下,作者引入了一個新的模型叫做Correlation Optimization Segmentation(COSeg)。過往的方法都基於特徵優化範式
,專注於優化support或query的特徵,並將改進後的特徵輸入到無參的預測模組獲得預測結果,可看作
隱式的建模support和query間的correlations。相反,沒有註重於優化特徵,文中提出了
correlation優化範式,直接將support和query間的correlations輸入到有參的模組中,顯式的優化correlations,允許模型直接塑造query和support間的關係,增強了模型的泛化能力。 圖2. ific Multi-prototypical Correlation簡稱為CMC,表示每點及所有類別prototypes之間的關係。隨後將CMC輸入到後續的Hyper Correlation Augmentation(HCA)模組。 HCA模組利用兩個潛在的關係來優化correlations。第一,query點都是互相關聯的,因此他們對於類別prototypes間的correlations也是互相關聯的,由此可得到點和點間的關係,相對應於HCA的前半部分對correlations在點維度做attention。第二,將一個query點分為前景或背景類依賴於該點對於前景和背景prototypes之間的相對correlations,由此可得到前景和背景間的關係
,相對應於HCA的後半部分對correlations在類別維度做attention。
此外,由於few-shot模型在base類別上做訓練,在novel類別上做測試。這些模型會容易被測試場景中存在的熟悉的base類別幹擾,影響novel類別的分割。為了解決這個問題,文中提出對於base類別學習無參的prototypes(稱為base prototypes)。當分割新類別
時,
屬於base類別的query點應該被預測為背景。因此,利用base prototypes,作者在HCA層內部引入Base Prototypes Calibration(BPC)模組來
調整點和背景類別間的correlations,從而緩解base類帶來的干擾。 實驗結果 S benchmark 在改正後的標準setting下評測了先前的方法,創立了標準的benchmark,並且證明了COSeg方法的優越性能,在各個few-shot任務中都實現了最佳的結果。視覺化也清楚地顯示了COSeg實現了更好分割結果。此外,在文中作者也提供了廣泛的消融實驗證明了設計的有效性和correlation優化範式的優越性。 總結
首先,作者確定了目前FS-PCS setting中的兩個關鍵問題(前景洩漏和稀疏點分佈
),這兩個問題降低了對過往方法的評估基準的準確性。為了解決過往setting中的問題,文中引入了一個全新的標準化的setting以及評價benchmark
此外,在標準化FS-PCS setting下,作者提出一個新的correlation優化範式,顯著提高了模型在few-shot任務上的泛化性能。文中的模型COSeg融合了HCA來挖掘有效的點雲關聯資訊和BPC來進行背景預測的調整
文中改正的標準化setting開放了更多在Few-shot 3D分割任務上提升的可能性,同時提出的新correlation優化範式也為未來的模型設計與開發提供了新的方向
。這項工作作為FS-PCS領域的一個新基準,有望激勵更多研究者探索和拓展小樣本3D場景理解的邊界。
作為參考,以下幾點可以作為潛在的研究方向,以進一步推動該領域的發展:在文中的新setting下,雖然COSeg有很大的進步空間,可以改進模型以實現更優的few-shot泛化:如改進prototype的抽取方式[1,2],改進correlation優化模組[3],對每個few-shot任務做針對性的訓練[4]。 解決Base類別幹擾問題也是影響Few-shot效能的關鍵因素,可以從訓練或模型設計角度進行最佳化 [5,6],更好的減少Base類別的干擾。
-
提高模型的訓練和推理效率 [7],特別是在部署到實際應用時,模型的效率也是一個關鍵考慮因素。
- 總結來說,這一領域的前景十分廣闊,而且目前尚處於新興起步階段,對於廣大的研究者而言,無疑是一個充滿希望和機遇的研究領域。
[1] Lang, Chunbo, et al. "Progressive parsing and commonality distillation for few片23 ).[2] Liu, Yuanwei, et al. "Intermediate prototype mining transformer for few-shot semantic segmentation." Advances in Neural Information Processing Systems 35 (2022): 38020-38031. [3] Zhang, Canyu, et al. "Few-shot 3d point cloud semantic segmentation via stratified class-specific attention based transformer network." Proceedings of the AAAI Conference ontention based 轉. .[4] Boudiaf, Malik, et al. "Few-shot segmentation without meta-learning: A good transductive inference is all you need?." Proceedings of the IEEE/Funcfs conference and computerf 您recognition. 2021. [5] Wang, Jiahui, et al. "Few-shot point cloud semantic segmentation via contrastive self-supervision and multi-resol. )。 pattern recognition. 2022.[7] Sun, Yanpeng, et al. "Singular value fine-tuning: Few-shot segmentation requires few-parameters fine-tuning: Few-shot segmentation requires few-parameters fine fine-tuning: Few-shot segmentation 資源): 37484-37496.以上是CVPR 24|ETH Zurich等團隊:重新定義小樣本3D分割任務,新基準開啟廣大提升潛力!的詳細內容。更多資訊請關注PHP中文網其他相關文章!