CVPR 24｜ETH Zurich等團隊：重新定義小樣本3D分割任務，新基準開啟廣大提升潛力！-人工智慧-PHP中文網

CVPR 24｜ETH Zurich等团队：重新定义小样本3D分割任务，新基准开启广阔提升潜力！

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

該文章的第一作者安照崇，目前在哥本哈根大學攻讀博士學位，指導教授為Serge Belongie。他碩士畢業於蘇黎世聯邦理工學院（ETH Zurich），在碩士期間，他在導師Luc Van Gool的實驗室中參與了多個研究計畫。他的主要研究方向包括場景理解、小樣本學習以及多模態學習。

3D場景理解讓人形機器人「看得見」周身場景，使汽車自動駕駛功能能夠即時感知行駛過程中可能出現的情形，從而做出更加智能化的行為和反應。而這一切需要大量3D場景的詳細標註，以便急劇提升時間成本和資源投入。

最近，ETH Zurich等團隊提出了一種Few-shot學習方法，大大改善了這一局限性，並重新審視了目前的FS-PCS任務，在3D場景感知領域引入全新的benchmark，為未來的模型設計與開發開創了新局面。

論文連結: https://arxiv.org/abs/2403.00592
碼連結

3D Few-shot分割結果範例

CVPR 24｜ETH Zurich等团队：重新定义小样本3D分割任务，新基准开启广阔提升潜力！

^技術背景

3D場景

3D場景在自動駕駛、智慧機器人等領域扮演著的三維世界。儘管傳統的全監督學習模型在特定類別的識別上表現出色，但這些模型通常僅限於識別這些預先定義的類別。這就意味著，每當需要識別新的物件類別時，就必須收集大量的3D場景資料並進行詳細標註，這一過程不僅耗時耗力，還極大限制了全監督模型在真實世界中的應用廣度和靈活性。

然而，借助Few-shot學習方法，這一局面得到了顯著改善。 Few-shot學習是一種需要極少標註樣本就能迅速適應新類別的技術。這意味著模型可以透過少量的範例迅速學習和適應新的環境，大大降低了資料收集和處理的成本。這種快速、靈活的學習方式，使得3D場景理解技術更適應快速變化的現實世界，為各種應用場景如自動駕駛和高階機器人系統開啟了新的可能性。因此，研究Few-shot 3D模型能有效推動許多重要任務在更廣大世界的實際應用。

特別的，對於Few-shot 3D point cloud semantic segmentation（FS-PCS）任務，模型的輸入包括support point cloud以及關於新類別的標註（support mask）和quequery cloud。模型

需要透過利用support point cloud和support mask來獲得關於新類別的知識並應用於分割query point cloud，預測這些新類別的標籤

。在模型訓練和測試時使用的
目標類別無重合

，以確保測試時使用的類均為新類，未被模型在訓練時見過。

任務的重新檢視與修正

CVPR 24｜ETH Zurich等团队：重新定义小样本3D分割任务，新基准开启广阔提升潜力！類別分別為door和板）

🎜🎜🎜🎜🎜🎜

^{表1. 存在(w/FG)中與不存在前景重新審視了目前FS-PCS任務。發現目前的任務setting有兩個顯著的問題：}

第一個問題是

前景洩漏

：3D任務通常將場景點雲中的密集點採樣後作為模型的均勻輸入。然而FS-PCS所採用的取樣方法並非均勻取樣，而是會對
目標類別（前景區）取樣更多的點，對非目標區域（背景區域）取樣較少的點

，這樣得到的輸入點雲會在前景有更密集的點分佈，導致了前景洩漏問題。如圖1所示，第四和第六列的輸入點雲來自於目前的有偏採樣，在前景區域（door或board）顯示出比背景更密集的點分佈，而第三和第五列的輸入使用改正後的一致性取樣，顯示出了均勻的點密度分佈。這個問題使得

，從而允許模型簡單的利用輸入點雲中的密度差異，預測更密集的區域為前景就可以實現良好的few-shot性能，而非依賴學習從support到query的知識轉移能力。因此目前的評估
benchmark無法反映過往模型的真實表現。如表1所示，將目前setting中的前景洩漏改正後，過往模型展示出了大的性能下降，顯示了過往模型極大的依賴於密度的差異來實現看似優越的few-shot性能。 第二個問題是稀疏點分佈：目前的setting僅從場景中採樣2048個稀疏點分佈
：當前的setting
作為模型在訓練和測試時的輸入，這樣稀疏的點分佈嚴重限制了輸入場景的語義清晰度。如圖1所示，在第一行第五列中，人類肉眼難以區分出區域中的語意類別door和周圍的類別wall。對第二行也同樣困難來區分目標區域為board類別或是其他的類別如window。這些稀疏的輸入點雲
有非常受限的語義資訊，引入了顯著的歧義性，限制了模型有效挖掘場景中語義的能力。

一個新的setting來標準化FS-PCS任務

，採用均勻採樣並增加採樣點數10倍到20480點。如圖1中第三列所示，新setting下的輸入有一致性的點的分佈和更清晰的語意訊息，使得該任務更加貼近於真實的應用場景。

新的模型COSeg

在新改正的setting下，作者引入了一個新的模型叫做Correlation Optimization Segmentation（COSeg）。過往的方法都基於

特徵優化範式

，專注於優化support或query的特徵，並將改進後的特徵輸入到無參的預測模組獲得預測結果，可看作
隱式的建模support和query間的correlations

。相反，沒有註重於優化特徵，文中提出了

correlation優化範式，直接將support和query間的correlations輸入到有參的模組中，顯式的優化correlations，允許模型直接塑造query和support間的關係，增強了模型的泛化能力。

^{圖2. ific Multi-prototypical Correlation簡稱為CMC，表示}每點及所有類別prototypes之間的關係。隨後將CMC輸入到後續的Hyper Correlation Augmentation（HCA）模組。

HCA模組利用兩個潛在的關係來優化correlations。第一，query點都是互相關聯的，因此他們對於類別prototypes間的correlations也是互相關聯的，由此可得到點和點間的關係，相對應於HCA的前半部分對correlations在點維度做attention。第二，將一個query點分為前景或背景類依賴於該點對於前景和背景prototypes之間的相對correlations，由此可得到

前景和背景間的關係

，相對應於HCA的後半部分對correlations在類別維度做attention。

此外，由於few-shot模型在base類別上做訓練，在novel類別上做測試。這些模型會容易被測試場景中存在的熟悉的base類別幹擾，影響novel類別的分割。為了解決這個問題，文中提出對於base類別學習無參的prototypes（稱為base prototypes）。當

分割新類別

時，
屬於base類別的query點應該被預測為背景

。因此，利用base prototypes，作者在HCA層內部引入Base Prototypes Calibration（BPC）模組來

調整點和背景類別間的correlations，從而緩解base類帶來的干擾。 實驗結果

S benchmark

CVPR 24｜ETH Zurich等团队：重新定义小样本3D分割任务，新基准开启广阔提升潜力！

^{在改正後的標準setting下評測了先前的方法，創立了標準的benchmark，並且證明了COSeg方法的優越性能，在各個few-shot任務中都實現了最佳的結果。視覺化也清楚地顯示了COSeg實現了更好分割結果。此外，在文中作者也提供了廣泛的消融實驗證明了設計的有效性和correlation優化範式的優越性。}

總結

這篇文章的研究在FS-PCS領域的貢獻如下。

首先，作者確定了目前FS-PCS setting中的兩個關鍵問題（

前景洩漏和稀疏點分佈

），這兩個問題降低了對過往方法的評估基準的準確性。為了解決過往setting中的問題，文中引入了

一個全新的標準化的setting以及評價benchmark

。

此外，在標準化FS-PCS setting下，作者提出一個新的correlation優化範式，顯著提高了模型在few-shot任務上的泛化性能。文中的模型

COSeg融合了HCA來挖掘有效的點雲關聯資訊和BPC來進行背景預測的調整

，在所有few-shot任務上實現了最佳的性能。

文中改正的標準化setting開放了更多在Few-shot 3D分割任務上提升的可能性，同時提出的

新correlation優化範式也為未來的模型設計與開發提供了新的方向

。這項工作作為FS-PCS領域的一個新基準，有望激勵更多研究者探索和拓展小樣本3D場景理解的邊界。

作為參考，以下幾點可以作為潛在的研究方向，以進一步推動該領域的發展：

在文中的新setting下，雖然COSeg有很大的進步空間，可以改進模型以實現更優的few-shot泛化：如改進prototype的抽取方式[1,2]，改進correlation優化模組[3]，對每個few-shot任務做針對性的訓練[4]。

解決Base類別幹擾問題也是影響Few-shot效能的關鍵因素，可以從訓練或模型設計角度進行最佳化 [5,6]，更好的減少Base類別的干擾。

提高模型的訓練和推理效率 [7]，特別是在部署到實際應用時，模型的效率也是一個關鍵考慮因素。
總結來說，這一領域的前景十分廣闊，而且目前尚處於新興起步階段，對於廣大的研究者而言，無疑是一個充滿希望和機遇的研究領域。

參考連結：

[1] Lang, Chunbo, et al. "Progressive parsing and commonality distillation for few片23 ).

^{[2] Liu, Yuanwei, et al. "Intermediate prototype mining transformer for few-shot semantic segmentation." Advances in Neural Information Processing Systems 35 (2022): 38020-38031.}

^{[3] Zhang, Canyu, et al. "Few-shot 3d point cloud semantic segmentation via stratified class-specific attention based transformer network." Proceedings of the AAAI Conference ontention based 轉. .}

^{[4] Boudiaf, Malik, et al. "Few-shot segmentation without meta-learning: A good transductive inference is all you need?." Proceedings of the IEEE/Funcfs conference and computerf 您recognition. 2021.}

^{[5] Wang, Jiahui, et al. "Few-shot point cloud semantic segmentation via contrastive self-supervision and multi-resol. )。 pattern recognition. 2022.}

^{[7] Sun, Yanpeng, et al. "Singular value fine-tuning: Few-shot segmentation requires few-parameters fine-tuning: Few-shot segmentation requires few-parameters fine fine-tuning: Few-shot segmentation 資源): 37484-37496.}

以上是CVPR 24｜ETH Zurich等團隊：重新定義小樣本3D分割任務，新基準開啟廣大提升潛力！的詳細內容。更多資訊請關注PHP中文網其他相關文章！