不需要人工標註,只需要一次訓練,就能讓3D模型理解語言並辨識未標註過的類別。
3D模型分割現在也解放雙手了!
香港大學和位元組夢幻聯動,搞出了個新方法:
不需要人工標註,只需要一次訓練,就能讓3D模型理解語言並識別未標註過的類別。
例如看下面這個例子,未標註的(unannotated)黑板和顯示器,3D模型經過這個方法訓練之後,就能很快「抓準」目標進行劃分。
再比如,給它分別輸入sofa、cough這類同義詞刁難一下,也是輕鬆拿下。
連浴室(bathroom)這類抽象分類也能搞定。
這個新方法名叫PLA (Point-Language Assocation),是一種結合點雲(目標表面特性的海量點集合)和⾃然語⾔的方法。
目前,該論文已經被CVPR 2023接收。
不過話說回來,不需要⼈⼯標註,只進行⼀次訓練,同義詞抽象分類也能辨識…這可是重重buff疊加。
要知道一般方法使用的3D數據和⾃然語⾔並不能夠直接從⽹上免費獲取,往往需要昂貴的⼈⼯標註,而且一般方法也⽆法根據單詞之間的語義聯繫識別新類別。
那PLA又是如何做到的呢?一起來看~
其實說白了,要成功實現3D模型劃分,最重要的一步就是讓3D資料也能理解⾃然語⾔。
專業點來說,就是要給3D點雲引⼊⾃然語⾔的描述。
那要怎麼引入?
鑑於目前2D影像的分割已經有比較成功的方法,研究團隊決定從2D影像著手。
首先,把3D點雲轉換為對應的2D影像,然後作為2D多模態⼤模型的輸⼊,並從中提取對於影像的語⾔描述。
緊接著,利⽤圖⽚和點雲之間的投影關係,圖⽚的語言描述也就自然能夠關聯到3D點雲資料了。
並且,為了相容於不同粒度的3D物體,PLA也提出了多粒度的3D點雲-⾃然語⾔關聯方法。
對於整個3D場景⽽⾔,PLA將場景對應所有圖⽚提取的語⾔描述進⾏總結,並⽤這個總結後的語⾔關聯整個3D場景。
對於每個影像視⻆對應的部分3D場景⽽⾔,PLA直接利⽤影像作為橋樑來關聯對應的3D點雲和語⾔。
對於更細粒度的3D物體⽽⾔,PLA透過⽐較不同影像對應點雲之間的交集和並集,以及語⾔描述部分的交集和並集,提供了⼀種更加細粒度的3D-語⾔關聯⽅式。
這樣一來,研究團隊就能夠得到成對的3D點雲-⾃然語⾔,這一把直接解決了人工標註的問題。
PLA用得到的「3D點雲-⾃然語⾔」對和現有的資料集監督來讓3D模型理解偵測和分割問題定義。
具體來說,就是利⽤對⽐學習來拉近每對3D點雲-⾃然語⾔在特徵空間的距離,並推遠不匹配的3D點雲和⾃然語⾔描述。
講了這麼多原理,那PLA在具體分割任務中表現到底如何?
研究⼈員透過測試3D開放世界模型在未標註類別的表現作為主要衡量標準。
先在ScanNet和S3DIS的語意分割任務上,PLA超過先前的基線⽅法35%~65%。
在實例分割任務中,PLA也有提升,對比之前的方法,PLA提升幅度15%~50%不等。
這個計畫的研究團隊來自香港大學的CVMI Lab和位元組跳動。
CVMI Lab是香港大學的人工智慧實驗室,實驗室2020年2月1日成立。
研究範圍涵蓋了電腦視覺與模式識別,機器學習/深度學習,影像/視訊內容分析以及基於機器智慧的工業大數據分析。
理論⽂地址:https://arxiv.org/pdf/2211.16312.pdf
#項目⽬主⻚:https: //github.com/CVMI-Lab/PLA
以上是3D模型分割新方法解放雙手!不用人工標註,只需一次訓練,未標註類別也能辨識|港大&位元組的詳細內容。更多資訊請關注PHP中文網其他相關文章!