目前,雖然在人體全身姿態與體型估計(EHPS, Expressive Human Pose and Shape estimation)方面已經取得了很大的研究進展,但是最先進的方法仍然受限於訓練資料集的限制
最近,南洋理工大學S-Lab、商湯科技、上海人工智慧實驗室、東京大學和IDEA研究院的研究人員首次提出了針對人體全身姿態與體型估計任務的動捕大模型SMPLer-X。該研究使用了來自不同資料來源的多達450萬個實例對模型進行訓練,在7個關鍵榜單上都取得了最佳性能
SMPLer-X不僅可以捕捉身體動作,還可以輸出臉部和手部動作,並對體型進行估計
論文連結:https://arxiv.org/ abs/2309.17448
專案首頁:https://caizhongang.github.io/projects/SMPLer-X/
#憑藉豐富的數據和龐大的模型,SMPLer-X在各種測試和排行榜上展現出強大的性能,甚至在未知環境中也具備出色的通用性
在數據擴展方面,研究人員對32個3D人體資料集進行了全面的評估和分析,以為模型訓練提供參考
2. 在模型縮放方面,使用視覺大模型來研究增加模型參數量對效能的提升效果
3. 透過微調策略可以將SMPLer-X通用大模型轉變為專用大模型,使其能夠實現進一步的效能提升。
綜上所述,SMPLer-X進行了資料縮放與模型縮放的探索(見圖1),並在32個學術數據集上進行排名,同時在其450萬個實例上進行訓練,在包括AGORA、UBody、EgoBody和EHF在內的7個關鍵榜單上均實現了最佳性能
Figure 1 增大資料量和模型參數量在降低關鍵榜單(AGORA、UBody、EgoBody、3DPW 和EHF)的平均主要誤差(MPE)方面都是有效的
對現有的3D人體資料集進行泛化性研究
研究人員對32個學術資料集進行了排名:為了衡量每個資料集的效能,需要使用該資料集訓練一個模型,並在五個評估資料集上評估模型:AGORA、UBody、EgoBody、3DPW和EHF。
表格中也計算了平均主要誤差(Mean Primary Error, MPE),以便於在各個資料集之間進行簡單比較。
從研究資料集泛化性得到的啟示
透過大量資料集的分析(見圖3),可以得出以下四個結論:
#1. 關於單一資料集的資料量,10萬個實例數量級的資料集用於模型訓練可以得到較高的性價比;
2. 關於資料集的採集場景,In-the-wild資料集的效果最佳。如果只能在室內採集數據,為了提升訓練效果,需要避免使用單一場景的數據
關於數據集的採集,前三名的數據集中有兩個是生成的數據集。近年來,生成資料集展現了強大的效能
關於資料集的標註,偽標籤在訓練中也扮演了非常重要的角色
現今最先進的方法通常只使用少數幾個資料集(例如,MSCOCO、MPII和Human3.6M)進行訓練,而本文研究了使用更多的資料集
在考慮到排名較高的資料集為首選的前提下,我們使用了四種不同的資料量:分別是作為訓練集的5、10、20和32個資料集,總大小分別為75萬、150萬、300萬和450萬個實例
除此之外,研究人員也展示了低成本的微調策略來將通用大模型適應到特定場景。
#上表中展示了部分主要測試,如AGORA測試集(表3)、AGORA驗證集(表4)、EHF(表5)、UBody(表6)、EgoBody-EgoSet(表7)。
此外,研究人員也對動捕大模型的泛化性進行了在ARCTIC和DNA-Rendering兩個測試集上的評估
研究人員希望SMPLer-X能帶來超越演算法設計的啟發,並為學術社群提供強大的全身人體動捕大模型。
程式碼和預訓練模型已經在專案首頁開源,歡迎造訪https://caizhongang.github.io/projects/SMPLer-X/ ,了解更多詳情
以上是SMPLer-X:顛覆七大榜單,呈現首個人體動捕基模型!的詳細內容。更多資訊請關注PHP中文網其他相關文章!