Tiada anotasi manual diperlukan dan hanya satu latihan diperlukan untuk membolehkan model 3D memahami bahasa dan mengenal pasti kategori tidak berlabel.
Segmentasi model 3D kini bebas tangan!
Universiti Hong Kong dan ByteDream telah bekerjasama dan menghasilkan kaedah baharu:
Tiada anotasi manual diperlukan dan hanya satu latihan diperlukan untuk membolehkan model 3D memahami bahasa dan mengenal pasti objek yang tidak diketahui kategori.
Sebagai contoh, lihat contoh di bawah, papan hitam tanpa tanda dan monitor Selepas model 3D dilatih dengan kaedah ini, ia boleh dengan cepat "menangkap" sasaran untuk pembahagian.
Contoh lain, jika anda memasukkan sinonim seperti sofa dan batuk untuk menyusahkan, ia boleh dimenangi dengan mudah.
Malah kategori abstrak seperti bilik mandi boleh diselesaikan.
Kaedah baharu ini dipanggil PLA (Point-Language Assocation), iaitu kaedah yang menggabungkan awan titik (kumpulan titik besar ciri permukaan sasaran) dan bahasa semula jadi. .
Pada masa ini, kertas kerja ini telah diterima oleh CVPR 2023.
Tetapi setelah berkata demikian, tiada anotasi manual diperlukan, hanya satu latihan dilakukan dan klasifikasi abstrak sinonim juga boleh dikenali... Ini ialah superposisi berbilang buff .
Anda mesti tahu bahawa data 3D dan bahasa semula jadi yang digunakan oleh kaedah umum tidak boleh diperoleh terus daripada Internet secara percuma, dan selalunya memerlukan anotasi manual yang mahal, dan kaedah umum tidak boleh berdasarkan sambungan semantik antara perkataan. Kenal pasti kategori baharu.
Jadi bagaimana PLA melakukannya? Mari kita lihat~
Malah, secara terang-terangan, untuk berjaya melaksanakan pembahagian model 3D, langkah yang paling penting ialah menjadikan data 3D memahami bahasa semula jadi.
Secara profesional, ia adalah untuk memperkenalkan penerangan bahasa semula jadi ke dalam awan titik 3D.
Bagaimana untuk memperkenalkannya?
Memandangkan pada masa ini terdapat kaedah yang agak berjaya untuk membahagikan imej 2D, pasukan penyelidik memutuskan untuk bermula dengan imej 2D.
Mula-mula, tukar awan titik 3D kepada imej 2D yang sepadan, kemudian gunakannya sebagai input model besar berbilang modal 2D dan ekstrak perihalan bahasa imej daripadanya.
Seterusnya, menggunakan hubungan unjuran antara imej dan awan titik, penerangan bahasa imej secara semula jadi boleh dikaitkan dengan data awan titik 3D.
Selain itu, untuk serasi dengan objek 3D dengan butiran berbeza, PLA turut mencadangkan kaedah korelasi bahasa semula jadi awan titik 3D berbilang butiran.
Untuk keseluruhan adegan 3D, PLA meringkaskan perihalan bahasa yang diekstrak daripada semua imej yang sepadan dengan pemandangan dan menggunakan bahasa ringkasan ini untuk mengaitkan keseluruhan pemandangan 3D.
Untuk bahagian pemandangan 3D yang sepadan dengan setiap paparan imej, PLA secara langsung menggunakan imej sebagai jambatan untuk mengaitkan awan dan bahasa titik 3D yang sepadan.
Untuk objek 3D yang lebih halus, PLA menyediakan kaedah yang lebih terperinci dengan membandingkan persilangan dan penyatuan antara awan titik yang sepadan bagi imej yang berbeza, serta persilangan dan penyatuan bahagian perihalan bahasa 3D-. pendekatan korelasi bahasa.
Dengan cara ini, pasukan penyelidik boleh mendapatkan sepasang awan titik 3D - bahasa semula jadi, yang secara langsung menyelesaikan masalah anotasi manual.
PLA menggunakan pasangan "3D point cloud-natural language" yang diperoleh dan penyeliaan set data sedia ada untuk membolehkan model 3D memahami definisi masalah pengesanan dan pembahagian.
Secara khusus, ia menggunakan pembelajaran kontras untuk mendekatkan jarak antara setiap pasangan awan titik 3D dan pasangan bahasa semula jadi dalam ruang ciri, dan menolak awan titik 3D yang tidak sepadan dan huraian bahasa semula jadi.
Setelah bercakap tentang begitu banyak prinsip, bagaimanakah prestasi PLA dalam tugasan segmentasi tertentu?
Para penyelidik menguji prestasi model dunia terbuka 3D dalam kategori tidak berlabel sebagai kriteria pengukuran utama.
Pertama, dalam tugas pembahagian semantik ScanNet dan S3DIS, PLA melebihi kaedah garis dasar sebelumnya sebanyak 35% hingga 65%.
Dalam tugas pembahagian instance, PLA juga telah dipertingkatkan Berbanding dengan kaedah sebelumnya, peningkatan PLA berjulat dari 15% hingga 50%.
Pasukan penyelidik projek ini berasal dari Makmal CVMI Universiti Hong Kong dan ByteDance.
Makmal CVMI ialah makmal kecerdasan buatan Universiti Hong Kong yang ditubuhkan pada 1 Februari 2020.
Skop penyelidikan meliputi penglihatan komputer dan pengecaman corak, pembelajaran mesin/pembelajaran mendalam, analisis kandungan imej/video dan analisis data besar industri berdasarkan kecerdasan mesin.
Alamat tesis:https://arxiv.org/pdf/2211.16312.pdf
Halaman utama projek:https: //github .com/CVMI-Lab/PLA
Atas ialah kandungan terperinci Kaedah baharu pembahagian model 3D membebaskan tangan anda! Tiada pelabelan manual diperlukan, hanya satu latihan diperlukan dan kategori tidak berlabel juga boleh dikenali |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!