Penyelidik dari Universiti Peking telah mencadangkan kaedah anggaran pose objek 6D peringkat kategori baharu, yang merupakan masalah asas dan penting yang digunakan secara meluas dalam bidang seperti robotik, realiti maya dan realiti tambahan. Mereka mencapai keputusan SOTA baharu dalam kertas ini, dan ia telah diterima oleh NeurIPS 2023, persidangan teratas dalam bidang pembelajaran mesin
Anggaran pose objek 6D ialah tugas penting dalam bidang penglihatan komputer, dalam robotik, maya realiti dan penambahan Terdapat banyak aplikasi dalam realiti dan bidang lain. Walaupun kemajuan ketara telah dicapai dalam anggaran pose objek peringkat contoh, ia memerlukan pengetahuan awal tentang ciri objek dan oleh itu tidak boleh digunakan dengan mudah pada objek baharu, yang mengehadkan penggunaan praktikalnya. Untuk menyelesaikan masalah ini, dalam beberapa tahun kebelakangan ini, semakin banyak usaha penyelidikan telah menumpukan pada anggaran pose objek peringkat kategori. Anggaran pose peringkat kategori memerlukan algoritma yang tidak bergantung pada model CAD objek dan boleh digunakan terus pada objek baharu kategori yang sama seperti yang terdapat dalam data latihan.
Pada masa ini, kaedah anggaran pose objek 6D yang digunakan secara meluas boleh dibahagikan kepada dua kategori utama: satu ialah kaedah regresi langsung hujung ke hujung, dan satu lagi kaedah dua peringkat berdasarkan kategori objek sebelumnya . Walau bagaimanapun, kaedah ini semuanya memodelkan masalah sebagai tugas regresi, jadi reka bentuk khas diperlukan untuk menangani masalah berbilang penyelesaian apabila berurusan dengan objek simetri dan objek separa boleh dilihat
Untuk mengatasi cabaran ini, pasukan penyelidik dari Universiti Peking mencadangkan Paradigma anggaran pose objek 6D peringkat kategori mentakrifkan semula masalah sebagai masalah pemodelan pengedaran bersyarat, dengan itu mencapai prestasi optimum terkini. Mereka juga telah berjaya menggunakan kaedah ini untuk tugasan manipulasi robot seperti menuang air seperti yang ditunjukkan dalam video.
Sila klik pautan berikut untuk melihat kertas kerja: https://arxiv.org/abs/2306.10531
Rajah. 1. Sumber masalah penyelesaian berbilang : Objek simetri dan cerapan separa
Pengenalan kaedah
Bagaimana untuk menangani masalah penyelesaian berbilang di atas? Penulis melihat masalah ini sebagai masalah pemodelan pengedaran bersyarat dan mencadangkan kaedah yang dipanggil GenPose, yang menggunakan model resapan untuk menganggarkan pengedaran bersyarat bagi pose objek. Kaedah pertama menggunakan model resapan berasaskan skor untuk menjana calon pose objek. Calon kemudiannya diagregatkan dalam dua langkah: pertama, outlier ditapis keluar melalui anggaran kemungkinan, dan kemudian pose calon yang selebihnya diagregatkan melalui pengumpulan purata. Untuk mengelakkan keperluan untuk pengiraan kamiran yang membosankan apabila menganggar kemungkinan, penulis kajian juga memperkenalkan kaedah latihan model resapan berasaskan tenaga untuk mencapai anggaran kemungkinan hujung ke hujungdinyatakan semula sebagai: Gambar 2 Menunjukkan struktur rangka kerja GenPose
Model penyebaran berasaskan skor digunakan untuk menjana calon pose objek
Kandungan yang ditulis semula: Tujuan langkah ini adalah untuk menyelesaikan masalah berbilang penyelesaian, jadi bagaimana untuk memodelkan taburan kebarangkalian bersyarat bagi pose objek? Penulis menggunakan model resapan berasaskan pecahan dan membina proses resapan berterusan menggunakan VE SDE (persamaan pembezaan stokastik Euler variasi). Semasa proses latihan model, matlamatnya adalah untuk menganggarkan fungsi pecahan bagi taburan sikap bersyarat yang terganggu, dan akhirnya sampel sikap objek calon daripada taburan bersyarat melalui ODE Aliran Kebarangkalian (Persamaan Pembezaan Biasa)
mengikut skor Model resapan menjana calon pose objek, seperti yang ditunjukkan dalam Rajah 3. Ia digunakan untuk meningkatkan ketepatan pengecaman objek Melalui pengedaran bersyarat terlatih, calon pose objek tanpa had boleh dijana. Daripada calon-calon ini, bagaimana untuk mendapatkan pose objek akhir? Kaedah yang paling mudah ialah pensampelan rawak, tetapi kaedah ini mungkin tidak menjamin kestabilan keputusan ramalan. Adakah mungkin untuk mengagregat calon bergambar ini melalui pengumpulan purata? Walau bagaimanapun, kaedah agregasi ini tidak mengambil kira kualiti calon pose dan mudah dipengaruhi oleh outlier. Penulis percaya bahawa kualiti calon pose boleh dipertimbangkan dan diagregatkan melalui anggaran kemungkinan. Khususnya, berdasarkan keputusan anggaran kemungkinan, calon pose objek diisih, outlier dengan anggaran kemungkinan yang lebih rendah ditapis keluar, dan kemudian calon pose yang selebihnya dikumpulkan secara purata untuk mendapatkan hasil anggaran pose teragregat. Walau bagaimanapun, menggunakan model resapan untuk anggaran kemungkinan memerlukan pengiraan kamiran yang kompleks, yang memberi kesan serius kepada kelajuan inferens dan mengehadkan penggunaan praktikalnya. Untuk menyelesaikan masalah ini, penulis mencadangkan untuk melatih model resapan berasaskan tenaga, yang digunakan secara langsung untuk anggaran kemungkinan hujung ke hujung, dengan itu mencapai pengagregatan pantas calon
Rajah 4. Tenaga- model penyebaran berasaskan digunakan untuk anggaran kesamaan Anggaran rawak dan pengagregatan calon pose objek Eksperimen dan keputusan
Pengarang mengesahkan prestasi GenPose pada set data REAL275. Dapat dilihat dengan ketara bahawa GenPose adalah lebih baik daripada GenPose kaedah sebelumnya dalam semua penunjuk, malah Berbanding dengan kaedah yang menggunakan lebih banyak maklumat modal, GenPose masih mempunyai petunjuk besar Jadual 1 menunjukkan kelebihan paradigma anggaran pose objek generatif yang dicadangkan oleh penulis. Rajah 5 ialah hasil visualisasi.
Kandungan yang perlu ditulis semula ialah: perbandingan dengan kaedah lain
Gambar kelima juga menunjukkan kesan visualisasi ramalan yang berbeza🜎
pengarang yang berbezaPengaruh kaedah (pensampelan rawak, pengasingan dan pengagregatan rawak, pengasingan dan pengagregatan berasaskan tenaga, pengasingan dan pengagregatan GT). Keputusan menunjukkan bahawa pemeringkatan menggunakan model tenaga dengan ketara mengatasi kaedah persampelan rawak. Selain itu, model resapan berasaskan tenaga yang dicadangkan oleh pengarang untuk mengagregat calon pose objek juga jauh lebih baik daripada kaedah pengumpulan purata selepas persampelan rawak dan pengisihan rawak Jadual 2. Perbandingan kaedah pengagregatan yang berbeza
Untuk menganalisis kesan dengan lebih baik daripada model tenaga, penulis selanjutnya mengkaji korelasi antara anggaran ralat pose dan tenaga yang diramalkan. Seperti yang ditunjukkan dalam Rajah 4, terdapat korelasi negatif umum antara ralat pose yang diramalkan dan tenaga. Model tenaga menunjukkan prestasi yang lebih baik apabila mengenal pasti postur dengan ralat yang lebih besar, tetapi menunjukkan prestasi yang lebih teruk apabila mengenal pasti postur dengan ralat yang lebih kecil, yang menerangkan sebab tenaga yang diramalkan digunakan untuk mengeluarkan outlier dan bukannya memilih secara langsung yang mempunyai tenaga terbesar
Rajah 6. Analisis korelasi ralat tenaga dan ramalan
Pengarang juga menunjukkan keupayaan kaedah ini dalam generalisasi silang kategori, yang tidak bergantung pada pengetahuan sedia ada kategori dan berprestasi baik merentas kategori juga jauh lebih baik daripada kaedah sebelumnyaJadual 3 menunjukkan kesan generalisasi silang kategori. Tanda miring di sebelah kiri mewakili prestasi apabila kategori ujian dimasukkan dalam set data latihan, dan garis miring di sebelah kanan mewakili prestasi selepas kategori ujian dialih keluar semasa latihan Pada masa yang sama, disebabkan penutupan -proses penjanaan gelung model resapan, unit tunggal dalam artikel Rangka kerja anggaran pose bingkai juga boleh digunakan secara langsung untuk tugas penjejakan pose objek 6D tanpa sebarang reka bentuk khas Kaedah ini mengatasi pose objek 6D yang terkini kaedah pengesanan dalam berbilang penunjuk, dan hasilnya ditunjukkan dalam Jadual 4. . tidak perlu simetri sasaran Tiada reka bentuk khas diperlukan untuk menyelesaikan masalah pelbagai penyelesaian yang disebabkan oleh pemerhatian objek dan separa, dan prestasi SOTA baharu dicapai. Kerja masa hadapan akan memanfaatkan kemajuan terkini dalam model resapan untuk mempercepatkan proses inferens dan mempertimbangkan untuk menggabungkan pembelajaran pengukuhan untuk mencapai anggaran pose objek 6D yang aktif. Pengenalan kepada pasukan penyelidik: Pengarang kajian ini, Dong Hao, ialah penolong profesor, penyelia kedoktoran, sarjana muda seni liberal, dan sarjana Chi Yuan di Universiti Peking di Universiti Peking. Pengarang bersama kertas kerja Zhang Jiyao dan Wu Mingdong ialah pelajar kedoktoran di Universiti Peking, dan penyelia mereka ialah Profesor Dong Hao untuk butiran, sila lihat halaman utama peribadi mereka.
Kandungan yang perlu ditulis semula ialah: Zhang Jiyao dan Wu Mingdong ialah pelajar kedoktoran di Universiti Peking Mereka bersama-sama menulis kertas kerja, dan Encik Dong Hao ialah penyelia mereka. Sila semak halaman utama peribadi mereka untuk maklumat khusus Apa yang perlu ditulis semula ialah: https://jiyao06.github.io/
Atas ialah kandungan terperinci Tajuk baharu: Universiti Peking membuka era baharu: paradigma baharu anggaran pose objek 6D peringkat kategori mencapai keputusan terkini dan terbaik di NeurIPS 2023. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!