Jadual Kandungan
1 >
2. Pengenalan kepada kaedah EPro-PnP
1. -to-end Untuk latihan, kami mencadangkan
3. Monte Carlo pose loss
4. Regularisasi terbitan untuk penyelesai PnP
3. Rangkaian anggaran pose berdasarkan EPro-PnP
1. Rangkaian korelasi padat untuk anggaran pose 6-DOF
2. Rangkaian korelasi ubah bentuk untuk pengesanan sasaran 3D
4. Keputusan eksperimen
1. set data LineMOD Eksperimen dan perbandingan ketat dengan garis dasar CDPN, keputusan utama adalah seperti di atas. Ia boleh dilihat bahawa dengan menambah kerugian EPro-PnP untuk latihan hujung ke hujung, ketepatan meningkat dengan ketara (+12.70). Teruskan meningkatkan kehilangan penyusunan derivatif, dan ketepatan dipertingkatkan lagi. Atas dasar ini, menggunakan keputusan latihan CDPN asal untuk memulakan dan meningkatkan zaman (mengekalkan jumlah bilangan zaman yang konsisten dengan latihan tiga peringkat lengkap CDPN asal) boleh meningkatkan lagi ketepatan sebahagian daripada kelebihan pra-. latihan CDPN datang daripada latihan tambahan penyeliaan topeng CDPN.
2. Tugas pengesanan sasaran 3D
3. Analisis visual
EPro-PnP mengubah pose optimum asal yang tidak boleh dibezakan kepada ketumpatan kebarangkalian pose yang boleh dibezakan, menjadikan kedudukan berdasarkan pengoptimuman geometri PnP Rangkaian anggaran pose membolehkan latihan hujung ke hujung yang stabil dan fleksibel. EPro-PnP boleh digunakan untuk masalah anggaran pose 3D am Walaupun geometri objek 3D tidak diketahui, titik berkaitan 2D-3D objek boleh dipelajari melalui latihan hujung ke hujung. Oleh itu, EPro-PnP meluaskan kemungkinan reka bentuk rangkaian, seperti rangkaian korelasi ubah bentuk kami yang dicadangkan, yang sebelum ini mustahil untuk dilatih.
Rumah Peranti teknologi AI Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Apr 09, 2023 pm 01:41 PM
Model Penyelidikan kertas

Artikel ini menerangkan kerja kami "EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation" yang memenangi Anugerah Kertas Pelajar Terbaik CVPR 2022. Masalah yang dikaji dalam kertas ini adalah untuk menganggar pose objek dalam ruang 3D berdasarkan imej tunggal. Antara kaedah sedia ada, kaedah anggaran pose berdasarkan pengoptimuman geometri PnP sering mengekstrak titik korelasi 2D-3D melalui rangkaian dalam Walau bagaimanapun, kerana penyelesaian pose yang optimum tidak boleh dibezakan semasa perambatan belakang, adalah sukar untuk menggunakan ralat pose kerana The loss melakukan. latihan rangkaian hujung ke hujung yang stabil, apabila titik korelasi 2D-3D bergantung pada penyeliaan kerugian ejen lain, yang bukan matlamat latihan yang optimum untuk anggaran pose.

Untuk menyelesaikan masalah ini, kami mencadangkan modul EPro-PnP berdasarkan teori, yang mengeluarkan taburan ketumpatan kebarangkalian pose dan bukannya penyelesaian optimum tunggal bagi pose, oleh itu The non -pose optimum yang boleh dibezakan digantikan dengan ketumpatan kebarangkalian yang boleh dibezakan, mencapai latihan hujung ke hujung yang stabil. EPro-PnP sangat serba boleh dan sesuai untuk pelbagai tugas dan data tertentu Ia boleh digunakan untuk menambah baik kaedah anggaran pose berasaskan PnP sedia ada, atau ia juga boleh menggunakan kefleksibelannya untuk melatih rangkaian baharu. Dalam erti kata yang lebih umum, EPro-PnP pada asasnya membawa softmax klasifikasi biasa ke dalam domain berterusan, dan secara teorinya boleh diperluaskan untuk melatih model umum dengan lapisan pengoptimuman bersarang.

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Pautan kertas: https://arxiv.org/abs/2203.13254

Pautan kod: https://github.com/tjiiv-cprg/EPro-PnP

1 >

Kami mengkaji masalah klasik dalam penglihatan 3D: mencari objek 3D berdasarkan imej RGB tunggal. Secara khusus, memandangkan imej yang mengandungi unjuran objek 3D, matlamat kami adalah untuk menentukan transformasi badan tegar daripada sistem koordinat objek kepada sistem koordinat kamera. Transformasi badan tegar ini dipanggil pose objek, dilambangkan sebagai y, yang mengandungi dua bahagian: 1) komponen kedudukan, yang boleh diwakili oleh vektor anjakan 3x1 t, 2) komponen orientasi, yang boleh diwakili oleh putaran 3x3 matriks R bermaksud. Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Untuk menangani masalah ini, kaedah sedia ada boleh dibahagikan kepada dua kategori: tersurat dan tersirat. Kaedah eksplisit juga boleh dipanggil Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

ramalan pose langsung

, iaitu menggunakan rangkaian neural suapan (FFN) untuk mengeluarkan secara terus setiap komponen pose objek, biasanya: 1) meramalkan Kedalaman pose objek, 2) cari kedudukan unjuran 2D titik pusat objek pada imej, 3) ramalkan orientasi objek (kaedah pemprosesan tertentu orientasi mungkin lebih rumit). Menggunakan data imej yang ditandakan dengan pose sebenar objek, fungsi kehilangan boleh direka bentuk untuk menyelia terus hasil ramalan pose, dengan mudah mencapai latihan hujung ke hujung rangkaian. Walau bagaimanapun, rangkaian sedemikian tidak mempunyai kebolehtafsiran dan terdedah kepada pemasangan berlebihan pada set data yang lebih kecil. Dalam tugas pengesanan objek 3D, kaedah eksplisit mendominasi, terutamanya untuk set data yang lebih besar (seperti nuScenes).

Kaedah tersirat ialah kaedah anggaran pose berdasarkan pengoptimuman geometri Wakil yang paling tipikal ialah kaedah anggaran pose berasaskan PnP. Dalam kaedah jenis ini, anda perlu mencari titik N 2D dalam sistem koordinat imej (koordinat 2D titik ke-i ditandakan sebagai Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya), dan pada masa yang sama cari titik berkaitan dalam sistem koordinat objek N titik 3D (koordinat 3D titik ke-i ditandakan sebagai Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya), dan kadangkala perlu untuk mendapatkan berat perkaitan setiap pasangan mata. (berat perkaitan pasangan mata ke-i ditandakan sebagai Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya). Mengikut kekangan unjuran perspektif, N pasangan mata berkaitan berwajaran 2D-3D ini secara tersirat menentukan pose optimum objek. Secara khusus, kita boleh mencari pose objek yang meminimumkan ralat unjuran semula Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya:

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

di mana Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya, mewakili ralat unjuran semula berwajaran, iaitu fungsi Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya pose. Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya mewakili fungsi tayangan kamera yang mengandungi parameter dalaman dan Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya mewakili produk elemen. Kaedah PnP biasanya digunakan dalam tugasan anggaran pose 6-DOF di mana geometri objek diketahui.

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Kaedah berasaskan PnP juga memerlukan rangkaian suapan hadapan untuk meramal set titik berkaitan 2D-3D Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya. Berbanding dengan ramalan pose langsung, model pembelajaran mendalam yang digabungkan dengan algoritma penglihatan geometri tradisional ini mempunyai kebolehtafsiran yang sangat baik dan prestasi generalisasinya agak stabil Walau bagaimanapun, terdapat kelemahan dalam kaedah latihan model dalam kerja sebelumnya. Banyak kaedah membina fungsi kehilangan proksi untuk menyelia hasil perantaraan X, yang bukan matlamat optimum untuk pose. Contohnya, jika bentuk objek diketahui, titik utama 3D objek boleh dipilih terlebih dahulu, dan kemudian rangkaian dilatih untuk mencari kedudukan titik unjuran 2D yang sepadan. Ini juga bermakna bahawa kerugian pengganti hanya boleh mempelajari subset pembolehubah dalam X dan oleh itu tidak cukup fleksibel. Bagaimana jika kita tidak mengetahui bentuk objek dalam set latihan dan perlu mempelajari segala-galanya dalam X dari awal?

Kaedah tersurat dan tersirat mempunyai kelebihan yang saling melengkapi Jika rangkaian boleh dilatih hujung ke hujung untuk mempelajari set titik X yang berkaitan dengan mengawasi output hasil pose oleh PnP, kedua-duanya. boleh digabungkan Menggabungkan kelebihan. Untuk mencapai matlamat ini, beberapa kajian baru-baru ini telah melaksanakan perambatan balik lapisan PnP menggunakan derivasi fungsi tersirat. Walau bagaimanapun, fungsi argmin dalam PnP adalah tidak berterusan dan tidak boleh dibezakan pada titik tertentu, menjadikan perambatan belakang tidak stabil dan latihan langsung sukar untuk berkumpul.

2. Pengenalan kepada kaedah EPro-PnP

1. -to-end Untuk latihan, kami mencadangkan

end-to-end probabilistik PnP (end-to-end probabilistic PnP), iaitu EPro-PnPApakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karyaApakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya. Idea asasnya ialah menganggap pose tersirat sebagai taburan kebarangkalian, maka ketumpatan kebarangkaliannya

boleh dibezakan untuk X. Pertama, fungsi kemungkinan pose ditakrifkan berdasarkan ralat unjuran semula: Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karyaJika prior yang tidak bermaklumat digunakan, maka posterior of the pose Ketumpatan kebarangkalian ialah hasil normal bagi fungsi kemungkinan:

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karyaApakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Boleh diperhatikan bahawa formula di atas adalah konsisten dengan formula softmax klasifikasi yang biasa digunakan

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya mata adalah hampir, sebenarnya, intipati EPro-PnP adalah untuk memindahkan softmax daripada ambang diskret ke ambang berterusan, dan menggantikan penjumlahanApakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

dengan integral

. Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya2. KL divergence loss Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karyaDalam proses melatih model, jika pose sebenar objek diketahui Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya, ia boleh ditakrifkan Taburan pose sasaran

. Pada masa ini, perbezaan KL

boleh dikira sebagai fungsi kehilangan yang digunakan untuk melatih rangkaian (kerana Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya adalah tetap, ia juga boleh difahami sebagai salib -fungsi kehilangan entropi). Dalam kes di mana sasaran Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya menghampiri fungsi Dirac, fungsi kehilangan berdasarkan perbezaan KL boleh dipermudahkan kepada bentuk berikut: Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karyaApakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karyaJika anda mengambil derivatif:

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Dapat dilihat bahawa fungsi kehilangan terdiri daripada dua item Istilah pertama (ditandakan sebagai Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya) cuba untuk mengurangkan unjuran semula nilai sebenar pose Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya Ralat, sebutan kedua (ditandakan sebagai Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya) cuba meningkatkan ralat unjuran semula di mana-mana dalam pose yang diramalkan Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya. Kedua-dua arah adalah bertentangan, dan kesannya ditunjukkan dalam rajah di bawah (kiri). Sebagai analogi, bahagian kanan ialah kerugian rentas entropi kategori yang biasa kami gunakan semasa melatih rangkaian klasifikasi.

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

3. Monte Carlo pose loss

Perlu diingatkan bahawa penggal kedua di KL rugiApakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya mengandungi kamiran ini tidak mempunyai penyelesaian analitik, jadi ia mesti dianggarkan dengan kaedah berangka. Memandangkan fleksibiliti, ketepatan dan kecekapan pengiraan, kami menggunakan kaedah Monte Carlo untuk mensimulasikan pengedaran pose melalui pensampelan.

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Secara khusus, kami menggunakan algoritma pensampelan kepentingan - Persampelan Kepentingan Pelbagai Adaptif (AMIS) untuk mengira K Kami memanggil proses ini Monte Carlo PnP untuk sampel pose Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya dengan pemberat Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya:

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Menurut ini, penggal kedua Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya boleh dianggarkan sebagai fungsi tentang berat Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya, dan Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya boleh Backpropagation:

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Kesan visualisasi persampelan pose adalah seperti yang ditunjukkan di bawah:

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

4. Regularisasi terbitan untuk penyelesai PnP

Walaupun kehilangan PnP Monte Carlo boleh digunakan untuk melatih rangkaian untuk mendapatkan pengedaran pose berkualiti tinggi, dalam peringkat inferens, PnP masih diperlukan Optimumkan penyelesai untuk mendapatkan penyelesaian pose yang optimum Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya. Algoritma Gauss-Newton yang biasa digunakan dan derivatifnya menyelesaikan Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya melalui pengoptimuman lelaran, dan kenaikan lelarannya ditentukan oleh derivatif pertama dan kedua bagi fungsi kos Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya. Untuk menjadikan penyelesaian PnP Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya lebih hampir kepada nilai sebenar Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya, derivatif fungsi kos boleh diselaraskan. Fungsi kehilangan regularisasi direka bentuk seperti berikut:

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

di mana, Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya ialah kenaikan lelaran Gauss-Newton, dan fungsi kos Terbitan tertib pertama dan kedua adalah berkaitan dan boleh disebarkan balik Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya mewakili metrik jarak, menggunakan L1 licin untuk kedudukan dan persamaan kosinus untuk orientasi. Apabila Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya tidak konsisten, fungsi kehilangan ini menggesa kenaikan lelaran Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya untuk menunjuk kepada nilai sebenar sebenar.

3. Rangkaian anggaran pose berdasarkan EPro-PnP

Kami menggunakan subtugas yang berbeza untuk anggaran pose 6 darjah dan pengesanan sasaran 3D. Antaranya, untuk anggaran pose 6 darjah kebebasan, ia diubah suai sedikit berdasarkan rangkaian CDPN ICCV 2019 dan dilatih dengan EPro-PnP untuk menjalankan kajian ablasi bagi pengesanan sasaran 3D, rangkaian baharu direka berdasarkan FCOS3D; daripada ICCVW 2021. Kepala pengesan surat-menyurat boleh ubah bentuk untuk membuktikan bahawa EPro-PnP boleh melatih rangkaian untuk mempelajari secara langsung semua titik 2D-3D dan pemberat perkaitan tanpa pengetahuan bentuk objek, sekali gus menunjukkan fleksibiliti EPro-PnP dalam aplikasi.

1. Rangkaian korelasi padat untuk anggaran pose 6-DOF

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Struktur rangkaian adalah seperti yang ditunjukkan dalam rajah di atas, kecuali lapisan keluaran diubah suai berdasarkan CDPN asal. CDPN asal menggunakan kotak 2D objek yang dikesan untuk memotong imej serantau dan memasukkannya ke dalam tulang belakang ResNet34. CDPN asal memisahkan kedudukan dan orientasi kepada dua cawangan Cawangan kedudukan menggunakan kaedah ramalan langsung yang jelas, manakala cawangan orientasi menggunakan kaedah perkaitan padat dan PnP yang tersirat. Untuk mengkaji EPro-PnP, rangkaian yang diubah suai hanya mengekalkan cawangan korelasi yang padat, yang outputnya ialah peta koordinat 3D 3 saluran dan berat korelasi 2 saluran, di mana berat korelasi telah mengalami softmax spatial dan penskalaan berat global. Tujuan menambah softmax spatial adalah untuk menormalkan pemberat Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya supaya ia mempunyai ciri-ciri yang serupa dengan peta perhatian dan boleh memfokuskan pada kawasan yang agak penting Eksperimen telah membuktikan bahawa normalisasi berat juga merupakan kunci kepada penumpuan yang stabil . Penskalaan berat global mencerminkan kepekatan pengedaran pose Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya. Rangkaian boleh dilatih hanya menggunakan kehilangan pose Monte Carlo bagi EPro-PnP, di samping menambah penyusunan derivatif dan kehilangan regresi koordinat 3D tambahan apabila bentuk objek diketahui.

2. Rangkaian korelasi ubah bentuk untuk pengesanan sasaran 3D

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Struktur rangkaian ditunjukkan dalam rajah di atas. Secara umumnya, ia adalah berdasarkan pengesan FCOS3D dan merujuk kepada struktur rangkaian yang direka oleh DETR boleh ubah bentuk. Berdasarkan FCOS3D, lapisan kepusatan dan pengelasannya dikekalkan, dan lapisan ramalan pose asalnya digantikan dengan pembenaman objek dan lapisan titik rujukan untuk menjana pertanyaan objek. Merujuk kepada DETR boleh ubah bentuk, kita mendapat kedudukan pensampelan 2D dengan meramalkan offset relatif kepada titik rujukan (iaitu, kita mendapat Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya). Ciri sampel diagregatkan ke dalam ciri objek melalui operasi perhatian, yang digunakan untuk meramalkan hasil peringkat objek (skor 3D, skala berat, saiz kotak 3D, dsb.). Di samping itu, selepas pensampelan, ciri setiap titik ditambah dengan pembenaman objek dan diproses oleh perhatian sendiri untuk mengeluarkan koordinat 3D yang sepadan Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya dan pemberat yang berkaitan Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya. Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya yang diramalkan semuanya boleh diperolehi oleh latihan Monte Carlo pose loss EPro-PnP, yang boleh menumpu dan mencapai ketepatan tinggi tanpa regularisasi tambahan. Atas dasar ini, kerugian penyusunan derivatif dan kerugian tambahan boleh ditambah untuk meningkatkan lagi ketepatan.

4. Keputusan eksperimen

1. set data LineMOD Eksperimen dan perbandingan ketat dengan garis dasar CDPN, keputusan utama adalah seperti di atas. Ia boleh dilihat bahawa dengan menambah kerugian EPro-PnP untuk latihan hujung ke hujung, ketepatan meningkat dengan ketara (+12.70). Teruskan meningkatkan kehilangan penyusunan derivatif, dan ketepatan dipertingkatkan lagi. Atas dasar ini, menggunakan keputusan latihan CDPN asal untuk memulakan dan meningkatkan zaman (mengekalkan jumlah bilangan zaman yang konsisten dengan latihan tiga peringkat lengkap CDPN asal) boleh meningkatkan lagi ketepatan sebahagian daripada kelebihan pra-. latihan CDPN datang daripada latihan tambahan penyeliaan topeng CDPN.

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Graf di atas adalah perbandingan EPro-PnP dengan pelbagai kaedah utama. EPro-PnP, yang dipertingkatkan daripada CDPN ke belakang, adalah hampir dengan SOTA dalam ketepatan, dan seni bina EPro-PnP adalah ringkas Ia sepenuhnya berdasarkan PnP untuk anggaran pose dan tidak memerlukan anggaran kedalaman eksplisit atau penghalusan pose. Oleh itu, dalam Terdapat juga kelebihan dalam kecekapan.

2. Tugas pengesanan sasaran 3D

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Menggunakan eksperimen set data nuScenes, hasil perbandingan dengan kaedah lain ditunjukkan dalam rajah di atas. EPro-PnP bukan sahaja mempunyai peningkatan ketara berbanding FCOS3D, tetapi juga mengatasi PGD, satu lagi versi SOTA dan FCOS3D yang dipertingkatkan pada masa itu. Lebih penting lagi, EPro-PnP kini merupakan satu-satunya yang menggunakan kaedah pengoptimuman geometri untuk menganggarkan pose pada set data nuScenes. Disebabkan oleh skala besar set data nuScenes, rangkaian anggaran pose langsung terlatih hujung ke hujung sudah mempunyai prestasi yang baik dan keputusan kami menggambarkan bahawa latihan hujung ke hujung model berdasarkan pengoptimuman geometri boleh mencapai prestasi yang lebih baik pada set data yang besar.

3. Analisis visual

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Rajah di atas menunjukkan hasil ramalan rangkaian persatuan padat yang dilatih dengan EPro-PnP. Antaranya, peta berat perkaitan Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya menyerlahkan kawasan penting dalam imej, serupa dengan mekanisme perhatian. Daripada analisis fungsi kehilangan, dapat dilihat bahawa kawasan sorotan sepadan dengan kawasan dengan ketidakpastian unjuran semula yang rendah dan yang lebih sensitif terhadap perubahan pose.

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Hasil pengesanan sasaran 3D ditunjukkan dalam rajah di atas. Pandangan kiri atas menunjukkan kedudukan titik 2D yang disampel oleh rangkaian korelasi ubah bentuk Merah menunjukkan bahawa Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya komponen X mendatar adalah agak tinggi, dan hijau menunjukkan bahawa komponen Y menegak adalah agak tinggi . Titik hijau biasanya terletak di hujung atas dan bawah objek Fungsi utamanya adalah untuk mengira jarak objek melalui ketinggian objek. Ciri ini tidak ditentukan secara buatan dan sepenuhnya hasil latihan percuma. Gambar di sebelah kanan menunjukkan hasil pengesanan dalam paparan atas, di mana imej awan biru mewakili ketumpatan pengedaran titik tengah objek, mencerminkan ketidakpastian kedudukan objek. Secara amnya, ketidakpastian kedudukan objek jauh adalah lebih besar daripada objek berdekatan. Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya

Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya Satu lagi kelebihan penting EPro-PnP ialah keupayaan untuk mewakili kekaburan orientasi dengan meramalkan pengagihan multimodal yang kompleks. Seperti yang ditunjukkan dalam rajah di atas, Barrier selalunya mempunyai dua puncak dengan perbezaan 180° kerana simetri putaran objek itu sendiri tidak mempunyai orientasi khusus, jadi hasil ramalan diedarkan dalam semua arah; simetri, tetapi disebabkan oleh imej Ia tidak jelas, sukar untuk memberitahu bahagian depan dan belakang, dan kadang-kadang terdapat dua puncak. Ciri kebarangkalian ini menjadikan EPro-PnP tidak memerlukan sebarang pemprosesan khas pada fungsi kehilangan untuk objek simetri.

5 Ringkasan

EPro-PnP mengubah pose optimum asal yang tidak boleh dibezakan kepada ketumpatan kebarangkalian pose yang boleh dibezakan, menjadikan kedudukan berdasarkan pengoptimuman geometri PnP Rangkaian anggaran pose membolehkan latihan hujung ke hujung yang stabil dan fleksibel. EPro-PnP boleh digunakan untuk masalah anggaran pose 3D am Walaupun geometri objek 3D tidak diketahui, titik berkaitan 2D-3D objek boleh dipelajari melalui latihan hujung ke hujung. Oleh itu, EPro-PnP meluaskan kemungkinan reka bentuk rangkaian, seperti rangkaian korelasi ubah bentuk kami yang dicadangkan, yang sebelum ini mustahil untuk dilatih.

Selain itu, EPro-PnP juga boleh digunakan secara langsung untuk menambah baik kaedah anggaran pose berasaskan PnP sedia ada, melepaskan potensi rangkaian sedia ada melalui latihan hujung ke hujung dan meningkatkan ketepatan anggaran pose. Dalam erti kata yang lebih umum, EPro-PnP pada asasnya membawa klasifikasi softmax ke dalam domain berterusan Ia bukan sahaja boleh digunakan untuk masalah penglihatan 3D lain berdasarkan pengoptimuman geometri, tetapi juga boleh diperluaskan secara teori untuk melatih model pengoptimuman bersarang umum .


Atas ialah kandungan terperinci Apakah yang dikaji oleh Tongji dan Anugerah Kertas Pelajar Terbaik CVPR 2022 Alibaba? Ini adalah tafsiran satu karya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku! DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku! Mar 21, 2024 pm 05:21 PM

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.

See all articles