Apakah sebenarnya persepsi BEV? Apakah aspek persepsi BEV yang diberi perhatian oleh kedua-dua kalangan akademik dan industri pemanduan autonomi? Artikel ini akan mendedahkan jawapan untuk anda.
Dalam bidang pemanduan autonomi, membiarkan model persepsi mempelajari perwakilan pandangan mata burung (BEV) yang berkuasa adalah satu trend dan telah menarik perhatian meluas daripada industri dan akademia. Berbanding dengan kebanyakan model terdahulu dalam bidang pemanduan autonomi yang berdasarkan melaksanakan tugas seperti pengesanan, pembahagian dan penjejakan dalam pandangan hadapan atau pandangan perspektif, perwakilan Pandangan Mata Burung (BEV) membolehkan model mengenal pasti kenderaan tersumbat dengan lebih baik dan telah Memudahkan pembangunan dan penggunaan modul seterusnya (cth. perancangan, kawalan).
Adalah dapat dilihat bahawa penyelidikan persepsi BEV mempunyai potensi kesan yang besar dalam bidang pemanduan autonomi dan patut mendapat perhatian dan pelaburan jangka panjang daripada ahli akademik dan industri ? Apakah kandungan persepsi BEV yang diberi perhatian oleh pemimpin akademik dan industri dalam pemanduan autonomi? Artikel ini akan mendedahkan jawapan untuk anda melalui Tinjauan BEVPerception.
BEVPerception Survey ialah kerjasama antara Pasukan OpenDriveLab pemanduan autonomi Makmal Kecerdasan Buatan Shanghai dan Institut Penyelidikan SenseTime Kaedah pembentangan alat praktikal kertas kerjasama "Menyelidiki Persepsi Pandangan Mata Burung: Satu Tinjauan, Penilaian dan Resipi", dibahagikan kepada penyelidikan literatur terkini berdasarkan BEVPercption dan berasaskan PyTorch Dua bahagian utama kotak alat persepsi BEV sumber terbuka .
Tinjauan BEVPerception Kajian kajian literatur terkini terutamanya merangkumi tiga bahagian-kamera BEV, lidar BEV dan gabungan BEV. Kamera BEV mewakili algoritma penglihatan sahaja atau bertumpu penglihatan untuk pengesanan objek 3D atau pembahagian daripada berbilang kamera di sekeliling BEV lidar menerangkan tugas pengesanan atau pembahagian input awan titik menerangkan tugas pengesanan atau pembahagian daripada pelbagai penderia Mekanisme gabungan input; seperti kamera, lidar, sistem navigasi global, odometri, peta HD, bas CAN, dsb.
Kotak Alat Persepsi BEV ialah platform untuk pengesanan objek 3D berdasarkan kamera BEV dan digunakan dalam data Waymo Jishang menyediakan platform percubaan yang boleh menjalankan tutorial manual dan eksperimen pada set data berskala kecil.
Rajah 1: Rangka Kerja Tinjauan BEVPerception
Secara khusus, BEV Camera mewakili algoritma untuk pengesanan objek 3D atau pembahagian daripada berbilang kamera sekeliling BEV mewakili penggunaan awan titik sebagai input untuk menyelesaikan tugas pengesanan atau pembahagian BEV menggunakan output berbilang penderia sebagai input, seperti kamera, LiDAR, GNSS, odometri, HD; -Peta, bas CAN, dsb.
Kamera BEV
Persepsi kamera BEV termasuk pengekstrakan ciri 2D Ia terdiri daripada tiga bahagian: penukar, pengubah paparan dan penyahkod 3D. Rajah di bawah menunjukkan carta aliran persepsi kamera BEV Dalam transformasi paparan, terdapat dua cara untuk mengekod maklumat 3D - satu adalah untuk meramalkan maklumat mendalam daripada ciri 2D.
Rajah 2: Carta alir pengesan kamera BEV
Untuk pengekstrak ciri 2D , Di sana adalah banyak pengalaman dalam tugasan persepsi 2D yang boleh digunakan untuk rujukan dalam tugasan persepsi 3D, seperti bentuk latihan intervensi utama.
Modul penukaran paparan ialah aspek yang sangat berbeza daripada sistem persepsi 2D. Seperti yang ditunjukkan dalam rajah di atas, secara amnya terdapat dua cara untuk melakukan transformasi paparan: satu ialah transformasi daripada ruang 3D kepada ruang 2D, satu lagi ialah transformasi daripada ruang 2D kepada ruang 3D Kedua-dua kaedah transformasi ini sama ada menggunakan ruang 3D pengetahuan terdahulu tentang fizik dalam sistem atau menggunakan maklumat 3D tambahan untuk penyeliaan. Perlu diingat bahawa tidak semua kaedah persepsi 3D mempunyai modul transformasi pandangan Contohnya, beberapa kaedah mengesan objek dalam ruang 3D secara langsung daripada ciri dalam ruang 2D.
Penyahkod 3D Menerima ciri dalam ruang 2D/3D dan mengeluarkan hasil persepsi 3D. Kebanyakan penyahkod 3D direka bentuk daripada model persepsi berasaskan LiDAR. Kaedah ini melakukan pengesanan dalam ruang BEV, tetapi masih terdapat beberapa penyahkod 3D yang mengeksploitasi ciri dalam ruang 2D dan secara langsung mengundurkan penyetempatan objek 3D.
BEV lidar
Proses biasa persepsi BEV lidar adalah terutamanya untuk menggabungkan data awan titik kepada dua cabang Tukar kepada perwakilan BEV. Rajah di bawah menunjukkan carta alir pengesan lidar BEV Cawangan atas mengekstrak ciri awan titik dalam ruang 3D untuk memberikan hasil pengesanan yang lebih tepat. Cawangan bawah mengekstrak ciri BEV dalam ruang 2D, menyediakan rangkaian yang lebih cekap. Selain kaedah berasaskan titik yang beroperasi pada awan titik mentah, kaedah berasaskan voxel memuntahkan mata ke dalam grid diskret, memberikan perwakilan yang lebih cekap dengan mendiskrisikan koordinat 3D berterusan. Berdasarkan perwakilan voxel diskret, lilitan 3D atau lilitan jarang 3D boleh digunakan untuk mengekstrak ciri awan titik.
Rajah 3: Carta alir pengesan lidar BEV
PEV fusion
Algoritma gabungan BEV-aware mempunyai dua kaedah: PV-aware dan BEV-aware, dan sesuai untuk akademik dan industri. Rajah di bawah menunjukkan perbandingan carta alir penderiaan PV dan pengesan BEV Perbezaan utama antara keduanya ialah modul penukaran dan gabungan 2D kepada 3D. Dalam carta alir PV-aware, hasil daripada algoritma yang berbeza mula-mula ditukar kepada ruang 3D dan kemudian digabungkan menggunakan beberapa pengetahuan terdahulu atau peraturan yang direka bentuk secara manual. Dalam carta aliran persepsi BEV, peta ciri PV akan ditukar kepada perspektif BEV, dan kemudian digabungkan dalam ruang BEV untuk mendapatkan hasil akhir, sekali gus memaksimumkan pengekalan maklumat ciri asal dan mengelakkan reka bentuk manual yang berlebihan.
Rajah 4: PV sensing (kiri) dan BEV sensing (kanan) carta alir
Terdapat banyak set data untuk tugas penderiaan BEV. Biasanya set data terdiri daripada pelbagai adegan, dan setiap adegan mempunyai panjang yang berbeza dalam set data yang berbeza. Jadual berikut meringkaskan set data yang biasa digunakan dalam komuniti akademik. Kita dapat melihat bahawa set data Waymo mempunyai pemandangan yang lebih pelbagai dan anotasi kotak pengesanan 3D yang lebih kaya daripada set data lain.
Jadual 1: Senarai set data pengesan BEV
Walau bagaimanapun, komuniti akademik semasa Tiada perisian tersedia untuk umum untuk tugas pengesanan BEV yang dibangunkan oleh Waymo. Oleh itu, kami memilih untuk membangunkan berdasarkan set data Waymo, dengan harapan dapat mempromosikan pembangunan tugas pengesan BEV pada set data Waymo.
BEVFormer ialah kaedah persepsi BEV yang biasa digunakan Ia menggunakan pengubah spatiotemporal untuk menukar ciri yang diekstrak oleh rangkaian tulang belakang daripada input berbilang paparan kepada ciri BEV, dan maka ciri-ciri BEV dimasukkan ke dalam kepala pengesanan untuk mendapatkan hasil pengesanan akhir. BEVFormer mempunyai dua ciri Ia mempunyai penukaran yang tepat daripada ciri imej 2D kepada ciri 3D dan boleh menggunakan ciri BEV yang diekstraknya pada kepala pengesanan yang berbeza. Kami menambah baik lagi kualiti penukaran paparan BEVFormer dan prestasi pengesanan akhir melalui satu siri kaedah.
Selepas memenangi tempat pertama dalam Cabaran Waymo CVPR 2022 bersama BEVFormer++, kami melancarkan Kotak Alat - BEV Kesedaran Kotak alat menyediakan satu set alat pemprosesan data Waymo Open Dataset yang mudah digunakan, dengan itu menyepadukan satu siri kaedah yang boleh meningkatkan prestasi model dengan ketara (termasuk tetapi tidak terhad kepada peningkatan data, kepala pengesanan, kehilangan fungsi, integrasi Model, dsb.), dan serasi dengan rangka kerja sumber terbuka yang digunakan secara meluas dalam lapangan, seperti mmdetection3d dan detectron2. Berbanding dengan set data asas Waymo, kotak alat persepsi BEV mengoptimumkan dan meningkatkan kemahiran penggunaan untuk digunakan oleh pelbagai jenis pembangun. Rajah di bawah menunjukkan contoh menggunakan kotak alat kesedaran BEV berdasarkan set data Waymo.
Rajah 5: Contoh penggunaan kotak alat berdasarkan set data Waymo
Kami berharap Tinjauan BEVPerception bukan sahaja akan membantu pengguna dengan mudah menggunakan model persepsi BEV berprestasi tinggi, tetapi juga menjadi titik permulaan yang baik untuk pemula untuk memulakan model persepsi BEV . Kami komited untuk menembusi sempadan penyelidikan dan pembangunan dalam bidang pemanduan autonomi, dan berharap untuk berkongsi pandangan kami dan bertukar perbincangan dengan komuniti akademik untuk terus meneroka potensi aplikasi penyelidikan berkaitan pemanduan autonomi dalam dunia sebenar.
Atas ialah kandungan terperinci Daripada kertas kerja kepada kod, daripada penyelidikan canggih kepada pelaksanaan industri, memahami persepsi BEV secara menyeluruh. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!