Sistem pemanduan autonomi bergantung pada persepsi lanjutan, membuat keputusan dan teknologi kawalan untuk melihat persekitaran sekeliling melalui penggunaan pelbagai sensor (seperti kamera, lidar, radar, dsb. .), dan menggunakan algoritma dan model untuk analisis masa nyata dan membuat keputusan. Ini membolehkan kenderaan mengenali papan tanda jalan, mengesan dan menjejaki kenderaan lain, meramalkan tingkah laku pejalan kaki, dsb., dengan itu selamat beroperasi dan menyesuaikan diri dengan persekitaran trafik yang kompleks. Teknologi ini kini menarik perhatian meluas dan dianggap sebagai kawasan pembangunan penting dalam pengangkutan masa depan satu. Tetapi apa yang menyukarkan pemanduan autonomi ialah memikirkan cara untuk membuat kereta memahami perkara yang berlaku di sekelilingnya. Ini memerlukan algoritma pengesanan objek 3D dalam sistem pemanduan autonomi yang boleh melihat dan menerangkan objek dalam persekitaran sekeliling dengan tepat, termasuk lokasi, bentuk, saiz dan kategorinya. Kesedaran alam sekitar yang menyeluruh ini membantu sistem pemanduan autonomi lebih memahami persekitaran pemanduan dan membuat keputusan yang lebih tepat.
Kami menjalankan penilaian komprehensif algoritma pengesanan objek 3D dalam pemanduan autonomi, terutamanya mempertimbangkan keteguhan. Tiga faktor utama telah dikenal pasti dalam penilaian: kebolehubahan persekitaran, bunyi sensor, dan salah jajaran. Faktor ini penting untuk prestasi algoritma pengesanan dalam dunia sebenar, keadaan berubah-ubah.
Juga menyelami tiga bidang utama penilaian prestasi: ketepatan, kependaman dan keteguhan.
Makalah ini menunjukkan kelebihan ketara kaedah pengesanan 3D berbilang mod dalam persepsi keselamatan Dengan menggabungkan data daripada penderia yang berbeza, ia memberikan keupayaan persepsi yang lebih kaya dan pelbagai, dengan itu meningkatkan keselamatan sistem pemanduan autonomi.
Di atas secara ringkas memperkenalkan set data pengesanan objek 3D yang digunakan dalam sistem pemanduan autonomi, memfokuskan terutamanya pada menilai kelebihan dan batasan mod sensor yang berbeza, serta ciri set data awam .
Pertama, jadual menunjukkan tiga jenis penderia: kamera, awan titik dan berbilang modal (kamera dan lidar). Untuk setiap jenis, kos, kelebihan dan had perkakasan mereka disenaraikan. Kelebihan data kamera ialah ia memberikan maklumat warna dan tekstur yang kaya, tetapi batasannya ialah kekurangan maklumat kedalaman dan kerentanannya kepada kesan cahaya dan cuaca. LiDAR boleh memberikan maklumat kedalaman yang tepat, tetapi mahal dan tidak mempunyai maklumat warna.
Seterusnya, terdapat beberapa set data awam lain yang tersedia untuk pengesanan objek 3D dalam pemanduan autonomi. Set data ini termasuk KITTI, nuScenes, Waymo, dsb. Butiran set data ini adalah seperti berikut: - Set data KITTI mengandungi data yang dikeluarkan dalam beberapa tahun, menggunakan pelbagai jenis penderia. Ia menyediakan sejumlah besar bingkai dan anotasi, serta pelbagai adegan, termasuk nombor dan kategori adegan, dan jenis pemandangan yang berbeza seperti siang, cerah, malam, hujan, dll. - Set data nuScenes juga merupakan set data penting, yang juga mengandungi data yang dikeluarkan dalam beberapa tahun. Set data ini menggunakan pelbagai penderia dan menyediakan sejumlah besar bingkai dan anotasi. Ia merangkumi pelbagai senario, termasuk nombor dan kategori adegan yang berbeza, serta pelbagai jenis adegan. - Set data Waymo ialah set data lain untuk pemanduan autonomi yang turut mempunyai data dari beberapa tahun. Set data ini menggunakan pelbagai jenis penderia dan menyediakan sejumlah besar bingkai dan anotasi. Ia merangkumi pelbagai bidang
Selain itu, penyelidikan tentang set data pemanduan autonomi "bersih" disebut, dan kepentingan menilai keteguhan model di bawah senario yang bising ditekankan. Sesetengah kajian menumpukan pada kaedah mod tunggal kamera dalam keadaan yang teruk, manakala set data berbilang modal lain memfokuskan pada isu hingar. Sebagai contoh, set data GROUNDED memfokuskan pada kedudukan radar menembusi tanah di bawah keadaan cuaca yang berbeza, manakala set data terbuka ApolloScape termasuk data lidar, kamera dan GPS, meliputi pelbagai cuaca dan keadaan pencahayaan.
Disebabkan kos yang tinggi untuk mengumpul data bising berskala besar di dunia nyata, banyak kajian beralih kepada penggunaan set data sintetik. Sebagai contoh, ImageNet-C ialah kajian penanda aras dalam memerangi gangguan biasa dalam model pengelasan imej. Arah penyelidikan ini kemudiannya diperluaskan kepada set data teguh yang disesuaikan untuk pengesanan objek 3D dalam pemanduan autonomi. Pengesanan objek 3D berasaskan penglihatan Pengesanan objek 3D, pengesanan objek 3D monokular kamera sahaja dan pengesanan objek 3D monokular berbantukan kedalaman.
Kaedah ini menggunakan pengetahuan sedia ada tentang bentuk objek dan geometri pemandangan yang tersembunyi dalam imej untuk menyelesaikan cabaran pengesanan objek 3D monokular. Dengan memperkenalkan sub-rangkaian terlatih atau tugas tambahan, pengetahuan terdahulu boleh memberikan maklumat atau kekangan tambahan untuk membantu mengesan objek 3D dengan tepat dan meningkatkan ketepatan dan keteguhan pengesanan. Pengetahuan sedia ada termasuk bentuk objek, ketekalan geometri, kekangan temporal dan maklumat pembahagian. Sebagai contoh, algoritma Mono3D mula-mula menganggap bahawa objek 3D terletak pada satah tanah tetap, dan kemudian menggunakan bentuk 3D sebelumnya objek untuk membina semula kotak sempadan dalam ruang 3D.
Anggaran kedalaman memainkan peranan penting dalam pengesanan objek 3D monokular berbantukan kedalaman. Untuk mencapai hasil pengesanan monokular yang lebih tepat, banyak kajian menggunakan rangkaian anggaran kedalaman tambahan yang telah terlatih. Proses ini bermula dengan menukar imej monokular kepada imej kedalaman dengan menggunakan penganggar kedalaman yang telah terlatih seperti MonoDepth. Kemudian, dua kaedah utama digunakan untuk memproses imej kedalaman dan imej monokular. Sebagai contoh, pengesan Pseudo-LiDAR menggunakan rangkaian anggaran kedalaman terlatih untuk menjana perwakilan Pseudo-LiDAR, tetapi terdapat jurang prestasi yang besar antara pengesan berasaskan Pseudo-LiDAR dan LiDAR disebabkan oleh ralat dalam penjanaan imej-ke-LiDAR.
Baru-baru ini, pengesanan objek 3D berbilang paparan telah menunjukkan keunggulan dalam ketepatan dan keteguhan berbanding kaedah pengesanan objek 3D monokular dan stereo yang disebutkan di atas. Tidak seperti pengesanan objek 3D berasaskan LiDAR, kaedah Panoramik Bird's Eye View (BEV) terkini menghapuskan keperluan untuk peta berketepatan tinggi dan meningkatkan pengesanan daripada 2D kepada 3D. Kemajuan ini telah membawa kepada perkembangan ketara dalam pengesanan objek 3D berbilang paparan. Dalam pengesanan objek 3D berbilang kamera, cabaran utama adalah untuk mengenal pasti objek yang sama dalam imej yang berbeza dan ciri badan agregat daripada berbilang input sudut pandangan. Kaedah semasa melibatkan pemetaan berbilang pandangan secara seragam ke dalam ruang Pandangan Mata Burung (BEV), yang merupakan amalan biasa.
Penukaran terus dari ruang 2D ke BEV menimbulkan cabaran yang ketara. LSS ialah yang pertama mencadangkan kaedah berasaskan kedalaman, yang menggunakan ruang 3D sebagai perantara. Kaedah ini mula-mula meramalkan taburan kedalaman grid bagi ciri 2D dan kemudian mengangkat ciri ini ke dalam ruang voxel. Pendekatan ini menawarkan harapan untuk transformasi yang lebih cekap daripada ruang 2D kepada BEV. Mengikuti LSS, CaDDN menggunakan kaedah perwakilan dalam yang serupa. Dengan memampatkan ciri ruang voxel ke dalam ruang BEV, ia melakukan pengesanan 3D terakhir. Perlu diingat bahawa CaDDN bukan sebahagian daripada pengesanan objek 3D berbilang paparan, tetapi pengesanan objek 3D pandangan tunggal, yang mempunyai kesan ke atas penyelidikan mendalam berikutnya. Perbezaan utama antara LSS dan CaDDN ialah CaDDN menggunakan nilai kedalaman ground-truth sebenar untuk mengawasi ramalan pengedaran kedalaman klasifikasinya, sekali gus mewujudkan rangkaian dalam yang unggul yang mampu mengekstrak maklumat 3D dari ruang 2D dengan lebih tepat.
Di bawah pengaruh teknologi Transformer, kaedah berbilang paparan berasaskan pertanyaan mendapatkan semula ciri ruang 2D daripada ruang 3D. DETR3D memperkenalkan pertanyaan objek 3D untuk menyelesaikan masalah pengagregatan ciri berbilang paparan. Ia memperoleh ciri imej dalam ruang Pandangan Mata Burung (BEV) dengan memotong ciri imej dari sudut pandangan berbeza dan menayangkannya ke dalam ruang 2D menggunakan titik rujukan 3D yang dipelajari. Berbeza daripada kaedah berbilang paparan berasaskan kedalaman, kaedah berbilang paparan berasaskan pertanyaan memperoleh ciri BEV yang jarang dengan menggunakan teknologi pertanyaan terbalik, yang secara asasnya memberi kesan kepada pembangunan berasaskan pertanyaan berikutnya. Walau bagaimanapun, disebabkan kemungkinan ketidaktepatan yang dikaitkan dengan titik rujukan 3D yang jelas, PETR menggunakan kaedah pengekodan kedudukan tersirat untuk membina ruang BEV, yang menjejaskan kerja berikutnya.
Pada masa ini, penyelesaian pengesanan objek 3D berdasarkan persepsi Pandangan Mata Burung (BEV) sedang berkembang pesat. Walaupun terdapat banyak artikel ulasan, tinjauan komprehensif bidang ini masih tidak mencukupi. Makmal AI Shanghai dan Institut Penyelidikan SenseTime menyediakan semakan mendalam tentang peta jalan teknologi untuk penyelesaian BEV. Walau bagaimanapun, tidak seperti ulasan sedia ada, kami mempertimbangkan aspek utama seperti persepsi keselamatan pemanduan autonomi. Selepas menganalisis peta jalan teknologi dan status pembangunan semasa penyelesaian berasaskan kamera, kami berhasrat untuk membincangkan berdasarkan prinsip asas `Ketepatan, Kependaman, Kekukuhan'. Kami akan menyepadukan perspektif kesedaran keselamatan untuk membimbing pelaksanaan praktikal kesedaran keselamatan dalam pemanduan autonomi.
Kaedah pengesanan objek 3D berasaskan voxel mencadangkan untuk membahagikan dan mengedarkan awan titik jarang ke voxel biasa untuk membentuk perwakilan data padat ini. Berbanding dengan kaedah berasaskan paparan, kaedah berasaskan voxel menggunakan lilitan spatial untuk melihat maklumat spatial 3D dengan berkesan dan mencapai ketepatan pengesanan yang lebih tinggi, yang penting untuk persepsi keselamatan dalam pemanduan autonomi. Walau bagaimanapun, kaedah ini masih menghadapi cabaran berikut:
Untuk mengatasi cabaran ini, adalah perlu untuk menyelesaikan had perwakilan data, meningkatkan keupayaan ciri rangkaian dan ketepatan kedudukan sasaran, dan mengukuhkan pemahaman algoritma tentang adegan yang kompleks. Walaupun strategi pengoptimuman berbeza-beza, ia secara amnya bertujuan untuk mengoptimumkan perwakilan data dan struktur model.
Terima kasih kepada kemakmuran PC dalam pembelajaran mendalam, pengesanan objek 3D berasaskan titik mewarisi banyak rangka kerjanya dan bercadang untuk bermula terus dari titik asal tanpa prapemprosesan Mengesan objek 3D. Berbanding dengan kaedah berasaskan voxel, awan titik asal mengekalkan jumlah maksimum maklumat asal, yang bermanfaat kepada pemerolehan ciri yang terperinci dan menghasilkan ketepatan yang tinggi. Pada masa yang sama, satu siri kerja di PointNet secara semula jadi menyediakan asas yang kukuh untuk kaedah berasaskan titik. Pengesan objek 3D berasaskan titik mempunyai dua komponen asas: pensampelan awan titik dan pembelajaran ciri Setakat ini, prestasi kaedah berasaskan titik masih dipengaruhi oleh dua faktor: bilangan titik konteks dan jejari konteks yang diterima pakai dalam pembelajaran ciri. . cth. Menambahkan bilangan titik konteks boleh memperoleh maklumat 3D yang lebih terperinci, tetapi akan meningkatkan masa inferens model dengan ketara. Begitu juga, mengurangkan jejari konteks boleh mempunyai kesan yang sama. Oleh itu, memilih nilai yang sesuai untuk kedua-dua faktor ini boleh membolehkan model mencapai keseimbangan antara ketepatan dan kelajuan. Di samping itu, oleh kerana setiap titik dalam awan titik perlu dikira, proses pensampelan awan titik adalah faktor utama yang mengehadkan operasi masa nyata kaedah berasaskan titik. Khususnya, untuk menyelesaikan masalah di atas, kebanyakan kaedah sedia ada dioptimumkan di sekitar dua komponen asas pengesan objek 3D berasaskan titik: 1) Pensampelan Titik 2) pembelajaran ciri
Kaedah pengesanan objek 3D berasaskan titik mewarisi banyak rangka kerja pembelajaran mendalam dan mencadangkan untuk mengesan objek 3D terus daripada awan titik mentah tanpa prapemprosesan. Berbanding dengan kaedah berasaskan voxel, awan titik asal mengekalkan maklumat asal ke tahap maksimum, yang kondusif untuk pemerolehan ciri berbutir halus, dengan itu mencapai ketepatan yang tinggi. Pada masa yang sama, siri kerja PointNet menyediakan asas yang kukuh untuk kaedah berasaskan titik. Walau bagaimanapun, setakat ini, prestasi kaedah berasaskan titik masih dipengaruhi oleh dua faktor: bilangan titik konteks dan jejari konteks yang digunakan dalam pembelajaran ciri. Contohnya, menambah bilangan titik konteks boleh memperoleh maklumat 3D yang lebih terperinci, tetapi akan meningkatkan masa inferens model dengan ketara. Begitu juga, mengurangkan jejari konteks mencapai kesan yang sama. Oleh itu, memilih nilai yang sesuai untuk kedua-dua faktor ini membolehkan model mencapai keseimbangan antara ketepatan dan kelajuan. Selain itu, proses pensampelan awan titik merupakan faktor utama yang mengehadkan operasi masa nyata kaedah berasaskan titik kerana keperluan untuk melakukan pengiraan bagi setiap titik dalam awan titik. Untuk menyelesaikan masalah ini, kaedah sedia ada terutamanya mengoptimumkan sekitar dua komponen asas pengesan objek 3D berasaskan titik: 1) pensampelan awan titik 2) pembelajaran ciri.
Farth Point Sampling (FPS) berasal daripada PointNet++ dan merupakan kaedah pensampelan awan titik yang digunakan secara meluas dalam kaedah berasaskan titik. Matlamatnya adalah untuk memilih set titik yang mewakili daripada awan titik asal untuk memaksimumkan jarak antara mereka untuk menampung taburan ruang keseluruhan awan titik. PointRCNN ialah pengesan dua peringkat terobosan dalam kaedah berasaskan titik, menggunakan PointNet++ sebagai rangkaian tulang belakang. Pada peringkat pertama, ia menjana cadangan 3D dari awan titik dengan cara bawah ke atas. Pada peringkat kedua, cadangan diperhalusi dengan menggabungkan ciri semantik dan ciri spatial tempatan. Walau bagaimanapun, kaedah berasaskan FPS sedia ada masih menghadapi beberapa masalah: 1) Titik yang tidak berkaitan dengan pengesanan turut mengambil bahagian dalam proses pensampelan, membawa beban pengiraan tambahan 2) Mata diagihkan secara tidak sekata di bahagian objek yang berbeza, mengakibatkan strategi pensampelan suboptimum. Untuk menangani isu ini, kerja seterusnya menggunakan paradigma reka bentuk seperti FPS dan membuat penambahbaikan, seperti penapisan titik latar belakang berpandukan segmentasi, pensampelan rawak, pensampelan ruang ciri, pensampelan berasaskan voxel dan pensampelan berasaskan kumpulan sinar.
Peringkat pembelajaran ciri kaedah pengesanan objek 3D berasaskan titik bertujuan untuk mengekstrak perwakilan ciri diskriminatif daripada data awan titik yang jarang. Rangkaian saraf yang digunakan dalam peringkat pembelajaran ciri harus mempunyai ciri-ciri berikut: 1) Invarian, rangkaian tulang belakang awan titik harus tidak sensitif kepada susunan awan titik input 2) Ia mempunyai keupayaan persepsi tempatan dan boleh mengesan dan memodelkan kawasan setempat; , dan mengekstrak ciri setempat; 3) Keupayaan untuk menyepadukan maklumat konteks dan mengekstrak ciri daripada maklumat konteks global dan tempatan. Berdasarkan ciri-ciri di atas, sejumlah besar pengesan direka untuk memproses awan titik mentah. Kebanyakan kaedah boleh dibahagikan mengikut operator teras yang digunakan: 1) Kaedah berasaskan PointNet 2) Kaedah berasaskan rangkaian saraf graf 3) Kaedah berasaskan Transformer;
Kaedah berasaskan PointNet bergantung terutamanya pada pengabstrakan set untuk mengurangkan sampel titik asal, mengagregat maklumat tempatan dan menyepadukan maklumat kontekstual sambil mengekalkan invarian simetri titik asal. Point-RCNN ialah kerja dua peringkat pertama antara kaedah berasaskan titik dan mencapai prestasi cemerlang, tetapi masih menghadapi masalah kos pengiraan yang tinggi. Kerja-kerja seterusnya menyelesaikan masalah ini dengan memperkenalkan tugas pembahagian semantik tambahan dalam proses pengesanan untuk menapis titik latar belakang yang menyumbang secara minimum kepada pengesanan.
Rangkaian saraf graf (GNN) mempunyai struktur penyesuaian, kejiranan dinamik, keupayaan untuk membina hubungan konteks tempatan dan global serta keteguhan kepada pensampelan yang tidak teratur. Point-GNN ialah kerja perintis yang mereka bentuk rangkaian saraf graf satu peringkat untuk meramalkan kategori dan bentuk objek melalui mekanisme pendaftaran automatik, operasi penggabungan dan pemarkahan, menunjukkan penggunaan rangkaian saraf graf sebagai kaedah baharu untuk pengesanan objek 3D. potensi.
Dalam beberapa tahun kebelakangan ini, Transformers (Transformers) telah diterokai dalam analisis awan titik dan telah melaksanakan banyak tugas dengan baik. Sebagai contoh, Pointformer memperkenalkan modul perhatian tempatan dan global untuk memproses awan titik 3D, modul Transformer tempatan digunakan untuk memodelkan interaksi antara titik di wilayah tempatan, dan Transformer global bertujuan untuk mempelajari perwakilan sedar konteks peringkat pemandangan. Bebas kumpulan secara langsung menggunakan semua titik dalam awan titik untuk mengira ciri setiap calon objek, di mana sumbangan setiap mata ditentukan oleh modul perhatian yang dipelajari secara automatik. Kaedah ini menunjukkan potensi kaedah berasaskan Transformer dalam memproses awan titik mentah yang tidak berstruktur dan tidak tertib.
Kaedah pengesanan objek 3D berasaskan awan titik memberikan resolusi tinggi dan mengekalkan struktur spatial data asal, tetapi mereka menghadapi kerumitan pengiraan yang tinggi dan kecekapan rendah apabila memproses data yang jarang . Sebaliknya, kaedah berasaskan voxel menyediakan perwakilan data berstruktur, meningkatkan kecekapan pengiraan, dan memudahkan penggunaan teknologi rangkaian neural konvolusi tradisional. Walau bagaimanapun, mereka sering kehilangan butiran spatial yang halus disebabkan oleh proses pendiskretan. Untuk menyelesaikan masalah ini, kaedah berasaskan point-voxel (PV) telah dibangunkan. Kaedah titik-voxel bertujuan untuk mengeksploitasi keupayaan menangkap maklumat terperinci kaedah berasaskan titik dan kecekapan pengiraan kaedah berasaskan voxel. Dengan menyepadukan kaedah ini, kaedah berasaskan titik-voxel boleh memproses data awan titik dengan lebih terperinci, menangkap struktur global dan butiran mikro-geometri. Ini penting untuk persepsi keselamatan dalam pemanduan autonomi, kerana ketepatan membuat keputusan sistem pemanduan autonomi bergantung pada hasil pengesanan ketepatan tinggi.
Matlamat utama kaedah titik-voxel adalah untuk mencapai interaksi ciri antara voxel dan titik melalui penukaran point-to-voxel atau voxel-to-point. Banyak karya telah meneroka idea menggunakan gabungan ciri titik-voxel dalam rangkaian tulang belakang. Kaedah ini boleh dibahagikan kepada dua kategori: 1) gabungan awal;
a) Penyatuan awal: Beberapa kaedah telah meneroka penggunaan operator lilitan baharu untuk menggabungkan ciri voxel dan titik, dan PVCNN mungkin merupakan kerja pertama ke arah ini. Dalam pendekatan ini, cawangan berasaskan voxel mula-mula menukar mata kepada grid voxel resolusi rendah dan mengagregatkan ciri voxel bersebelahan melalui konvolusi. Kemudian, melalui proses yang dipanggil devoxelization, ciri peringkat voxel ditukar kembali kepada ciri peringkat titik dan digabungkan dengan ciri yang diperolehi oleh cawangan berasaskan titik. Cawangan berasaskan titik mengekstrak ciri untuk setiap titik individu. Oleh kerana ia tidak mengagregatkan maklumat jiran, kaedah ini boleh berjalan pada kelajuan yang lebih tinggi. Kemudian, SPVCNN telah diperluaskan kepada bidang pengesanan objek berdasarkan PVCNN. Kaedah lain cuba menambah baik dari perspektif yang berbeza, seperti tugas tambahan atau gabungan ciri berbilang skala.
b) Post-fusion: Siri kaedah ini terutamanya menggunakan rangka kerja pengesanan dua peringkat. Pertama, cadangan objek awal dijana menggunakan pendekatan berasaskan voxel. Kemudian, ciri peringkat titik digunakan untuk membahagikan bingkai pengesanan dengan tepat. PV-RCNN yang dicadangkan oleh Shi et al adalah peristiwa penting dalam kaedah berasaskan titik-voxel. Ia menggunakan SECOND sebagai pengesan peringkat pertama dan mencadangkan peringkat penghalusan peringkat kedua dengan pengumpulan grid RoI untuk gabungan ciri titik utama. Kerja-kerja seterusnya terutamanya mengikut paradigma di atas dan memberi tumpuan kepada kemajuan pengesanan peringkat kedua. Perkembangan ketara termasuk mekanisme perhatian, penggabungan sedar skala dan modul penghalusan sedar kepadatan titik.
Kaedah berasaskan titik-voxel mempunyai kedua-dua kecekapan pengiraan kaedah berasaskan voxel dan keupayaan kaedah berasaskan titik untuk menangkap maklumat yang terperinci. Walau bagaimanapun, membina hubungan titik-ke-voxel atau voxel-ke-titik, serta gabungan ciri voxel dan titik, akan membawa overhed pengiraan tambahan. Oleh itu, kaedah berasaskan titik-voxel boleh mencapai ketepatan pengesanan yang lebih baik berbanding kaedah berasaskan voxel, tetapi dengan kos peningkatan masa inferens.
4. Pengesanan objek 3D berbilang modVirConv, MSMDFusion dan SFD membina ruang bersatu melalui awan titik pseudo, dan unjuran berlaku sebelum pembelajaran ciri. Masalah yang diperkenalkan oleh unjuran langsung diselesaikan melalui pembelajaran ciri seterusnya. Ringkasnya, kaedah pengesanan objek 3D berasaskan ciri bersatu pada masa ini mewakili penyelesaian yang sangat tepat dan mantap. Walaupun ia mengandungi matriks unjuran, unjuran ini tidak berlaku antara gabungan pelbagai mod dan oleh itu dianggap sebagai kaedah pengesanan objek 3D bukan projektif. Berbeza daripada kaedah pengesanan objek 3D unjuran automatik, mereka tidak menyelesaikan masalah ralat unjuran secara langsung, tetapi memilih untuk membina ruang bersatu dan mempertimbangkan pelbagai dimensi pengesanan objek 3D multimodal untuk mendapatkan ciri multimodal yang sangat teguh.
Pengesanan objek 3D memainkan peranan penting dalam persepsi pemanduan autonomi. Dalam beberapa tahun kebelakangan ini, bidang ini telah berkembang pesat dan menghasilkan sejumlah besar kertas penyelidikan. Berdasarkan bentuk data yang pelbagai yang dijana oleh penderia, kaedah ini terbahagi terutamanya kepada tiga jenis: berasaskan imej, berasaskan awan titik dan berbilang modal. Metrik penilaian utama kaedah ini ialah ketepatan tinggi dan kependaman rendah. Banyak ulasan merumuskan pendekatan ini, memfokuskan terutamanya pada prinsip teras `ketepatan tinggi dan kependaman rendah', menerangkan trajektori teknikalnya.
Walau bagaimanapun, dalam proses teknologi pemanduan autonomi yang beralih daripada penemuan kepada aplikasi praktikal, ulasan sedia ada tidak mengambil persepsi keselamatan sebagai fokus teras dan gagal merangkumi laluan teknikal semasa yang berkaitan dengan persepsi keselamatan. Sebagai contoh, kaedah gabungan multimodal terkini sering diuji untuk kekukuhan semasa fasa percubaan, satu aspek yang belum dipertimbangkan sepenuhnya dalam semakan semasa.
Oleh itu, periksa semula algoritma pengesanan objek 3D, memfokuskan pada `ketepatan, kependaman dan kekukuhan' sebagai aspek utama. Kami mengklasifikasikan semula ulasan sebelumnya dengan penekanan khusus pada pengelasan semula dari perspektif persepsi keselamatan. Kerja ini diharapkan dapat memberikan pandangan baharu tentang penyelidikan masa depan tentang pengesanan objek 3D, melangkaui sekadar meneroka batasan ketepatan yang tinggi.
Atas ialah kandungan terperinci Pilih kamera atau lidar? Kajian terbaru tentang mencapai pengesanan objek 3D yang mantap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!