Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara beralih dari pandangan perspektif (PV) ke ruang pandangan mata burung (BEV) dengan berkesan Ciri transformasi, Transformasi ini dilaksanakan melalui modul Transformasi Visual,(VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian untuk korespondensi antara ciri 3D dan 2D melalui Transformer, yang meningkatkan kerumitan pengiraan dan penggunaan.
Makalah ini menunjukkan bahawa kaedah sedia ada seperti HeightFormer dan FB-BEV cuba menggabungkan kedua-dua strategi VT ini, tetapi kaedah ini biasanya menggunakan strategi dua peringkat Disebabkan oleh transformasi ciri yang berbeza dari dwi VT, ia adalah terhad oleh prestasi ciri awal Ini menghalang penyepaduan yang lancar antara dwi VT. Tambahan pula, kaedah ini masih menghadapi cabaran dalam mencapai penggunaan masa nyata pemanduan autonomi.
Sebagai tindak balas kepada masalah ini, kertas kerja mencadangkan kaedah penukaran ciri bersatu, sesuai untuk penukaran visual 2D kepada 3D dan 3D kepada 2D, dan menilai kesesuaian antara ciri 3D dan 2D melalui tiga ukuran kebarangkalian: kebarangkalian BEV, Kebarangkalian Unjuran dan imej kebarangkalian. Kaedah baharu ini bertujuan untuk mengurangkan kesan kawasan kosong dalam grid BEV pada pembinaan ciri, membezakan berbilang surat-menyurat dan mengecualikan ciri latar belakang semasa proses penukaran ciri.
Dengan menggunakan transformasi ciri bersatu ini, kertas kerja meneroka kaedah baharu transformasi visual 3D kepada 2D menggunakan rangkaian saraf konvolusi (CNN) dan memperkenalkan kaedah yang dipanggil HeightTrans. Selain menunjukkan prestasi unggulnya, ia juga menunjukkan potensi untuk pecutan melalui prapengiraan, menjadikannya sesuai untuk aplikasi pemanduan autonomi masa nyata. Pada masa yang sama, dengan menyepadukan transformasi ciri ini, proses LSS tradisional dipertingkatkan, menunjukkan kesejagatannya untuk pengesan semasa.
Menggabungkan HeightTrans dan Prob-LSS, kertas kerja itu memperkenalkan DualBEV, kaedah inovatif yang mempertimbangkan dan menggabungkan korespondensi daripada BEV dan pandangan perspektif dalam satu peringkat, menghapuskan pergantungan pada ciri awal. Selain itu, modul gabungan ciri BEV berkuasa yang dipanggil modul gabungan ciri ganda (DFF) dicadangkan untuk membantu memperhalusi ramalan kebarangkalian BEV dengan menggunakan modul perhatian saluran dan modul perhatian ruang. DualBEV mengikut prinsip "input meluas, keluaran ketat" dan memahami serta mewakili taburan kebarangkalian tempat kejadian dengan menggunakan surat-menyurat kebarangkalian dwi-pandangan yang tepat.
Sumbangan utama kertas kerja adalah seperti berikut:
Melalui inovasi ini, kertas kerja mencadangkan strategi baharu untuk mengatasi batasan kaedah sedia ada dan mencapai pengesanan objek yang lebih cekap dan tepat dalam senario aplikasi masa nyata seperti pemanduan autonomi.
Kaedah yang dicadangkan dalam kertas kerja ini bertujuan untuk menyelesaikan masalah pengesanan objek BEV (pandangan mata burung) dalam pemanduan autonomi melalui rangka kerja penukaran ciri bersatu, DualBEV. Di bawah ialah kandungan utama bahagian Kaedah, menggariskan sub-bahagian yang berbeza dan inovasi utama.
Aliran pemprosesan DualBEV bermula daripada ciri imej yang diperoleh daripada berbilang kamera, dan kemudian menggunakan SceneNet untuk menjana topeng contoh dan pemetaan kedalaman dan Pro.S saluran paip dan ciri transformasi, dan akhirnya ciri ini digabungkan dan digunakan untuk meramalkan taburan kebarangkalian ruang BEV untuk mendapatkan ciri BEV akhir untuk tugasan seterusnya.
HeightTrans adalah berdasarkan prinsip penukaran visual 3D ke 2D, dengan memilih kedudukan 3D dan menayangkannya ke dalam ruang imej, dan menilai kesesuaian 3D-2D ini. Kaedah ini mula-mula mengambil sampel set titik 3D dalam peta BEV yang dipratentukan, dan kemudian mempertimbangkan dan menapis surat-menyurat ini dengan teliti untuk menjana ciri BEV. HeightTrans meningkatkan perhatian kepada objek kecil dan menyelesaikan masalah mengelirukan yang disebabkan oleh piksel latar belakang dengan menggunakan strategi pensampelan berbilang resolusi dan kaedah pensampelan kebarangkalian. Selain itu, masalah grid BEV kosong diselesaikan dengan memperkenalkan kebarangkalian BEV . Modul HeightTrans ialah salah satu teknologi utama yang dicadangkan dalam kertas kerja, memfokuskan pada pemprosesan dan mengubah ciri melalui transformasi visual 3D kepada 2D (VT). Ia adalah berdasarkan pemilihan lokasi 3D daripada peta Bird's Eye View (BEV) yang dipratakrifkan dan menayangkan lokasi ini ke dalam ruang imej, dengan itu menilai kesesuaian antara 3D dan 2D. Berikut ialah pengenalan terperinci tentang cara HeightTrans berfungsi:
Kaedah HeightTrans mengamalkan strategi pensampelan berbilang resolusi apabila memproses ketinggian, meliputi keseluruhan julat ketinggian (dari -5 meter hingga 3 meter), dalam kawasan kepentingan Resolusi dalam ROI (ditakrifkan sebagai -2 meter hingga 2 meter) ialah 0.5 meter, dan resolusi di luar julat ini ialah 1.0 meter. Strategi ini membantu meningkatkan fokus pada objek kecil yang mungkin terlepas dalam persampelan resolusi yang lebih kasar.
HeightTrans mengamalkan langkah-langkah berikut dalam persampelan kebarangkalian:
dengan mengira prakiraan indeks bagi ruang BEV3, D dan indeks peta kedalaman semasa inferens , HeightTrans boleh mempercepatkan proses penukaran visual. Ciri HeightTrans terakhir memanjangkan saluran paip LSS (Lift, Splat, Shoot) tradisional dengan meramalkan kebarangkalian kedalaman untuk setiap piksel dengan
Prob-LSS yang dipratakrifkan untuk setiap jejaring BEV. Kaedah ini menyepadukan lagi kebarangkalian BEV untuk membina ciri LSS melalui formula berikut:
Melakukannya boleh menangani ketidakpastian anggaran mendalam dengan lebih baik, sekali gus mengurangkan maklumat berlebihan dalam ruang BEV.
Modul DFF direka untuk menggabungkan ciri daripada HeightTrans dan Prob-LSS dan meramalkan kebarangkalian BEV dengan berkesan. Dengan menggabungkan modul perhatian saluran dan ProbNet yang ditambah perhatian spatial, DFF dapat mengoptimumkan pemilihan ciri dan ramalan kebarangkalian BEV untuk meningkatkan perwakilan objek dekat dan jauh. Strategi gabungan ini mengambil kira ciri-ciri yang saling melengkapi daripada kedua-dua aliran sambil juga meningkatkan ketepatan kebarangkalian BEV dengan mengira perhatian tempatan dan global.
Ringkasnya, rangka kerja DualBEV yang dicadangkan dalam kertas kerja ini mencapai penilaian dan penukaran yang cekap bagi kesesuaian antara ciri 3D dan 2D dengan menggabungkan HeightTrans dan Prob-LSS, serta modul gabungan dwi ciri yang inovatif. Ini bukan sahaja merapatkan jurang antara strategi penukaran 2D ke 3D dan 3D ke 2D, tetapi juga mempercepatkan proses penukaran ciri melalui pra-pengiraan dan pengukuran kebarangkalian, menjadikannya sesuai untuk aplikasi pemanduan autonomi masa nyata.
Kunci kepada kaedah ini ialah surat-menyurat yang tepat dan gabungan ciri yang cekap dari sudut tontonan yang berbeza, dengan itu mencapai prestasi cemerlang dalam pengesanan objek BEV.
Varian kaedah DualBEV (DualBEV* dengan asterisk) berprestasi terbaik di bawah keadaan input bingkai tunggal, mencapai 35.2% mAP dan 42.5% NDS, yang menunjukkan bahawa ia adalah tepat. kaedah lain dari segi ketepatan dan prestasi menyeluruh. Terutama pada mAOE, DualBEV* mencapai skor 0.542, yang merupakan yang terbaik antara kaedah bingkai tunggal. Walau bagaimanapun, prestasinya pada mATE dan mASE tidak jauh lebih baik daripada kaedah lain.
Apabila bilangan bingkai input ditingkatkan kepada dua bingkai, prestasi DualBEV dipertingkatkan lagi, dengan mAP mencapai 38.0% dan NDS mencapai 50.4%. Ini adalah NDS tertinggi antara semua kaedah yang disenaraikan, menunjukkan bahawa DualBEV lebih komprehensif semasa memproses input yang lebih kompleks. Antara kaedah berbilang bingkai, ia juga menunjukkan prestasi kukuh dalam mATE, mASE dan mAAE, terutamanya peningkatan ketara dalam mAOE, menunjukkan kelebihannya dalam menganggar arah objek.
Dapat dianalisis daripada keputusan ini bahawa DualBEV dan variannya berprestasi baik pada berbilang penunjuk prestasi penting, terutamanya dalam tetapan berbilang bingkai, menunjukkan bahawa ia mempunyai ketepatan dan ketepatan yang baik untuk tugas pengesanan objek BEV. Tambahan pula, keputusan ini juga menyerlahkan kepentingan menggunakan data berbilang bingkai untuk meningkatkan prestasi keseluruhan dan ketepatan anggaran model.
Berikut adalah analisis keputusan setiap eksperimen ablasi:
Eksperimen ablasi menunjukkan bahawa komponen dan strategi seperti HeightTrans, langkah kebarangkalian, Prob-Sampling dan DFF adalah penting untuk meningkatkan prestasi model. Selain itu, penggunaan strategi persampelan pelbagai resolusi pada maklumat ketinggian juga membuktikan keberkesanannya. Penemuan ini menyokong hujah penulis bahawa setiap teknik yang dibentangkan dalam bahagian kaedah menyumbang secara positif kepada prestasi model.
Kertas ini menunjukkan prestasi kaedahnya melalui satu siri eksperimen ablasi. Dapat dilihat daripada keputusan eksperimen bahawa rangka kerja DualBEV yang dicadangkan dalam kertas kerja dan pelbagai komponennya mempunyai kesan positif ke atas meningkatkan ketepatan pengesanan objek pandangan mata burung (BEV).
Kaedah makalah secara beransur-ansur memperkenalkan modul ProbNet, HeightTrans, CAF (Channel Attention Fusion), dan SAE (Spatial Attention Enhanced) ke dalam model garis dasar, menunjukkan peningkatan ketara dalam kedua-dua penunjuk mAP dan NDS. Ini ditunjukkan bahawa setiap komponen memainkan peranan penting dalam keseluruhan seni bina. Terutama selepas pengenalan SAE, skor NDS meningkat kepada titik tertinggi 42.5%, manakala kelewatan hanya meningkat sedikit, yang menunjukkan bahawa kaedah itu mencapai keseimbangan yang baik antara ketepatan dan kelewatan.
Keputusan percubaan ablasi kebarangkalian mengesahkan lagi kepentingan kebarangkalian unjuran, kebarangkalian imej dan kebarangkalian BEV dalam meningkatkan prestasi pengesanan. Apabila kebarangkalian ini diperkenalkan satu demi satu, skor mAP dan NDS sistem bertambah baik, menunjukkan kepentingan untuk menyepadukan langkah-langkah kebarangkalian ini ke dalam tugas pengesanan objek BEV.
Dalam perbandingan operasi transformasi visual (VT), kaedah Prob-Sampling yang dicadangkan oleh kertas kerja menunjukkan kependaman yang lebih rendah dan skor NDS yang lebih tinggi berbanding dengan operasi lain seperti SCAda dan Bilinear-Sampling, yang menekankan prestasinya dalam Kecekapan dan kelebihan prestasi . Di samping itu, untuk strategi pensampelan ketinggian yang berbeza, menggunakan strategi berbilang resolusi (MR) dan bukannya pensampelan seragam boleh meningkatkan lagi skor NDS, yang menunjukkan kepentingan untuk mempertimbangkan maklumat pada ketinggian yang berbeza di tempat kejadian untuk meningkatkan prestasi pengesanan.
Selain itu, untuk strategi gabungan ciri yang berbeza, kertas kerja menunjukkan bahawa kaedah DFF masih boleh mengekalkan skor NDS yang tinggi sambil memudahkan model, yang bermakna menggabungkan ciri dwi-strim dalam aliran pemprosesan satu peringkat adalah berkesan.
Walau bagaimanapun, walaupun kaedah yang dicadangkan dalam kertas kerja menunjukkan prestasi yang baik dalam banyak aspek, setiap penambahbaikan juga akan membawa kepada peningkatan dalam kerumitan sistem dan kos pengiraan. Sebagai contoh, setiap kali komponen baharu diperkenalkan (seperti ProbNet, HeightTrans, dll.), kependaman sistem akan meningkat Walaupun peningkatan dalam kependaman adalah halus, dalam aplikasi dengan keperluan masa nyata atau kependaman rendah, ini boleh jadi pertimbangan. Tambahan pula, sementara langkah kebarangkalian menyumbang kepada peningkatan prestasi, ia juga memerlukan sumber pengkomputeran tambahan untuk menganggarkan kebarangkalian ini, yang berpotensi menghasilkan penggunaan sumber yang lebih tinggi.
Kaedah DualBEV yang dicadangkan dalam kertas kerja telah mencapai hasil yang luar biasa dalam meningkatkan ketepatan dan prestasi komprehensif pengesanan objek BEV, terutamanya dalam menggabungkan kemajuan terkini dalam pembelajaran mendalam dengan teknologi transformasi visual. Walau bagaimanapun, kemajuan ini datang dengan kos peningkatan sedikit kependaman pengiraan dan penggunaan sumber, dan aplikasi praktikal perlu menimbang faktor ini berdasarkan kes demi kes.
Kaedah ini berfungsi dengan baik dalam tugas pengesanan objek BEV, meningkatkan ketepatan dan prestasi keseluruhan dengan ketara. Dengan memperkenalkan pensampelan kebarangkalian, transformasi ketinggian, mekanisme perhatian dan rangkaian pembesaran perhatian spatial, DualBEV berjaya meningkatkan berbilang penunjuk prestasi utama, terutamanya dalam ketepatan pandangan mata burung (BEV) dan pemahaman pemandangan. Keputusan eksperimen menunjukkan bahawa kaedah kertas itu amat berkesan dalam memproses adegan dan data yang kompleks daripada perspektif yang berbeza, yang penting untuk pemanduan autonomi dan aplikasi pemantauan masa nyata yang lain.
Atas ialah kandungan terperinci DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!