Pada masa ini, apabila teknologi pemanduan autonomi menjadi lebih matang dan permintaan untuk tugas persepsi pemanduan autonomi meningkat, industri dan akademia sangat berharap untuk model algoritma persepsi ideal yang boleh Melengkapkan serentak pengesanan sasaran tiga dimensi dan tugas pembahagian semantik berdasarkan ruang BEV. Untuk kenderaan yang mampu memandu autonomi, ia biasanya dilengkapi dengan penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul data dalam kaedah yang berbeza. Dengan cara ini, kelebihan pelengkap antara data modal yang berbeza boleh digunakan sepenuhnya, supaya kelebihan pelengkap data antara modaliti yang berbeza boleh dicapai Contohnya, data awan titik 3D boleh memberikan maklumat untuk tugas pengesanan sasaran 3D, manakala data imej berwarna boleh memberikan lebih banyak maklumat untuk tugasan segmentasi semantik maklumat yang tepat. Memandangkan kelebihan pelengkap antara data modal yang berbeza, dengan menukar maklumat berkesan data modal yang berbeza ke dalam sistem koordinat yang sama, pemprosesan bersama seterusnya dan membuat keputusan dipermudahkan. Sebagai contoh, data awan titik 3D boleh ditukar menjadi data awan titik berdasarkan ruang BEV, dan data imej daripada kamera pandangan sekeliling boleh ditayangkan ke dalam ruang 3D melalui penentukuran parameter dalaman dan luaran kamera, dengan itu mencapai pemprosesan bersatu data modal yang berbeza. Dengan memanfaatkan data modal yang berbeza, hasil persepsi yang lebih tepat boleh diperolehi daripada data modal tunggal. Kini, kami sudah boleh menggunakan model algoritma persepsi pelbagai mod pada kereta untuk mengeluarkan hasil persepsi ruang yang lebih mantap dan tepat Melalui hasil persepsi ruang yang tepat, kami boleh memberikan jaminan yang lebih dipercayai dan selamat untuk merealisasikan fungsi pemanduan autonomi.
Walaupun banyak algoritma persepsi 3D untuk gabungan data berbilang deria dan berbilang modal berdasarkan rangka kerja rangkaian Transformer baru-baru ini telah dicadangkan dalam akademik dan industri, kesemuanya menggunakan mekanisme perhatian silang dalam Transformer untuk mencapai penyepaduan data berbilang modal. gabungan antara mereka untuk mencapai hasil pengesanan sasaran 3D yang ideal. Walau bagaimanapun, kaedah gabungan ciri berbilang modal jenis ini tidak sesuai sepenuhnya untuk tugasan segmentasi semantik berdasarkan ruang BEV. Di samping itu, selain menggunakan mekanisme perhatian silang untuk melengkapkan gabungan maklumat antara modaliti yang berbeza, banyak algoritma menggunakan penukaran vektor ke hadapan dalam LSA untuk membina ciri bercantum, tetapi terdapat juga beberapa masalah seperti berikut: (Batasan bilangan perkataan, penerangan terperinci berikut ).
Memandangkan banyak masalah yang dinyatakan di atas dalam proses gabungan pelbagai mod yang mungkin menjejaskan keupayaan persepsi model akhir, dan mengambil kira prestasi berkuasa yang ditunjukkan baru-baru ini oleh model generatif, kami meneroka model generatif menggunakan Ia digunakan untuk mencapai gabungan pelbagai mod dan tugasan penolakan antara berbilang penderia. Berdasarkan ini, kami mencadangkan algoritma persepsi model generatif DifFUSER berdasarkan penyebaran bersyarat untuk melaksanakan tugas persepsi pelbagai mod. Seperti yang dapat dilihat daripada rajah di bawah, algoritma gabungan data berbilang modal DifFUSER yang kami cadangkan boleh mencapai proses gabungan pelbagai mod yang lebih berkesan. ![Algoritma gabungan data berbilang mod DifFUSER](pautan gambar) Algoritma gabungan data multimodal DifFUSER boleh mencapai proses gabungan multimodal yang lebih berkesan Kaedah ini merangkumi dua peringkat. Pertama, kami menggunakan model generatif untuk mengecilkan dan meningkatkan data input, menjana data multimodal yang bersih dan kaya. Kemudian, data yang dijana oleh model generatif digunakan untuk gabungan pelbagai modal untuk mencapai kesan persepsi yang lebih baik. Keputusan percubaan algoritma DifFUSER menunjukkan bahawa algoritma gabungan data berbilang modal yang kami cadangkan boleh mencapai proses gabungan berbilang modal yang lebih berkesan. Apabila melaksanakan tugas persepsi pelbagai modal, algoritma ini boleh mencapai proses gabungan pelbagai mod yang lebih berkesan dan meningkatkan keupayaan persepsi model. Di samping itu, algoritma gabungan data berbilang modal algoritma boleh mencapai proses gabungan berbilang modal yang lebih cekap. Secara keseluruhannya
Carta perbandingan visual hasil model algoritma yang dicadangkan dan model algoritma lain
Pautan kertas: https://arxiv.org/pdf/2404.04629.pdf
"Butiran modul algoritma DifFUSER, algoritma persepsi pelbagai tugas berdasarkan model resapan bersyarat" ialah algoritma yang digunakan untuk menyelesaikan masalah persepsi tugas. Rajah di bawah menunjukkan struktur rangkaian keseluruhan algoritma DifFUSER kami yang dicadangkan. Dalam modul ini, kami mencadangkan algoritma persepsi pelbagai tugas berdasarkan model resapan bersyarat untuk menyelesaikan masalah persepsi tugas. Matlamat algoritma ini adalah untuk meningkatkan prestasi pembelajaran pelbagai tugas dengan menyebarkan dan mengagregatkan maklumat khusus tugas dalam rangkaian. Penyepaduan algoritma DifFUSER
Cadangan gambarajah struktur rangkaian model algoritma persepsi DifFUSER
Seperti yang dapat dilihat daripada rajah di atas, struktur rangkaian DifFUSER yang kami cadangkan terutamanya merangkumi tiga sub-rangkaian, iaitu bahagian rangkaian tulang belakang, bahagian gabungan data berbilang modal DifFUSER dan bahagian Ketua BEV akhir tugas pembahagian semantik. Ketua bahagian tugas persepsi pengesanan objek 3D. Di bahagian rangkaian tulang belakang, kami menggunakan seni bina rangkaian pembelajaran mendalam sedia ada, seperti ResNet atau VGG, untuk mengekstrak ciri peringkat tinggi data input. Bahagian gabungan data berbilang modal DifFUSER menggunakan berbilang cawangan selari, setiap cawangan digunakan untuk memproses jenis data penderia yang berbeza (seperti imej, lidar dan radar, dsb.). Setiap cawangan mempunyai bahagian rangkaian tulang belakangnya sendiri
Seterusnya, kami akan memperkenalkan dengan teliti butiran pelaksanaan setiap sub-bahagian utama model.
Untuk tugas persepsi dalam sistem pemanduan autonomi, adalah penting bahawa model algoritma dapat melihat persekitaran luaran semasa dalam masa nyata, jadi Ia adalah sangat penting untuk memastikan prestasi dan kecekapan modul resapan. Oleh itu, kami diilhamkan oleh rangkaian piramid ciri dua hala dan memperkenalkan seni bina resapan BiFPN dengan keadaan yang sama, yang kami panggil Struktur rangkaian khususnya ditunjukkan dalam rajah di atas.
Untuk kenderaan autonomi, prestasi penderia pemerolehan pemanduan autonomi adalah penting semasa memandu harian, berkemungkinan besar kenderaan itu berautonomi sensor kamera atau sensor lidar akan disekat atau tidak berfungsi, yang akan menjejaskan keselamatan dan kecekapan pengendalian sistem pemanduan autonomi akhir. Berdasarkan pertimbangan ini, kami mencadangkan paradigma latihan keciciran sensor progresif untuk meningkatkan keteguhan dan kebolehsuaian model algoritma yang dicadangkan dalam situasi di mana sensor mungkin disekat.
Melalui paradigma latihan keciciran sensor progresif kami yang dicadangkan, model algoritma boleh membina semula ciri yang hilang dengan menggunakan pengedaran dua data modal yang dikumpul oleh sensor kamera dan sensor lidar, dengan itu mencapai penyesuaian yang sangat baik dalam prestasi dan keteguhan keadaan yang teruk. Khususnya, kami mengeksploitasi ciri daripada data imej dan data awan titik lidar dalam tiga cara berbeza, sebagai sasaran latihan, input hingar kepada modul resapan dan untuk mensimulasikan keadaan di mana penderia hilang atau tidak berfungsi Untuk mensimulasikan keadaan Kehilangan atau kegagalan sensor. kami secara beransur-ansur meningkatkan kadar kehilangan sensor kamera atau input sensor lidar daripada 0 kepada nilai maksimum yang telah ditetapkan a = 25 semasa latihan. Keseluruhan proses boleh dinyatakan dengan formula berikut:
Antaranya, mewakili bilangan pusingan latihan yang model semasa berada, dan mentakrifkan kebarangkalian keciciran untuk mewakili kebarangkalian setiap ciri digugurkan. Melalui proses latihan progresif ini, model ini bukan sahaja dilatih untuk mengecilkan dan menjana ciri yang lebih ekspresif dengan berkesan, tetapi juga meminimumkan pergantungannya pada mana-mana penderia tunggal, dengan itu meningkatkan pengendalian penderia yang tidak lengkap dengan keupayaan Data yang lebih besar.
Secara khusus, struktur rangkaian Modul Resapan Modulasi Berhawa Dingin Berpagar ditunjukkan dalam rajah di bawah
Gambarajah Skema Resapan Modulasi struktur rangkaian modul
Untuk mengesahkan keputusan persepsi DifksFUSER kami yang dicadangkan pada model yang dicadangkan pada data nuScenes set pengesanan sasaran 3D dan eksperimen segmentasi semantik berdasarkan ruang BEV.
Pertama sekali, kami membandingkan prestasi model algoritma DifFUSER yang dicadangkan dengan algoritma gabungan berbilang mod yang lain pada tugasan segmentasi semantik Keputusan eksperimen khusus ditunjukkan dalam jadual berikut:
Model algoritma yang berbeza pada set data nuScenes Perbandingan. hasil eksperimen bagi tugasan segmentasi semantik berdasarkan ruang BEV
Dapat dilihat daripada keputusan eksperimen bahawa model algoritma yang kami cadangkan telah meningkatkan prestasi dengan ketara berbanding model garis dasar. Secara khusus, nilai mIoU model BEVFusion hanya 62.7%, manakala model algoritma yang kami cadangkan telah mencapai 69.1%, dengan peningkatan 6.4% mata, yang menunjukkan bahawa algoritma yang kami cadangkan mempunyai lebih banyak kelebihan dalam kategori yang berbeza. Di samping itu, rajah di bawah juga lebih intuitif menggambarkan kelebihan model algoritma yang kami cadangkan. Khususnya, algoritma BEVFusion akan mengeluarkan hasil pembahagian yang lemah, terutamanya dalam adegan jarak jauh, di mana salah jajaran sensor lebih jelas. Sebagai perbandingan, model algoritma kami mempunyai hasil pembahagian yang lebih tepat, dengan butiran yang lebih jelas dan kurang hingar.
Perbandingan hasil visualisasi pembahagian model algoritma yang dicadangkan dan model garis dasar
Selain itu, kami juga membandingkan model algoritma yang dicadangkan dengan model algoritma pengesanan sasaran 3D yang lain Keputusan percubaan khusus ditunjukkan dalam jadual di bawah
Perbandingan hasil percubaan model algoritma yang berbeza pada tugas pengesanan sasaran 3D pada dataset nuScenes
Seperti yang dapat dilihat daripada keputusan yang disenaraikan dalam jadual, model algoritma DifFUSER kami yang dicadangkan mempunyai prestasi yang lebih baik dalam kedua-dua NDS dan mAP penunjuk daripada model garis dasar Berbanding dengan 72.9% NDS dan 70.2% mAP model garis dasar BEVFusion, model algoritma kami masing-masing adalah 1.8% dan 1.0%. Penambahbaikan penunjuk yang berkaitan menunjukkan bahawa modul gabungan resapan pelbagai mod yang kami cadangkan berkesan dalam pengurangan ciri dan proses penghalusan ciri.
Selain itu, untuk menunjukkan keteguhan persepsi model algoritma kami yang dicadangkan dalam kes kegagalan sensor atau oklusi, kami membandingkan hasil tugasan segmentasi yang berkaitan, seperti yang ditunjukkan dalam rajah di bawah. . kandungan alternatif. Keupayaan model algoritma DifFUSER kami yang dicadangkan untuk menjana dan menggunakan ciri sintetik dengan berkesan mengurangkan pergantungan pada mana-mana modaliti penderia tunggal dan memastikan model boleh berjalan lancar dalam persekitaran yang pelbagai dan mencabar.
Rajah berikut menunjukkan visualisasi pengesanan sasaran 3D dan hasil segmentasi semantik ruang BEV model algoritma DifFUSER kami yang dicadangkan Ia boleh dilihat daripada hasil visualisasi bahawa model algoritma yang kami cadangkan mempunyai kebaikan pengesanan dan kesan Split.
Artikel ini mencadangkan model algoritma persepsi pelbagai mod DifFUSER berdasarkan model resapan, yang meningkatkan kualiti gabungan model rangkaian dengan menambah baik seni bina gabungan model rangkaian dan menggunakan sifat denoising daripada model resapan. Keputusan percubaan pada set data Nuscenes menunjukkan bahawa model algoritma yang kami cadangkan mencapai prestasi segmentasi SOTA dalam tugas segmentasi semantik ruang BEV, dan boleh mencapai prestasi pengesanan yang serupa dengan model algoritma SOTA semasa dalam tugas pengesanan sasaran 3D.
Atas ialah kandungan terperinci Di luar BEVFusion! DifFUSER: Model resapan memasuki pelbagai tugas pemanduan autonomi (segmen BEV + pengesanan dwi SOTA). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!