Pengesanan Objek 3D berdasarkan awan titik LiDAR adalah masalah yang sangat klasik, kedua-dua ahli akademik dan industri telah mencadangkan pelbagai model untuk meningkatkan ketepatan, kelajuan dan keteguhan. Walau bagaimanapun, disebabkan persekitaran luar yang kompleks, prestasi Pengesanan Objek untuk awan titik luar tidak begitu baik. Awan titik Lidar bersifat jarang Bagaimana untuk menyelesaikan masalah ini dengan cara yang disasarkan? Kertas itu memberikan jawapannya sendiri: mengekstrak maklumat berdasarkan pengagregatan maklumat siri masa. . Ini penting untuk memastikan kebolehpercayaan dan keselamatan kenderaan autonomi. Khususnya, kenderaan autonomi perlu dapat mengenali objek sekeliling, seperti kenderaan dan pejalan kaki, dan menentukan lokasi, saiz dan orientasinya dengan tepat. Biasanya, orang menggunakan rangkaian saraf dalam untuk memproses data LiDAR untuk menyelesaikan tugas ini.
Artikel itu juga menyebut bahawa untuk meningkatkan julat pengesanan, beberapa operasi lanjutan boleh digunakan, seperti lilitan jarang, modul perhatian dan lilitan 3D. Walau bagaimanapun, operasi ini biasanya mengabaikan isu keserasian perkakasan sasaran. Apabila menggunakan dan melatih rangkaian saraf, perkakasan yang digunakan selalunya berbeza dengan ketara dalam operasi dan kependaman yang disokong. Contohnya, perkakasan sasaran seperti Nvidia Orin DLA selalunya tidak menyokong operasi seperti lilitan atau perhatian yang jarang. Selain itu, menggunakan lapisan seperti lilitan 3D selalunya tidak dapat dilaksanakan kerana keperluan kependaman masa nyata. Ini menekankan keperluan untuk menggunakan operasi mudah seperti lilitan 2D.
Makalah ini mencadangkan model rekursif temporal baharu, TimePillars, yang menghormati set operasi yang disokong pada perkakasan sasaran biasa, bergantung pada lilitan 2D, berdasarkan perwakilan input tiang-titik (Tiang) dan unit rekursif konvolusi. Pampasan gerakan kendiri digunakan pada keadaan tersembunyi unit berulang dengan bantuan satu konvolusi dan pembelajaran tambahan. Penggunaan tugas tambahan untuk memastikan ketepatan manipulasi ini telah terbukti sesuai melalui kajian ablasi. Kertas kerja ini juga menyiasat penempatan optimum modul rekursif dalam saluran paip dan dengan jelas menunjukkan bahawa meletakkannya di antara tulang belakang rangkaian dan kepala pengesanan menghasilkan prestasi terbaik. Mengenai Zenseact Open Dataset (ZOD) yang baru dikeluarkan, kertas kerja menunjukkan keberkesanan kaedah TimePillars. Berbanding dengan garis dasar titik dan tiang bingkai tunggal dan berbilang bingkai, TimePillars mencapai peningkatan prestasi penilaian yang ketara, terutamanya pada pengesanan jarak jauh (sehingga 200 meter) dalam kategori penunggang basikal dan pejalan kaki yang penting. Akhir sekali, TimePillars mempunyai kependaman yang jauh lebih rendah daripada tiang titik berbilang bingkai, menjadikannya sesuai untuk sistem masa nyata. Kertas kerja ini mencadangkan model rekursif temporal baharu yang dipanggil TimePillars untuk menyelesaikan tugas pengesanan objek lidar 3D dan mempertimbangkan set operasi yang disokong oleh perkakasan sasaran biasa. Percubaan telah membuktikan bahawa TimePillars mencapai prestasi yang jauh lebih baik daripada garis dasar tiang titik bingkai tunggal dan berbilang bingkai dalam pengesanan jarak jauh. Selain itu, kertas itu juga menanda aras model pengesanan objek lidar 3D pada set data terbuka Zenseact buat kali pertama. Walau bagaimanapun, batasan kertas adalah bahawa ia hanya memfokuskan pada data lidar, tidak mempertimbangkan input penderia lain dan mendasarkan pendekatannya pada garis dasar tunggal yang canggih. Walau bagaimanapun, pengarang percaya bahawa rangka kerja mereka adalah umum, iaitu, penambahbaikan masa depan pada garis dasar akan diterjemahkan kepada peningkatan prestasi keseluruhan.Penjelasan terperinci tentang TimePillars
Dalam bahagian "Input Praprocessing" kertas ini, penulis menggunakan teknik yang dipanggil "pillarization" untuk memproses data awan titik input. Berbeza daripada vokselisasi konvensional, kaedah ini membahagikan awan titik ke dalam struktur kolumnar menegak, membahagikan hanya dalam arah mendatar (paksi x dan y) sambil mengekalkan ketinggian tetap dalam arah menegak (paksi z). Kelebihan kaedah pemprosesan ini ialah ia dapat mengekalkan ketekalan saiz input rangkaian dan boleh menggunakan lilitan 2D untuk pemprosesan yang cekap. Dengan cara ini, data awan titik boleh diproses dengan cekap, memberikan input yang lebih tepat dan boleh dipercayai untuk tugasan seterusnya.
Walau bagaimanapun, satu masalah dengan Pilarisasi ialah ia menghasilkan banyak lajur kosong, mengakibatkan data yang sangat jarang. Untuk menyelesaikan masalah ini, makalah ini mencadangkan penggunaan teknologi voxelisasi dinamik. Teknik ini mengelakkan keperluan untuk mempunyai bilangan mata yang telah ditetapkan untuk setiap lajur, dengan itu menghapuskan keperluan untuk operasi pemotongan atau pengisian pada setiap lajur. Sebaliknya, keseluruhan data awan titik diproses secara keseluruhan untuk memadankan jumlah mata yang diperlukan, di sini ditetapkan kepada 200,000 mata. Faedah kaedah prapemprosesan ini ialah ia meminimumkan kehilangan maklumat dan menjadikan perwakilan data yang dijana lebih stabil dan konsisten.
Kemudian untuk seni bina Model, penulis memperkenalkan secara terperinci seni bina rangkaian saraf yang terdiri daripada pengekod ciri tiang (Pillar Feature Encoder), tulang belakang rangkaian neural convolutional (CNN) 2D dan kepala pengesan.
Dalam bahagian kertas ini, penulis membincangkan cara memproses output ciri keadaan tersembunyi oleh GRU konvolusi, yang diwakili oleh sistem koordinat bingkai sebelumnya. Jika disimpan terus dan digunakan untuk mengira ramalan seterusnya, ketidakpadanan spatial akan berlaku disebabkan oleh pergerakan ego.
Untuk penukaran, teknik yang berbeza boleh digunakan. Sebaik-baiknya, data yang diperbetulkan akan dimasukkan ke dalam rangkaian dan bukannya diubah dalam rangkaian. Walau bagaimanapun, ini bukan kaedah yang dicadangkan dalam kertas itu, kerana ia memerlukan penetapan semula keadaan tersembunyi pada setiap langkah dalam proses inferens, mengubah awan titik sebelumnya dan menyebarkannya ke seluruh rangkaian. Ini bukan sahaja tidak cekap, ia mengalahkan tujuan menggunakan RNN. Oleh itu, dalam konteks gelung, pampasan perlu dilakukan pada peringkat ciri. Ini menjadikan penyelesaian hipotesis lebih cekap, tetapi juga menjadikan masalah lebih kompleks. Kaedah interpolasi tradisional boleh digunakan untuk mendapatkan ciri dalam sistem koordinat yang diubah.
Sebaliknya, diilhamkan oleh kerja Chen et al., kertas kerja itu mencadangkan untuk menggunakan operasi konvolusi dan tugas tambahan untuk melaksanakan transformasi. Memandangkan butiran terhad bagi kerja yang disebutkan di atas, kertas kerja mencadangkan penyelesaian tersuai untuk masalah ini.
Pendekatan yang diambil oleh kertas itu adalah untuk menyediakan rangkaian dengan maklumat yang diperlukan untuk melakukan transformasi ciri melalui lapisan konvolusi tambahan. Matriks penjelmaan relatif antara dua bingkai berturut-turut mula-mula dikira, iaitu operasi yang diperlukan untuk berjaya mengubah ciri. Kemudian, ekstrak maklumat 2D (bahagian putaran dan terjemahan) daripadanya:
Pemudahan ini mengelakkan pemalar matriks utama dan berfungsi dalam domain 2D (imej pseudo), mengurangkan 16 nilai kepada 6. Matriks kemudiannya diratakan dan dibesarkan untuk dipadankan dengan bentuk ciri tersembunyi untuk diberi pampasan. Dimensi pertama mewakili bilangan bingkai yang perlu ditukar. Perwakilan ini menjadikannya sesuai untuk menggabungkan setiap tiang berpotensi dalam dimensi saluran ciri tersembunyi.
Akhir sekali, ciri keadaan tersembunyi dimasukkan ke dalam lapisan konvolusi 2D, yang disesuaikan dengan proses transformasi. Aspek utama yang perlu diberi perhatian ialah melakukan konvolusi tidak menjamin bahawa transformasi akan berlaku. Penggabungan saluran hanya menyediakan rangkaian maklumat tambahan tentang cara transformasi mungkin dilakukan. Dalam hal ini, penggunaan pembelajaran berbantu adalah sesuai. Semasa latihan, objektif pembelajaran tambahan (transformasi koordinat) ditambah selari dengan objektif utama (pengesan objek). Tugas tambahan direka bentuk yang tujuannya adalah untuk membimbing rangkaian melalui proses transformasi di bawah penyeliaan untuk memastikan ketepatan pampasan Tugas tambahan adalah terhad kepada proses latihan. Setelah rangkaian belajar mengubah ciri dengan betul, ia kehilangan kebolehgunaannya. Oleh itu, tugasan ini tidak dipertimbangkan semasa inferens. Dalam bahagian seterusnya eksperimen lanjut akan dijalankan untuk membandingkan kesannya.
Hasil eksperimen menunjukkan bahawa model TimePillars berprestasi baik apabila memproses set data bingkai Zenseact Open Dataset (ZOD), terutamanya apabila memproses julat sehingga 120 meter. Keputusan ini menyerlahkan perbezaan prestasi TimePillars di bawah kaedah transformasi gerakan yang berbeza dan bandingkan dengan kaedah lain.
Selepas membandingkan PointPillars model garis dasar dan PointPillars berbilang bingkai (MF), dapat dilihat bahawa TimePillars telah mencapai peningkatan yang ketara dalam berbilang penunjuk prestasi utama. Terutama pada Skor Pengesanan NuScenes (NDS), TimePillars menunjukkan skor keseluruhan yang lebih tinggi, mencerminkan kelebihannya dalam prestasi pengesanan dan ketepatan kedudukan. Selain itu, TimePillars juga mencapai nilai yang lebih rendah dalam ralat penukaran purata (mATE), ralat skala purata (mASE) dan ralat orientasi purata (mAOE), menunjukkan bahawa ia lebih tepat dalam ketepatan kedudukan dan anggaran orientasi. Nota khusus ialah pelaksanaan TimePillars yang berbeza dari segi penukaran gerakan mempunyai kesan yang signifikan terhadap prestasi. Apabila menggunakan transformasi gerakan berasaskan lilitan (berasaskan Conv), TimePillars berprestasi baik pada NDS, mATE, mASE dan mAOE, membuktikan keberkesanan kaedah ini dalam pampasan gerakan dan meningkatkan ketepatan pengesanan. Sebaliknya, TimePillars menggunakan kaedah interpolasi juga mengatasi model garis dasar, tetapi lebih rendah daripada kaedah konvolusi dalam beberapa penunjuk. Keputusan ketepatan purata (mAP) menunjukkan bahawa TimePillars berprestasi baik dalam pengesanan kategori kenderaan, penunggang basikal dan pejalan kaki, terutamanya apabila berhadapan dengan kategori yang lebih mencabar seperti penunggang basikal dan pejalan kaki, peningkatan prestasinya adalah lebih ketara. Dari perspektif kekerapan pemprosesan (f (Hz)), walaupun TimePillars tidak sepantas PointPillars bingkai tunggal, ia lebih pantas daripada PointPillars berbilang bingkai sambil mengekalkan prestasi pengesanan yang tinggi. Ini menunjukkan bahawa TimePillars boleh melakukan pengesanan jarak jauh dan pampasan gerakan dengan berkesan sambil mengekalkan pemprosesan masa nyata. Dalam erti kata lain, model TimePillars menunjukkan kelebihan ketara dalam pengesanan jarak jauh, pampasan gerakan dan kelajuan pemprosesan, terutamanya apabila memproses data berbilang bingkai dan menggunakan teknologi penukaran gerakan berasaskan konvolusi. Keputusan ini menyerlahkan potensi aplikasi TimePillars dalam bidang pengesanan objek lidar 3D untuk kenderaan autonomi.
Keputusan percubaan di atas menunjukkan bahawa model TimePillars berprestasi cemerlang dalam prestasi pengesanan objek dalam julat jarak yang berbeza, terutamanya berbanding dengan model penanda aras PointPillars. Keputusan ini dibahagikan kepada tiga julat pengesanan utama: 0 hingga 50 meter, 50 hingga 100 meter dan ke atas 100 meter.
Pertama sekali, NuScenes Detection Score (NDS) dan Average Precision (mAP) ialah penunjuk prestasi keseluruhan. TimePillars mengatasi PointPillars pada kedua-dua metrik, menunjukkan keseluruhan keupayaan pengesanan yang lebih tinggi dan ketepatan kedudukan. Secara khusus, TimePillars' NDS ialah 0.723, yang jauh lebih tinggi daripada PointPillars' 0.657 dari segi mAP, TimePillars juga dengan ketara mengatasi PointPillars' 0.475 dengan 0.570.
Dalam perbandingan prestasi dalam julat jarak yang berbeza, dapat dilihat bahawa TimePillars berprestasi lebih baik dalam setiap julat. Bagi kategori kenderaan, ketepatan pengesanan TimePillars dalam julat 0 hingga 50 meter, 50 hingga 100 meter dan lebih 100 meter masing-masing ialah 0.884, 0.776 dan 0.591, yang semuanya lebih tinggi daripada prestasi PointPillars dalam julat yang sama. Ini menunjukkan bahawa TimePillars mempunyai ketepatan yang lebih tinggi dalam pengesanan kenderaan, baik pada jarak dekat dan jauh. TimePillars juga menunjukkan prestasi pengesanan yang lebih baik apabila berurusan dengan kenderaan yang terdedah (seperti motosikal, kerusi roda, skuter elektrik, dsb.). Terutamanya dalam julat lebih daripada 100 meter, ketepatan pengesanan TimePillars ialah 0.178, manakala PointPillars hanya 0.036, menunjukkan kelebihan ketara dalam pengesanan jarak jauh. Bagi pengesanan pejalan kaki, TimePillars juga menunjukkan prestasi yang lebih baik, terutamanya dalam julat 50 hingga 100 meter, dengan ketepatan pengesanan 0.350, manakala PointPillars hanya 0.211. Walaupun pada jarak yang lebih jauh (lebih 100 meter), TimePillars masih mencapai tahap pengesanan tertentu (ketepatan 0.032), manakala PointPillars melakukan sifar pada julat ini.
Keputusan percubaan ini menyerlahkan prestasi unggul TimePillars dalam mengendalikan tugas pengesanan objek dalam julat jarak yang berbeza. Sama ada pada jarak dekat atau pada jarak jauh yang lebih mencabar, TimePillars memberikan hasil pengesanan yang lebih tepat dan boleh dipercayai, yang penting untuk keselamatan dan kecekapan kenderaan autonomi.
Pertama sekali, kelebihan utama model TimePillars ialah keberkesanannya untuk pengesanan objek jarak jauh. Dengan menggunakan vokselisasi dinamik dan struktur GRU konvolusi, model ini lebih mampu mengendalikan data lidar yang jarang, terutamanya dalam pengesanan objek jarak jauh. Ini penting untuk operasi selamat kenderaan autonomi dalam persekitaran jalan yang kompleks dan berubah-ubah. Di samping itu, model ini juga menunjukkan prestasi yang baik dari segi kelajuan pemprosesan, yang penting untuk aplikasi masa nyata. Sebaliknya, TimePillars menggunakan kaedah berasaskan konvolusi untuk Pampasan Pergerakan, yang merupakan peningkatan besar berbanding kaedah tradisional. Pendekatan ini memastikan ketepatan transformasi melalui tugas tambahan semasa latihan, meningkatkan ketepatan model semasa mengendalikan objek bergerak.
Walau bagaimanapun, penyelidikan kertas ini juga mempunyai beberapa batasan. Pertama, sementara TimePillars berprestasi baik dalam mengendalikan pengesanan objek jauh, peningkatan prestasi ini mungkin berlaku dengan mengorbankan beberapa kelajuan pemprosesan. Walaupun kelajuan model masih sesuai untuk aplikasi masa nyata, ia masih berkurangan berbanding kaedah bingkai tunggal. Di samping itu, kertas kerja ini tertumpu terutamanya pada data LiDAR dan tidak mempertimbangkan input sensor lain, seperti kamera atau radar, yang mungkin mengehadkan penggunaan model dalam persekitaran berbilang penderia yang lebih kompleks.
Maksudnya, TimePillars telah menunjukkan kelebihan ketara dalam pengesanan objek lidar 3D untuk kenderaan autonomi, terutamanya dalam pengesanan jarak jauh dan Pampasan Pergerakan. Walaupun terdapat sedikit pertukaran dalam kelajuan pemprosesan dan had dalam memproses data berbilang sensor, TimePillars masih mewakili kemajuan penting dalam bidang ini.
Kerja ini menunjukkan bahawa mempertimbangkan data sensor lepas adalah lebih baik daripada hanya memanfaatkan maklumat semasa. Mengakses maklumat persekitaran pemanduan terdahulu boleh mengatasi sifat jarang awan titik lidar dan membawa kepada ramalan yang lebih tepat. Kami menunjukkan bahawa rangkaian berulang sesuai sebagai cara untuk mencapai yang terakhir. Pemberian memori sistem membawa kepada penyelesaian yang lebih mantap berbanding kaedah pengagregatan awan titik yang mencipta perwakilan data yang lebih padat melalui pemprosesan yang meluas. Kaedah yang kami cadangkan, TimePillars, melaksanakan cara untuk menyelesaikan masalah rekursif. Dengan hanya menambah tiga lapisan konvolusional tambahan pada proses inferens, kami menunjukkan bahawa blok binaan rangkaian asas adalah mencukupi untuk mencapai hasil yang ketara dan memastikan kecekapan sedia ada dan spesifikasi penyepaduan perkakasan dipenuhi. Untuk pengetahuan terbaik kami, kerja ini menyediakan hasil penanda aras pertama untuk tugas pengesanan objek 3D pada set data terbuka Zenseact yang baru diperkenalkan. Kami berharap kerja kami dapat menyumbang kepada jalan raya yang lebih selamat dan lebih mampan pada masa hadapan.
Atas ialah kandungan terperinci TimePillars: Di manakah laluan pengesanan LiDAR 3D tulen boleh dilanjutkan? Liputan langsung 200m!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!