Pembelajaran boleh beza hujung ke hujung untuk pemanduan autonomi baru-baru ini menjadi paradigma yang menonjol. Halangan utama ialah permintaan besarnya untuk data berlabel berkualiti tinggi, seperti kotak 3D dan pembahagian semantik, yang sangat mahal untuk dianotasi secara manual. Kesukaran ini ditambah lagi dengan fakta yang menonjol bahawa tingkah laku dalam sampel dalam AD selalunya mempunyai pengedaran berekor panjang. Dalam erti kata lain, kebanyakan data yang dikumpul mungkin remeh (mis., memandu ke hadapan di jalan yang lurus), dengan hanya beberapa situasi yang kritikal keselamatan. Dalam kertas kerja ini, kami meneroka isu yang penting tetapi kurang diterokai, iaitu cara mencapai kecekapan sampel dan label dalam AD hujung ke hujung.
Secara khusus, kertas kerja mereka bentuk kaedah pembelajaran aktif berorientasikan perancangan yang secara beransur-ansur menganotasi bahagian data mentah yang dikumpul mengikut kepelbagaian dan kriteria kegunaan laluan perancangan yang dicadangkan. Secara empirikal, pendekatan berorientasikan pelan yang dicadangkan boleh mengatasi kaedah pembelajaran aktif am pada tahap yang besar. Terutama sekali, kaedah kami mencapai prestasi yang setanding dengan kaedah AD hujung-ke-hujung yang canggih menggunakan hanya 30% data nuScenes. Semoga kerja kami akan memberi inspirasi kepada kerja masa depan dari perspektif berpusatkan data, sebagai tambahan kepada usaha metodologi.
Pautan kertas: https://arxiv.org/pdf/2403.02877.pdf
Sumbangan utama artikel ini:
ActiveAD diterangkan secara terperinci dalam rangka kerja AD hujung ke hujung, dan penunjuk kepelbagaian dan ketidakpastian direka berdasarkan ciri data AD.
Untuk pembelajaran aktif dalam penglihatan komputer, pemilihan sampel awal biasanya hanya berdasarkan imej asal tanpa maklumat tambahan atau ciri yang dipelajari, yang membawa kepada amalan biasa pemulaan rawak. Dalam kes AD, terdapat maklumat terdahulu tambahan yang tersedia. Khususnya, apabila mengumpul data daripada penderia, maklumat tradisional seperti kelajuan dan trajektori kenderaan sendiri boleh direkodkan secara serentak. Selain itu, keadaan cuaca dan pencahayaan selalunya berterusan dan mudah dianotasi pada tahap serpihan. Maklumat ini memudahkan membuat pilihan termaklum untuk pemilihan set awal. Oleh itu, kami mereka bentuk ukuran kepelbagaian diri untuk pemilihan awal.
Kepelbagaian Ego: Terdiri daripada tiga bahagian: 1) Pencahayaan cuaca 2) Arahan pemanduan 3) Kelajuan purata. Mula-mula, gunakan perihalan dalam nuScenes untuk membahagikan set data lengkap kepada empat subset yang saling eksklusif: Day Sunny (DS), Day Rainy (DR), Night Sunny (NS), NightRainy (NR). Kedua, setiap subset dibahagikan kepada empat kategori mengikut bilangan arahan pemanduan kiri, kanan dan lurus dalam segmen lengkap: pusing kiri (L), pusing kanan (R), memotong (O), dan jalan lurus (S). Kertas itu mereka bentuk ambang τc, di mana jika bilangan arahan kiri dan kanan dalam klip lebih besar daripada atau sama dengan ambang τc, kami menganggapnya sebagai tingkah laku transenden dalam klip. Jika hanya bilangan arahan kiri lebih besar daripada ambang τc, ia menunjukkan belok kiri. Jika hanya bilangan arahan ke kanan lebih besar daripada ambang τc, ia menunjukkan belok kanan. Semua kes lain dianggap secara langsung. Ketiga, hitung kelajuan purata dalam setiap adegan dan isikannya dalam tertib menaik dalam subset yang berkaitan.
Rajah 2 memberikan proses intuitif terperinci proses pemilihan awal berdasarkan pokok pelbagai hala. . Kami akan menggunakan model perantaraan untuk melakukan inferens pada segmen tidak berlabel, dan pemilihan seterusnya adalah berdasarkan output ini. Namun begitu, perspektif berorientasikan perancangan diguna pakai dan tiga kriteria untuk pemilihan data seterusnya diperkenalkan: ralat anjakan, perlanggaran lembut dan ketidakpastian proksi.
di mana T mewakili bingkai dalam tempat kejadian. Memandangkan ralat anjakan itu sendiri merupakan metrik prestasi (tiada anotasi diperlukan), ia secara semula jadi menjadi kriteria pertama dan paling kritikal dalam pemilihan aktif.
Standard 2: Perlanggaran Lembut (SC). LSC ditakrifkan sebagai jarak antara trajektori kenderaan sendiri yang diramalkan dan trajektori ejen yang diramalkan. Ramalan ejen keyakinan rendah akan ditapis mengikut ambang ε. Dalam setiap senario, jarak terpendek dipilih sebagai ukuran pekali bahaya. Pada masa yang sama, korelasi positif dikekalkan antara jangka dan jarak terdekat:
Gunakan "perlanggaran lembut" sebagai kriteria kerana: Di satu pihak, tidak seperti "ralat anjakan", pengiraan "nisbah perlanggaran" bergantung pada 3D Anotasi sasaran untuk kotak yang tidak tersedia dalam data tidak berlabel. Oleh itu, adalah mungkin untuk mengira kriteria berdasarkan keputusan inferens model semata-mata. Sebaliknya, pertimbangkan kriteria perlanggaran keras: jika trajektori kenderaan sendiri yang diramalkan akan bertembung dengan trajektori ejen ramalan lain, tetapkan ia 1, jika tidak tetapkan ia 0. Walau bagaimanapun, ini mungkin menyebabkan terlalu sedikit sampel dengan label 1, kerana kadar perlanggaran model tercanggih dalam AD biasanya kecil (kurang daripada 1%). Oleh itu, ia telah dipilih untuk menggunakan jarak terdekat dengan pasangan sasaran lain dan bukannya metrik "kadar perlanggaran". Risiko dianggap lebih tinggi apabila jarak ke kenderaan lain atau pejalan kaki terlalu dekat. Ringkasnya, "perlanggaran lembut" ialah ukuran yang berkesan untuk kemungkinan perlanggaran dan boleh memberikan pengawasan yang intensif.
Kriteria III: Ketidakpastian Ejen (AU). Ramalan trajektori masa depan ejen di sekeliling secara semula jadi tidak pasti, jadi modul ramalan gerakan biasanya menjana pelbagai modaliti dan skor keyakinan yang sepadan. Matlamat kami adalah untuk memilih data yang mana ejen berdekatan mempunyai ketidakpastian yang tinggi. Khususnya, subjek yang jauh ditapis keluar oleh ambang jarak δ, dan entropi wajaran bagi kebarangkalian ramalan berbilang mod untuk subjek yang tinggal dikira. Andaikan bahawa bilangan modaliti adalah dan skor keyakinan ejen dalam modaliti berbeza ialah Pi(a), dengan i∈{1,…,Nm}. Kemudian, ketidakpastian ejen boleh ditakrifkan sebagai:
Kerugian Keseluruhan:
Alg1 memperkenalkan keseluruhan aliran kerja. Memandangkan bajet B yang tersedia, saiz pemilihan awal n0, bilangan pemilihan aktiviti yang dibuat pada setiap langkah ni, dan jumlah peringkat pemilihan M. Pemilihan mula-mula dimulakan menggunakan kaedah rawak atau kepelbagaian diri yang diterangkan di atas. Kemudian, data beranotasi pada masa ini digunakan untuk melatih rangkaian. Berdasarkan rangkaian terlatih, kami membuat ramalan pada yang tidak berlabel dan mengira jumlah kerugian. Akhir sekali, sampel diisih mengikut kehilangan keseluruhan dan sampel ni atas yang akan dianotasi dalam lelaran semasa dipilih. Proses ini diulang sehingga lelaran mencapai had atas M dan bilangan sampel yang dipilih mencapai had atas B.
Eksperimen telah dijalankan pada set data nuScenes yang digunakan secara meluas. Semua percubaan dilaksanakan menggunakan PyTorch dan dijalankan pada GPU RTX 3090 dan A100.
Jadual 1: Prestasi perancangan. ActiveAD mengatasi garis dasar pembelajaran aktif umum dalam semua tetapan belanjawan anotasi. Tambahan pula, ActiveAD dengan 30% data mencapai prestasi perancangan yang lebih baik sedikit berbanding latihan menggunakan keseluruhan set data. VAD dengan * menunjukkan hasil kemas kini yang lebih baik daripada yang dilaporkan dalam kerja asal. UniAD dengan † menunjukkan bahawa penunjuk VAD telah digunakan untuk mengemas kini keputusan.
Jadual 2: Eksperimen ablasi yang direka bentuk. "RA" dan "ED" mewakili pemilihan set awal berdasarkan rawak dan kepelbagaian diri. “DE”, “SC” dan “AU” mewakili ralat anjakan, yang masing-masing merupakan perlanggaran lembut dan ketidakpastian ejen. Semua gabungan dengan "ED" dimulakan dengan data 10% yang sama. LDE, LSC dan LAU dinormalisasi kepada [0, 1] masing-masing, dan hiperparameter α dan β ditetapkan kepada 1.
Rajah 3: Visualisasi adegan yang dipilih. Kriteria ralat anjakan (kol 1), perlanggaran lembut (kol 2), ketidakpastian ejen (kol 3) dan hibrid (kol 4) berdasarkan imej kamera hadapan yang dipilih berdasarkan model yang dilatih pada 10% data. Campuran mewakili strategi pilihan terakhir kami, ActiveAD, dan mengambil kira tiga senario pertama!
Jadual 4, prestasi dalam pelbagai senario. Lebih kecil purata L2(m)/purata kadar perlanggaran (%) model aktif menggunakan 30% data, lebih baik prestasi di bawah pelbagai cuaca/cahaya dan keadaan arahan pemanduan.
Rajah 4: Persamaan antara pelbagai kriteria. Ia menunjukkan senario pensampelan baharu dengan 10% (kiri) dan 20% (kanan) dipilih oleh empat kriteria: Ralat Anjakan (DE), Perlanggaran Lembut (SC), Ketidakpastian Agen (AU) dan Pencampuran (MX)
Untuk menyelesaikan masalah kos tinggi dan masalah panjang bagi anotasi data pemanduan autonomi hujung ke hujung, kami menerajui dalam membangunkan penyelesaian pembelajaran aktif yang dibuat khusus, ActiveAD. ActiveAD memperkenalkan kepelbagaian khusus tugasan baharu dan langkah ketidakpastian berdasarkan falsafah berorientasikan perancangan. Sebilangan besar eksperimen membuktikan keberkesanan kaedah menggunakan hanya 30% daripada data, ia jauh melebihi kaedah umum sebelumnya dan mencapai prestasi yang setanding dengan model terkini. Ini mewakili penerokaan bermakna pemanduan autonomi hujung ke hujung daripada perspektif tertumpu data, dan kami berharap kerja kami dapat memberi inspirasi kepada penyelidikan dan penemuan masa hadapan.
Atas ialah kandungan terperinci Apa yang perlu dilakukan jika tiada data hujung ke hujung? ActiveAD: Pembelajaran aktif hujung ke hujung untuk pemanduan autonomi untuk perancangan!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!