Tajuk asal: SIMPL: Garis Dasar Ramalan Pergerakan Pelbagai Agen yang Mudah dan Cekap untuk Pemanduan Autonomi
Pautan kertas: https://arxiv.org/pdf/2402.02519.pdf
Pautan kod: https://github.com /HKUST-Aerial-Robotics/SIMPL
Gabungan pengarang: Hong Kong University of Science and Technology DJI
Kertas ini mencadangkan garis dasar ramalan pergerakan kenderaan yang mudah dan cekap (SIMPL) autonomi Tidak seperti kaedah tertumpu ejen tradisional (yang mempunyai ketepatan yang tinggi tetapi memerlukan pengiraan berulang) dan kaedah tertumpu kepada pemandangan (di mana ketepatan dan keluasan terjejas), SIMPL boleh menyediakan penyelesaian yang komprehensif untuk semua trafik yang berkaitan. Untuk meningkatkan ketepatan dan kelajuan inferens, kertas kerja ini mencadangkan modul gabungan ciri global yang padat dan cekap yang melaksanakan penghantaran mesej terarah secara simetri, membolehkan rangkaian meramalkan gerakan masa depan semua pengguna jalan raya dalam satu hantaran ke hadapan dan mengurangkan ketepatan kerugian yang disebabkan oleh pergerakan sudut pandangan. Tambahan pula, kertas kerja ini menyiasat penggunaan polinomial asas Bernstein untuk parameterisasi trajektori berterusan dalam penyahkodan trajektori, membenarkan penilaian keadaan dan derivatif tertib tinggi mereka pada sebarang titik masa yang dikehendaki, yang berharga untuk tugas perancangan hiliran. Sebagai garis dasar yang kukuh, SIMPL menunjukkan prestasi yang sangat kompetitif pada penanda aras ramalan gerakan Argoverse 1 dan 2 berbanding kaedah terkini yang lain. Tambahan pula, reka bentuknya yang ringan dan kependaman inferens yang rendah menjadikan SIMPL sangat berskala dan menjanjikan untuk penggunaan udara dunia sebenar.
Meramalkan pergerakan peserta trafik di sekeliling adalah penting untuk kenderaan autonomi, terutamanya dalam modul membuat keputusan dan perancangan hiliran. Ramalan niat dan trajektori yang tepat akan meningkatkan keselamatan dan keselesaan perjalanan.
Untuk ramalan gerakan berasaskan pembelajaran, salah satu topik yang paling penting ialah perwakilan konteks. Kaedah awal biasanya mewakili pemandangan sekeliling sebagai imej pandangan mata burung berbilang saluran [1]–[4]. Sebaliknya, penyelidikan baru-baru ini semakin menggunakan perwakilan pemandangan vektor [5]-[13], di mana lokasi dan geometri dianotasi menggunakan set titik atau garis poli dengan koordinat geografi, dengan itu meningkatkan kesetiaan dan mengembangkan medan penerimaan. Walau bagaimanapun, untuk perwakilan raster dan vektor, terdapat persoalan utama: bagaimanakah kita harus memilih bingkai rujukan yang sesuai untuk semua elemen ini? Pendekatan yang mudah adalah untuk menerangkan semua kejadian dalam sistem koordinat yang dikongsi (berpusat di tempat kejadian), seperti yang berpusat pada kenderaan autonomi, dan menggunakan koordinat secara langsung sebagai ciri input. Ini membolehkan kami membuat ramalan untuk berbilang ejen sasaran dalam satu hantaran ke hadapan [8, 14]. Walau bagaimanapun, menggunakan koordinat global sebagai input, ramalan biasanya dibuat untuk berbilang ejen sasaran dalam satu hantaran ke hadapan [8, 14]. Walau bagaimanapun, menggunakan koordinat global sebagai input (yang selalunya berbeza-beza dalam julat yang luas) akan memburukkan lagi kerumitan tugasan yang wujud, mengakibatkan prestasi rangkaian merosot dan kebolehsuaian terhad kepada senario baharu. Untuk meningkatkan ketepatan dan keteguhan, penyelesaian biasa adalah untuk menormalkan konteks adegan mengikut keadaan semasa ejen sasaran [5, 7, 10]-[13] (ejen-sentris). Ini bermakna proses penormalan dan pengekodan ciri mesti dilakukan berulang kali untuk setiap ejen sasaran, yang membawa kepada prestasi yang lebih baik dengan mengorbankan pengiraan berlebihan. Oleh itu, adalah perlu untuk meneroka kaedah yang boleh mengekodkan ciri berbilang objek dengan berkesan sambil mengekalkan keteguhan kepada perubahan perspektif.
Untuk modul hiliran ramalan gerakan, seperti membuat keputusan dan perancangan gerakan, bukan sahaja kedudukan masa depan perlu dipertimbangkan, tetapi juga tajuk, kelajuan dan derivatif peringkat tinggi lain perlu dipertimbangkan. Sebagai contoh, tajuk ramalan kenderaan sekeliling memainkan peranan penting dalam membentuk penghunian ruang masa masa hadapan, yang merupakan faktor utama dalam memastikan perancangan gerakan yang selamat dan mantap [15, 16]. Tambahan pula, meramalkan kuantiti pesanan tinggi secara bebas tanpa mematuhi kekangan fizikal boleh membawa kepada keputusan ramalan yang tidak konsisten [17, 18]. Sebagai contoh, walaupun halaju adalah sifar, ia mungkin menghasilkan anjakan kedudukan yang mengelirukan modul perancangan.
Artikel ini memperkenalkan kaedah yang dipanggil SIMPL (Simple and Efficient Motion Prediction Baseline) untuk menyelesaikan isu utama ramalan trajektori berbilang ejen dalam sistem pemanduan autonomi. Kaedah ini mula-mula menggunakan perwakilan adegan berpusatkan contoh dan kemudian memperkenalkan teknologi Transformer gabungan simetri (SFT), yang mampu meramalkan trajektori semua ejen secara berkesan dalam satu hantaran ke hadapan sambil mengekalkan ketepatan dan keteguhan kepada invarian perspektif. Berbanding dengan kaedah lain berdasarkan gabungan konteks simetri, SFT lebih ringkas, lebih ringan dan lebih mudah untuk dilaksanakan, menjadikannya sesuai untuk digunakan dalam persekitaran kenderaan.
Kedua, kertas kerja ini memperkenalkan kaedah parameterisasi baru untuk trajektori yang diramalkan berdasarkan polinomial asas Bernstein (juga dikenali sebagai lengkung Bezier). Perwakilan berterusan ini memastikan kelancaran dan membolehkan penilaian mudah bagi keadaan tepat dan terbitan tertib tingginya pada bila-bila masa tertentu. Kajian empirikal kertas ini menunjukkan bahawa pembelajaran untuk meramal titik kawalan keluk Bezier adalah lebih cekap dan stabil dari segi berangka daripada menganggarkan pekali polinomial asas monomial.
Akhir sekali, komponen yang dicadangkan disepadukan dengan baik ke dalam model yang ringkas namun cekap. Makalah ini menilai kaedah yang dicadangkan pada dua set data ramalan gerakan berskala besar [22, 23], dan keputusan eksperimen menunjukkan bahawa SIMPL sangat berdaya saing dengan kaedah terkini yang lain walaupun reka bentuknya dipermudahkan. Lebih penting lagi, SIMPL membolehkan ramalan trajektori berbilang ejen yang cekap dengan parameter yang boleh dipelajari yang lebih sedikit dan kependaman inferens yang lebih rendah tanpa mengorbankan prestasi kuantifikasi, yang menjanjikan penggunaan udara dunia sebenar. Kertas ini juga menyerlahkan bahawa, sebagai garis dasar yang kukuh, SIMPL sangat berskala. Seni bina ringkas memudahkan penyepaduan langsung dengan kemajuan terkini dalam ramalan gerakan, memberikan peluang untuk meningkatkan lagi prestasi keseluruhan.
Rajah 1: Ilustrasi ramalan gerakan berbilang ejen dalam senario pemanduan yang kompleks. Pendekatan kami mampu menjana hipotesis yang munasabah untuk semua ejen yang berkaitan secara serentak dalam masa nyata. Kenderaan anda sendiri dan kenderaan lain ditunjukkan dalam warna merah dan biru masing-masing. Gunakan warna kecerunan untuk menggambarkan trajektori yang diramalkan berdasarkan cap masa. Sila rujuk video yang dilampirkan untuk lebih banyak contoh.
Rajah 2: Skema SIMPL. Artikel ini menggunakan seni bina rangkaian yang paling mudah untuk menunjukkan keberkesanannya. Ciri setempat bagi tika semantik diproses oleh pengekod ringkas, manakala ciri antara tikar dikekalkan dalam benam kedudukan relatif. Keputusan ramalan trajektori multimodal dijana oleh penyahkod gerakan selepas Transformer ciri simetri yang dicadangkan.
Rajah 3: Gambarajah skematik pengiraan pose relatif.
Rajah 4: Ilustrasi pengubah gabungan simetri (SFT) yang dicadangkan. Token contoh dan benam kedudukan relatif (RPE) dikemas kini secara kitaran dalam setiap lapisan SFT.
Rajah 5: Lengkung Bezier septik 2D (kiri).
Ringkasan:
Atas ialah kandungan terperinci SIMPL: Penanda aras ramalan gerakan berbilang ejen yang mudah dan cekap untuk pemanduan autonomi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!